您的位置: 首页 >> 人工智能

云計算能夠改變科學計算嗎

2019.09.21 来源: 浏览:0次

  云计算能够改变科学计算吗

  中国IDC圈4月22道,日前,云计算专家汤姆威尔基提供了两个例证,科学数据集的增长推动向云计算进军,另外,这将深入地改变科学计算

  今年一月初,伦敦韦尔科姆基金会邀请生命科学领域的一些研究人员参会,对一个新的私有学术云进行数据分析初步的结果进行评定,而这个私有学术云是由七个学术研究机构组成的emedlab同盟成立的而几个月前在大西洋的另一边,美国国家科学基金会(NSF)宣布将为Aristotle云联盟中的三个大学的私人学术云连续5年赠予500万美元的研究资金

  私有云和联合云都试图解决同样的两个科学问题:如何利用学术机构有限的预算,为分析现代科学所产生的巨大的数据集提供必要的计算能力和如何能够有效地同享这些数据集,而没必要重复这些数据集

  这两个项目举例说明行业人士近期对高性能云计算的兴趣大增,而在《科学计算世界》的二月和三月号的专题文章中描写:HPC终究登上云端

  伦敦大学学院研究平台总监兼emedlab项目经理杰克帕拉斯表示:很多生物医学工程人员想要访问相同的核心数据集例如,国际癌症基因组协会的数据集就达到了2PB字节,我们不希望出现如此大规模的数据集在不同的组织复制的情况

  来自患者或志愿者的医疗研究数据是敏感的,有着相关法律和道德的限制,而这些数据在物理上来讲谁都可以访问只是移动PB级的数据本身就是一个挑战,需要大量时间帕拉斯估计,即使采用一个由英国联合学术(Janet)提供的专用万兆的快速连接,它仍然需要一个月的时间才能得到来自欧洲生物信息学研究所的1PB的emedlab结构数据而复制非常大的数据集,不管是不是迁移动副本,这个工作量很快就变得十分沉重

  让计算接近数据

  eMedLab项目团队为一个非常紧密耦合的计算基础设施创建背后的驱动程序,其中的一部分就是创建一个PB级数据存储系统,对于这类方式,帕拉斯解释道:我们可以容纳这些大的数据集,并让他们的多个研究小组对这些数据的不同的问题进行分析

  该联盟选择了云解决方案,而没有采取一个简单的HPC集群帕拉斯继续说,由于许多不同的研究小组进行了假想,要求资源针对不同的问题数据集,使用完全不同类型的代码和分析管道随着云计算的解决方案的采取,生物信息学研究人员可以建立自己的虚拟机,这是他们的首选管道套件,通过他们的台式机和端口进入eMedLab为了满足用户要求尽可能多的计算和分析需要,采取的核心处理器的数量高达6000个

  Aristotle云同盟面临着与之惊人类似的挑战康奈尔大学的高级计算中心主任(CAC)和联合项目负责人戴维利夫卡表示:大数据就是大美元人们必须有一个数据管理计划,并且说明他们将如何分享这些数据并使之有效,人们正为此而努力在不同的学科中,特别是基因组学和天文学,它们都被埋藏在数据中他们没有共享数据,而这也不只是复制其数据的一个很好的方式,当你谈论到复制是PB级数据是很难的如果能在源代码中分析数据而不用移动数据,那是一个非常符合成本效益的模型,使得它更容易管理

  研究人员驱动

  部份的理论基础也让研究人员成为技术驱动的主要因素:我们认为,如果采取学术合作,推动数据同享,那末需要基础设施来支持,从而联合如果你有这么多的数据,你就需要为多个机构成员共享资源

  eMedLab的研究机构大多位于伦敦,其中包括:伦敦大学学院;伦敦大学玛丽女王学院;伦敦卫生与热带医学学院;伦敦大学国王学院;弗兰西斯克里克所;桑格研究所和欧洲生物信息研究所商业数据中心提供商的物理云位于伦敦西区的斯劳镇硬件是由英国的集成商OCF公司的设备部署在一起,他们的工作也延伸到了OpenStack软件OCF公司一直在支持社区的工作帕拉斯说

  Aristotle云联盟的地理位没有这样的紧凑,因为这些机构从美国东海岸横跨到西海岸:它是由康奈尔大学(Cu),布法罗大学(UB),加利福尼亚大学,圣塔巴巴拉分校(UCSB)共同承当的每个站点都有自己的云计算基础设施,因此它是一个真正的同盟,其硬件是真正的分布式部署利夫卡说

  像emedlab项目,Aristotle联盟一般都有万兆连接的络,我可以告知你,我们已在研究和思考未来的10万兆的络连接技术利夫卡说,该同盟的Globus公司主要采取移动数据,其部份原因是其可靠性,也是为了用户和访问的方便性该联盟正在使用InCommon,这是美国教育和科研标准的信任框架,允许访问资源共享,并以此来验证用户身份,为Globus提供支持因此,通过登录,用户有一个标准的方式来移动数据,为每个云采用身份验证的标准方法和方式来启动虚拟机,它只是成为学习如何做的事情,利夫卡说

  这一切的云计算的好处是,如果你有一个HPC集群和大家分享,别人的HPC集群也可以同享,你可以使用他们的软件堆栈每次你想改变它,可以为你提供需要的东西,你必须要和每个人有一个完全连接,它只是没有形成范围但是,利夫卡继续说,在云计算,你只需在自己的虚拟机上就获得自已的分析数据环境

  他强调,目的是为了让研究人员做事情更加容易:我们当地的云总是会很谦虚,但你希望能够让它尽量容易移动,而你不想阻碍研究人员所以,你要为研究者具有优化其预算的能力;优化他们的时间,优化他们对数据的访问在一个标准的HPC集群上做这些,是非常困难的事情

  商业云的不同观点

  尽管有相似之处,但两者之间有很大的区分,这其中的缘由部份来自地理位置,也有不同的法律约束特别是商业云对此的态度

  来自英国的医学研究理事会的拨款原来集中于三种疾病;癌症,心血管疾病,和罕见的疾病帕拉斯指出eMedLab的架构是为这种类型的医疗和生物信息学进行的专门的研究和设计她继续说:商业云提供商架构有问题,这是非常大的商品,没有对我们在学术界使用的专门结构进行优化此外,由于欧洲的法律限制,存在的数据要物理保持在所在国,并在组织的控制下,这是受欧盟数据立法保护,这使得我们的商业供应商在法律上十分敏感

  另一个问题是,斟酌可以进入商业云计算的数据集相干的定价和速度:商业云提供商的数据出口收费和分析数据出口收费是目前研究小组面临的问题;而如果移动数据,那是相当重要的帕拉斯说然而,她并没有完全排除这种情况:我不是说我们不会进入商业云,我固然认为那里是有价值的

  Eucalyptus或OpenStack?

  利夫卡更看好商业云对科学的潜力首先,Aristotle云采用了Helion公司的Eucalyptus,这是来自惠普企业(HPE)的软件,而不是OpenStack的(eMedLab已采取)其原因是,Eucalyptus是亚马逊络服务(AWS)云软件的开源实现利夫卡说:我们很清楚,亚马逊是一个公共服务,人们想采用Eucalyptus是由于其百分之百的兼容

  Eucalyptus允许用户集中计算,存储和络资源,或动态扩展,因为应用程序工作负载的变化满足所有的云启用软件的功能任何人都可以免费下载该软件,并建立与AWS的API兼容的私有云和混合云的云可从HPE获得可选的咨询服务

  三层联合云模型

  利夫卡假想了一个3层云模型:首先在自己的数据中心运行;然后,当自己的数据中心饱和的,再到合作的伙伴运行;然后,再到达饱和时,就移动到一个NSF云或亚马逊云利夫卡说,如果你能保持充分利用一个资源,并且在自己的数据中心运营更加做便宜;但是如果你不能,最好把它外包出去就像你并不是每天开车去上班,大部分时间是闲置的,那为何买一辆车但是如果你每天开车去上班,那末买一辆车比租一辆车要便宜很多

  Aristotle项目已从康奈尔大学的初期实验发展成为一个中等范围的云,成为人们在康奈尔大学真正的HPC集群的互补的资源但是有一个问题,即使是一流大学,如康奈尔大学,也会对计算资源的资本开支进行限制如果多个机构的联合云结合在一起,资金成本可能会大幅增加但是,他指出:当人们不再采取亚马逊云时,那是因为他们比我们需要利用更多的资源但是,我们可以提供,我们可以保持资源的范围,并提供更好的价格,所以我们可以很容易为用户挑选最符合其本钱效益的价格/性能的解决方案Aristotle项目的合作伙伴UB和UCSB开发,将帮助科学家在什么时候使用他们的机构之外的联合资源时作出明智的决定

  英国eMedLab项目和美国国家科学基金会资助Aristotle云的重点是其数据密集型应用,利夫卡相信针对计算密集型的工作也将有很多机会然而,帕拉斯承认商业云提供商是不会采取紧耦合的基础设施为核心业务,因为硬件的溢价,他们不会获得足够的业务来恢复它他们将直接放弃服务器这就是市场的成交量,也是他们的赌注,但是,他对此表示乐观,并认为研究界会适应它的计算,以适应他们所具有的计算资源类型的方式

  

  时间到科学才是最重要的

  利夫卡描绘了HPC未来愿景,并认为商用服务器将代替专业组件回溯到上世纪80年代,当每个人都在买自己喜欢的超级计算机时然后,英特尔公司走了出来,说:你可以建立一个Beowulf集群,它会做几乎所有的大型机所能做到的一切人们嘲笑地说:这行不通你必须有一个思维连接机器;或你得有一个IBM公司的SP而如今再看看我们现在的情况这一行业带动了市场的数量和研究的调剂,而这样的研究才是非常好的

  利夫卡表示,如今也将看到一个类似的模式转变的,缘由是研究者重要的是科学的时间,而不再用时间的长度来衡量的计算时间如果你的计算任务可以在一个国家超级计算中心排队,在你的工作运行队列需要五天的时间,然后你取得50000个核心处理器运转,你的工作时间是几个小时,这是了不起的但是如果你现在能得到50000个核心的话,则无需等待,而你的工作需要运行较长时间,但它仍然会在结束前,你的其他工作将在超级计算机上启动

  时间到科学是最重要的,他总结说,在一个紧密耦合方式使用,其实不知道采取了多少个核心处理器研究人员将进行调整他们关心的是结果,最好的价格,以及在队列中的最少的时间

  他并不是暗示紧密耦合的超级计算机是过剩的:真正需要的高端的东西的人都将依然需要它,他们将在国家超级计算中心运行它但是,很少有学术机构将能够负担得起这个系统的费用,除非是得到了美国联邦政府的资助或被游戏系统采取

  利夫卡认为,这将迫使大多数用户找出一种新的方式实施科学计算,由于这些人并没有国家资助的计算资源这是我第一次看到管理IT驱动的发展趋势,而不是研究出来的人们对企业应用和代码使用云基础设施的需求越来越高当他们做到这一点,研究界开始流行开来,并看到了效益我认为这将会改变游戏规则

  但是,这类革命不会很快发生,利夫卡说,从英特尔的笔记本电脑到英特尔的超级计算机并不是在一天中所实现的我认为人们将对超级计算机有一个巨大的需求,但这是一个互补的资源,将为那些最需要它的研究人员腾出使用超级计算机的时间他总结道:如果每个人都有自己的时间进行科学完善,那末人人都将是赢家

孩子脸色发黄怎么回事
小孩子脸发黄怎么回事
微信制作小程序
Tags:
友情链接