当前位置:论文网 > 论文宝库 > 信息科技类 > 通信论文 > 正文

数据密集型数据资源云平台的构建

来源:UC论文网2015-11-06 19:14

摘要:

美国《福布斯》杂志称如今,在浏览新闻网站或者是参加行业会议时,想看不见或听不到大数据这个词几乎是不可能的,大数据已经成为产业界、科学界和政府部门等各界的关注热点。

  美国《福布斯》杂志称“如今,在浏览新闻网站或者是参加行业会议时,想看不见或听不到‘大数据’这个词几乎是不可能的”,大数据已经成为产业界、科学界和政府部门等各界的关注热点。近几年来, 《Nature》、《Science》等国际顶级学术期刊相继出版专刊来推动大数据的研究,中国、美国等多国政府也展开了对大数据的研究部署工作。产业界已经率先认识到大数据所蕴含的海量价值及其战略意义,Amazon、Google、IBM 等IT 巨头纷纷探索应对大数据的解决方案,云计算逐渐成为他们共同的探索方向。科学界也逐步意识到大数据的影响,认为随着大数据时代的到来,科学研究已经进入数据密集型科学研究( Data-Intensive Science Research) 阶段,中国论文网科学范式的转变成为科学界的研究重点。本文探讨了数据密集型科学研究的内涵和特征,以及科学界面临的挑战,并构建了数据资源云平台以帮助科研人员应对数据密集型科学研究中的问题。

  1 数据密集型科学研究的内涵及其特征

  数据密集型科学研究是直接从海量数据中发现科学规律的一种研究范式,是在大数据环境下对实验科学、理论科学和模拟科学的继承与发展。它由三个基本活动组成: 科学数据的采集、管理和分析,其数据来源主要有大型国际实验,跨实验室、单一实验室或个人观察实验,个人生活等。在这一新的科学研究范式中,先利用科学仪器或者模拟方法采集数据,然后通过计算机软硬件设备进行数据的管理和分析,将处理分析后的数据、信息和知识存储在计算机中。信息科学贯穿科学活动的始终,而科研人员对数据的审视是在整个科学活动中比较靠后的步骤才开始的。数据密集型科学研究作为科学大数据环境下科学研究的新发展,具有以下三个特征:

  ( 1) 数据驱动,而不是假设驱动。传统阶段,实验科学、理论科学和模拟科学能够获得和使用的数据相对匮乏,只能采取假设驱动型研究方法,首先根据前人研究成果和自身知识进行假设,然后通过设计实验、理论推导或者是计算机模拟等定义好的方法获取相关数据,对假设进行检验。而现在科学研究已经从数据缺乏时代过渡到数据泛滥时代,数据密集型科学研究不需要模型和假设,科研人员的关注重点也从“我要怎么验证这个假设”转变为“我能从这些数据中发现什么关联”,数据成为科研活动的起点和驱动力。

  ( 2) 强调可重复性。科学研究是人类认识世界、改造世界的重要手段,保证科研结果的可靠性和真实性是科学研究的前提,而可重复性是检验科学研究结果可靠性和真实性最有效的手段。在数据密集型科学研究中,技术的进步使数据传播速度更快、范围更广,产生的影响也更大,所以为了更好地保障科学研究的可信赖性,必须更加重视科研活动的可重复性,从而尽快识别出错误的或者弄虚作假的科研结果,将负面影响降至最低。中国论文网

  ( 3) 相关关系,而不是因果关系。数据密集型科学研究通过对科学数据的分析和挖掘,直接从科学数据中发现科学规律,认识事物的相关关系,其精髓在于客观,但不能像实验科学、理论科学和模拟科学那样检验逻辑上的因果关系。然而科学研究是人类认识世界的手段,其目的不仅是发现科学规律,还要探索规律运行的本质原因,得到相关性之后还需要结合前三种科学方法解释因果性。

  数据密集型科学研究是对前三种科学的继承与发展,将其作为一个新的、科学探索的第四种范式,具有重大的价值和意义,当然也面临一些新的挑战。

  2 数据密集型科学研究面临的挑战

  2. 1 科学数据层面的挑战

  科学数据面临来自诸多方面的挑战,但从研究的角度来说,根本挑战在于其规模性、复杂性和特异性。

  ( 1) 规模性是科研大数据最明显的特征,也是科研人员所面临的首要问题,主要表现在原始数据的规模性和数据增速的规模性: ①原始数据的规模性。科学研究是持续性的活动,传统科学已经产生海量数据积累,如澳大利亚的平方公里阵列射电望远镜项目自开展以来,每天都能产生好几个千万亿字节( PB) 的数据; ②数据增速的规模性。随着科研人员的研究方法和研究仪器越来越先进,科学研究能够生成和获取的数据量越来越多,数据量的增长速度已经超过了数据存储能力的增长速度,导致数据存储和处理能力与日益增长的数据量之间的矛盾愈加尖锐。

  ( 2) 复杂性是科研大数据的重要特征,给科学数据共享造成巨大困难,主要表现在数据类型的复杂性和数据结构的复杂化: ①数据类型的复杂性。美国国家科学委员从科研研究类型角度将科学数据分为4 个基本类别: 预测型、计算型、实验型和记录型,这种划分方式模糊了具体学术活动下所收集到的数据类型的复杂性。计算机技术和科学方法的进步使科研人员能够获得的数据类型愈加复杂化,如核磁共振成像、基因序列、电子显微镜数据等形式; ②数据结构的复杂性。传统科学数据主要以结构化的方式存储在关系型数据库中,但是随着科研人员获取数据的渠道和方式的多样化,非结构化数据成为科学数据的主流形式。与结构化数据相比,非结构化数据的组织更加凌乱、复杂,给数据处理和共享带来挑战。

  ( 3) 特异性是科学数据区别于其他数据的关键特征,对科学数据共享和学术信息交流提出挑战,主要表现在认识的特异性和价值的特异性: ①认识的特异性。由于科学数据与客观世界相分离,对科学数据的认识必然带有主观性,数据采集者认为是数据的采集物,接受者可能不这样认为,观测数据或者模拟数据可能是、或者顶多是“供述的证据”; ②价值的特异性。科学数据作为一种可重复利用的非消耗性资源,其价值增值需经过科研人员的利用来实现。影响科学数据增值程度的因素有两个,一是科学数据本身的价值,决定理论上的最大增值程度;二是数据使用者的能力,决定实际增值程度,而科学数据的交流和共享能够实现数据的多方利用,促使科学数据价值产生指数增长,所以如何实现科学数据共享成为科学界亟需解决的问题。

  2. 2 科学研究层面的挑战

  首先,科研人员缺乏将数据转化为知识的意识和方法。中国论文网一方面,科研人员没有意识到科学数据的价值特异性,绝大部分科学数据会随着科研人员的退休、项目的结束等原因被遗弃,无法被其他人员使用。另一方面,数据密集型科学研究具有无参考性,科学研究方法需要从传统的假设驱动变为数据驱动,科研人员必须培养数据敏感性,以数据为本,转变自己的研究方法以实现数据价值最大化。

  其次,科研人员缺乏设备和技术支持。目前科研项目呈现金字塔型分布,第一层项目能够得到国际财团机构或国家科学基金会的资助,获得超级计算和存储资源,而占大多数的第二层和第三层项目所获得的资助相对有限,数据密集型科学研究的资源需求难以得到满足。科研人员无法平等地获取保证项目所需的资源支撑,延缓了知识创新进程,不利于科学的持续发展。

  最后,数据共享方面存在阻碍。一方面,不同地域、不同学科之间缺乏统一的交流平台,虽然科学研究的地理分布性和跨学科性不断加剧,但仍有接近87. 5%的数据未能形成数据源以供科研人员利用。另一方面,数据共享在具体实施层面,会涉及到各方面的利益,政策、制度等因素导致原始数据、研究方法等无法实现真正共享,跨国项目在此方面的问题尤为突出,因此,科学交流体系的完善值得引起科学界和国际方面的关注。

  3 云计算在数据密集型科学研究中应用的必要性分析

  云计算是一种利用互联网实现随时随地、按需、便捷地访问共享资源池( 如计算设施、存储设备、应用程序等) 的计算模式,Gartner 公布的2014 年的技术成熟度曲线,Cloud Computing 正处于泡沫化的谷底期,已经度过了最危险的期望膨胀期,人们对云计算的认识逐渐趋于理性和成熟,业界也不再热衷于炒作云计算概念,而是将实现云计算的成熟和规模应用作为努力的方向。Gartner 的2014 年十大技术和趋势评选中的个人云时代、规模IT 都属于云计算的应用,云计算真正与实际应用和环境融合,实现从探索向应用转变,成为大数据时代个人和企业进行数据管理的必然选择。

  在对数据管理的使用和认识上,很多科学领域都落后商业领域至少10 年,云计算在商业领域的广泛应用对于科学领域具有借鉴意义,将云计算应用于数据密集型科学研究中具有可行性和必要性。

  第一,帮助科研人员应对科学大数据规模性带来的存储挑战。超大规模是云计算最基本的特点,其底层由数十万台乃至数百万台的服务器集群组成,如Google 云计算中心已经具有几百万台服务器,云计算中心通过运维管理、资源管理等机制整合和管理这些庞大的计算机集群,具备了海量数据存储能力,能够有效地应对科学大数据的规模性。此外,云计算采取横向扩张方式,即增加更多的逻辑单元资源,与传统通过增加单个逻辑单元资源性能的纵向扩展方式相比,中国论文网横向扩展方式具有成本低、部署周期短、灵活性强等优势,能够更好地应对科学大数据增速的规模性。

  第二,为科研人员提供面向非结构化数据的弹性计算能力,以应对科学大数据的复杂性。MapReduce 作为云计算系统中的关键数据处理组件,具有两个核心理念: 一是将问题分而治之,分布式处理是面对海量数据时的首要选择; 二是移动计算而非移动数据,避免数据传输过程中产生的大量通信开销。MapReduce 的设计初衷就是面向海量非结构化数据的处理,部署在海量基础设施之上,使云计算具有能够应对科学大数据规模性和复杂性的强大计算能力。结合虚拟化技术在云计算中的成功应用,云计算可以根据用户实际使用情况对资源进行动态分配,及时满足用户对计算资源需求的变化,帮助科研人员应对突发情况。

  第三,实现数据的长期保存和可获得性,为科学数据共享提供保障。科学数据按照科研活动过程来划分可以分为原始数据、推导和组合数据、文献,这些数据是数据密集型科学研究的核心要素,因此必须保证科学数据的完整性、安全性和可获得性。云计算中心具有完善的保障措施,在硬件方面采用了计算节点同构可互换、网络和能源方面的冗余设计等措施,软件方面采用了多副本容错、心跳检测等技术来保证数据的可获得性和安全性。而且科学数据由云计算提供方统一管理,打破了原有数字资源分散的局面,有利于资源的有效流通、利用和共享,实现科学数据的价值特异性。

  第四,为科研活动建立统一平台,使所有科研人员可以平等享有各种服务。服务是云计算的核心理念,也是云计算与传统的并行计算、分布式计算、网格计算的一个关键区别。云计算是为了让用户能够平等、透明地使用云计算资源,就像使用水电这样的生活基础设施一样便捷。云计算通过向用户提供统一的一体化平台,将传统的应用集成概念延伸为服务集成,从而将数据采集服务、数据存储服务、数据管理服务、数据处理服务、数据参考咨询服务等资源和服务能力集成到云计算系统中。

  4 数据资源云平台的构建

  然而云计算技术并不能提供完整和通用的解决方案,为了满足可重复性、数据共享等需求,需要运用信息资源管理领域相关技术,才能在更大程度上帮助科研人员应对科学大数据的挑战。因此,数据资源云是以云计算为基础,以数据密集型科学研究为主体,以信息资源管理相关技术为补充,以数据为核心,以科学活动过程为导向,以数据服务为目标的服务平台。

  4. 1 云基础服务平台

  云计算基础服务平台是整个数据资源云的基础,将物理基础设施按照云计算平台标准构建而成,为上层服务提供硬件支持和环境保障,科研人员可以充分利用平台提供的软硬件设施便捷地构建出大规模应用。其中虚拟化技术是实现科研人员在使用数据资源云时如同使用本地资源一样的关键技术,它能够对计算资源、存储资源、网络资源、科研设备等进行分配封装,向用户提供接口,以虚拟的形式提供给科研人员使用。科研人员可以将他们保存在本地磁盘的数据转移到数据资源云中,交给专业人员进行集中管理,实现数据的长期保存,还可以通过接口访问和使用各种大型仪器设备,平等获取项目所需资源。

  4. 2 科学数据处理与服务层

  4. 2. 1 科学数据处理

  鉴于数据密集型科学研究的特征,数据资源云并非按照传统的思路进行构建,而是遵循数据驱动的理念,以数据为起点,经过科学数据资源科学数据处理步骤之后才是科研人员审视,因此在科学数据处理方面,数据资源云采取的流程、技术都有别于传统的假设驱动型平台。

  首先,需要对实验数据、模拟数据、科研人员信息等原始数据进行资源化。资源化的数据才能在后续的操作中产生更大的价值,通过数据集成消除数据之间的异构性,删除重复数据,对关联数据进行逻辑上的封装,减少后期处理中的资源开销。为了满足数据密集型科学研究可重复性的需求,数据世系管理成为科学数据处理过程中必不可少的环节。数据世系一般出现在包含多数据集的应用中,用于描述数据的产生并随着时间推移而演化的整个过程。对于项目实施者来说,数据世系配合分布式文件系统的容灾备份机制,可以在出现故障时,正确、快速地恢复数据。对于数据使用者来说,可以充分了解数据的演化过程,加深对实验结果的理解,帮助实现科研成果的再现,保证科研活动的可信赖性和可重复性。

  其次,科学数据分析是科研活动中的关键环节,主要包括海量语义分析、科研人员需求分析和海量数据挖掘。语义技术可以对概念、术语等进行明确的机器编码定义,并且能够对它们之间的相互关系进行陈述性和条件性的定义,使跨区域、跨学科的数据能够被科研人员、学生甚至是普通大众所理解和使用,是促进数据共享的关键。在海量数据中挖掘规律是数据密集型科学研究的重要手段,数据资源云能为科研人员提供弹性计算能力,MapReduce 在海量数据和非结构化数据处理方面的能力已经得到了各界的认可。而云科学工作流在重复性和流程性工作方面的表现更加优异,可以为科研人员提供可视化建模工具,使科研人员即使不具有程序设计知识也可以根据实际需要设计云科学工作流模型,表示科学工作流的任务及任务之间的关系。所以,MapReduce 和云科学工作流的结合可以帮助科研人员应对科学数据的规模性和复杂性。中国论文网此外,为了提高后续服务质量,需要根据科研人员的问题和所处问题环境,利用数据挖掘的方法和工具对他们的学习层次、科研经历、研究方向等方面加以分析,挖掘他们的兴趣点和知识需求点,形成隐性需求分析文档,从而为后续的推送服务提供依据。

  最后,科研人员对处理结果的价值进行判断和审视。在数据密集型科学中,科研人员不再直接参与科学数据的处理和分析,该任务由数据资源云来完成,他们的任务是在整个科学活动的后期审视和筛选处理分析的结果,将符合条件或者有价值的结果加工处理为知识,发布到数据资源云。如果结果不具有实际价值或者未达到预期效果,科研人员则向之前的环节反馈,数据资源云按照科研人员的反馈信息通过重新选择数据、调整云科学工作流模型等方式来重新进行数据处理,以获得满意结果。

  4. 2. 2 数据服务

  鉴于数据密集型科学研究具有数据驱动、可重复性等特征,仅仅向科研人员提供知识已经无法满足其资源需求,原始数据、推导和重组数据成为数据密集型科学研究中同等重要甚至更加重要的研究资源。数据资源云将数据服务作为特色服务,在保留传统云服务平台向用户提供知识服务项目的同时,又创造性地将原始数据、推导和重组数据添加到服务内容中,力求向用户提供更为全面的数据服务,满足科研人员在数据密集型科学研究中的需求。

  知识层面的服务主要包括知识发布、知识推送和知识交流等环节。数据资源云能够自动地将不同科研人员在不同时间、不同地点生产出来的科技知识进行发布,实现知识的即时公开,缩短知识发现到知识应用之间的时间。知识发布是知识服务的第一个环节,为了实现知识服务效率的最大化,结合前期的科研人员需求分析结果,将最新知识推送给相关科研人员,加速知识流动速率,提高科研人员的科学生产力。数据资源云还为不同学科的科研人员提供交流平台,打破不同学科之间的壁垒。同时,为从事具体学科研究的科研人员与信息科研人员提供了一种科研场景,实现特定领域科研需求与信息技术之间的大量交互,有助于相应领域语义语言、工具和应用系统的改进和完善。然而,在数据密集型科学研究中,知识与科研过程中产生的推导和重组数据与原始数据相比只是冰山一角,数据是科学研究的基础,向用户提供数据服务,可以提高其工作效率,加速知识创新,主要包括数据共享、数据溯源和数据可视化。首先,数据的长期保存和可获取性保证了数据共享的可行性,语义分析、数据世系等技术保证了数据共享的价值性。数据资源云是一个开放合作的平台,科研人员可以按需搜索、理解以及利用自己需要的数据资源,实现更大规模的数据流动,实现科学数据价值增值。其次,数据资源云可以向用户提供数据溯源服务。数据资源云不仅可以发布研究成果等知识,还可以发布产生知识整个过程的源流信息和数据,即在提供知识的同时,还可以提供该知识涉及到的支撑数据以及中间过程产生的整合信息、推导和重组数据,以服务流的形式出现,加深对数据的理解和认识。此外,数据可视化将海量数据通过平面或者立体图形的方式呈献给科研人员,根据前期的数据资源化和分析处理结果,对可视化图形界面进行优化,既可以向用户提供数据的二维、三维的可视化效果,还可以添加时间维,向用户提供四维的数据可视化界面,即数据随着时间的变化而变化,产生动态感,实现过程可视化。此外,数据资源云在实现知识和数据同时在线的基础上,通过数据的生命周期管理,可将数据和知识同时联系在一起且可以交互操作。这样用户在查看某个研究成果时可以直接查看其原始数据,甚至是重做其分析,同样也可以从数据追溯到使用该数据的科研项目及其研究结果,提高科研活动的效率。

  5 结束语

  数据密集型科学研究是在科学大数据背景下产生的,传统的数据管理技术无法有效地应对科学大数据,云计算技术成为满足现代科研人员科研需求的必然选择。本文构建的数据资源云以云计算为主要框架,并结合了信息资源管理的相关技术,中国论文网是面向数据密集型科学研究的数据管理和服务平台,能够帮助科研人员解决数据密集型科学研究中的科学大数据问题,有利于促进数据共享和知识创新。但是数据资源云中仍然存在一些不足之处,比如如何高效集成不同类型的数据源、更好地保护数据安全等问题,并且本文没有对数据共享、隐私保护等方面的政策制定问题进行探讨,这些都有待在后续的研究中继续完善。

核心期刊推荐