当前位置:论文网 > 论文宝库 > 信息科技类 > 计算机应用论文 > 正文

探讨云计算在海量数据挖掘过程中的问题

来源:UC论文网2016-01-03 14:41

摘要:

摘 要 :当今时代,云计算、云服务等逐渐从科学家们的观念中走入生活,被投入到广泛的应用之中,并且被大众所认可。然而,从整个云计算框架上来看,其发展却只是刚刚起步,尚

摘 要:当今时代,云计算、云服务等逐渐从科学家们的观念中走入生活,被投入到广泛的应用之中,并且被大众所认可。然而,从整个云计算框架上来看,其发展却只是刚刚起步,尚未有特别完善的研究体系落成。另一方面,在其实际操作中尚有一些缺陷。基于此,在分析云计算应用价值的基础上,探讨了云计算技术在海量数据挖掘过程中的问题,用以读者参读。

关键词:云计算;数据挖掘;节约资源;统筹统管
 

  1 云计算的应用价值

  1.1 更加节约资源

  相比于以往的硬件存储,云计算将更加节省人力、物力,并且其安全的性能也得到了较好的保障。这种全新的理念与模式主要是利用一些服务器的集中状态,这些服务器在被集群之后,其功能将十分强大,能够分门别类地对于各种资源进行筛选,并且根据云用户的需求,配送到其用户中心。这样一来,一方面客户能够比较方便地利用网络上各种资源,另一方面,运营方由于没有传统的硬件平台的缺陷的制约,能够节约成本,促进创新。在大数据处理方面,云计算、云处理更是能够发挥其优势进行解决,对于大数据的综合性的计算,深层的挖掘及最后的整合,在云端的辅助之下,一切都可变得流畅。这很好的弥补了当前大型计算机的不足之处,一些难以处理的大数据及超级文件,在云计算完成了强大计算资源池的转换之后,将变得容易的多。

  1.2 云计算为推进信息化建设提供有效途径

  1.2.1 为统筹统管创造有利条件

  传统的硬件处理过程中,常常无法对数据进行较为集中的存放,尤其是当遇上数据较大的情况时,工作人员的硬件存储管理工作,常常是复杂并且繁冗的。云计算可以克服这一点,在资源被分割的零散状态之下,可以通过其强大的计算功能将其进行整合,这一点对于数据的管理是一个福音,对于运营及管理人员更是福音。另外,对于网络上技术标准不一的状况也能有改善的作用。

  1.2.2 为信息系统安全运行提供技术支持

  云计算最大好处,在于其结构的虚拟化。以往的硬件在运行使用的过程中,由于材质等方面的原因,常常容易出现故障,并且这些故障都需要进行较大工作量的维护。而云计算克服了此点,一旦出现局域故障,云计算中心能够依据其远程的维护功能,对于普遍存在的故障进行云分析,进而实现云修补。另外,在病毒查杀的过程中,联网云查杀使得查杀的能力大幅度提高,信息系统的安全性能得以提升。

  2 云计算技术在海量数据挖掘过程中的关键问题

  2.1 虚拟机迁移

  虚拟机经常需要得到迁移,因为在迁移的过程中能够避开热点,从而使得数据中心的负载,而不是总处于超负荷的状态,即是一个减压平衡的过程。另外,数据中心在这一过程中,其高度相应也有望被提高。以往虚拟机的迁移常常是比较滞后的,然而近年来已经克服了此点。以往虚拟机的滞后迁移,对于进程级迁移方法来说,需要面对不少的困难,然而,在运用了实时迁移之后,这些困难都可以被克服。然而,在避免热点的过程中,常常是比较艰难的。因为系统的灵活性常常无法跟上。另一方面,一旦进行高效的迁移,物理服务器的资源负载常常不足以支撑,一旦无法支撑,整个迁移过程将变得十分棘手。

  2.2 服务器整合

  为使能源消耗被减到最低,常常采用服务器整合之法,服务器在被整合之后,资源的利用率可因此提高。不同的服务器使用率不尽相同,因而高频可以弥补低频,而低频可为高频减压。在服务器被整合之后,它的性能可能不会因此得到优化,然而,在云计算的理念中,也不应该是消退的。资源虚拟机的变化是永恒的,其变化间不断被共享的各种服务器资源,如果一旦被突然使用,尤其是在黄金时间段的大量使用,会使一种信息出现拥堵状况。因而,这个不利的因素应当被考虑进去,以便于在该种情况发生时,系统能够处理应付。

  2.3 能耗管理

  云计算的众多问题中,能源效率也是一极其迫切的任务。运营的支出中,能耗成本能占到一半以上。因而,目前能耗的支出将是制约基础设施提供商发展的最大瓶颈以及障碍。在现在看来,光是减少能耗,自然是不够的,也要考虑到废能量或者多于能量排除后,对于环境的不利影响。这些问题或许我们能够提供以下思路:第一,处理好硬件架构;第二,在运行时,关闭一些不重要的硬件组;第三,对于CPU的速度应该控制在一个合理的范围之内。另外,在最新的研究中,也将基础设施作为一个重要的可优化项目考虑进去。总之,在保持性能的时候,如何保持其能耗在一定范围之内,这是需要做好的,也是科研人员们正在努力攻关的。

  2.4 流量管理和分析

  流量的管理无论在何种计算的环境下都是十分值得关注的问题。分析数据流量可以让用户得到较为优化的体验,目前多数web应用程序都采用了此点。在进行一些重大的决策之前,决策者必须要知道数据流量。然而在普及到云的领域中时,却遭遇了较大的麻烦。原因是ISP密度不算高,然而,云的相应部件却高的出奇,使得原本的技术不能被云所接受。还有,传统的方法中,大型的流量矩阵,都只有几百台主机,那些方法固然能在几百台主机之间较为灵活地运用,然而当遇到了几千台服务器的小型云数据中心其速度会缩减几十倍,而几千台的量只是小型,大型的常常几万甚至十数万。另外还存在现在的流量模式与以往不同,模式难以兼容等问题。以上种种,都是其难以被云所接受的原因。

  2.5 软件框架

  以往难以实现的大型的,密集型的数据平台,只是存在于理念之中,而云计算却让海量数据的挖掘成为了可能。在mapreduce框架被构造之后,这些应用程序能够被运行。并且这些应用程序的类型,也决定了mapreduce的性能及资源消耗。在grep任务中,其运行是以大量的CPU资源占有量为基础,否则无法实现。而Hadoop任务sort则是密集型的。另外其vm结构也极有可能是异构的。其可用宽带常常不是来自于本身,对于其他宽带中的相似vm,也可以发挥相同作用。因而,对于进行优化性能及节约成本的操作时,需要对其参数值及调度算法进行甄别。为充分优化其执行时间,可以采用环节瓶颈资源的方式。然而,性能建模这个环节始终是关键所在。Mapreduce的框架在节能方面,具有较强的感知功能。一项即将告终的Hadoop节点要进入睡眠之时,这就是该方法的重要思想来源。

  2.6 存储技术和数据管理

  在网际文件系统的运行之间,有一些框架借助于此在运行。这就是mapreduce,它能够处理数据密集的大型任务。和传统的文件体系不同的是,其存储结构、应用编程的接口,都有其自己的模式,尤其是标准POSIX接口没有被实现,因而兼容性问题被引用,并且起到了干扰作用。为了解决该类问题,以新的API原语支持可伸缩以及并发数据的访问为基础,以及集群文件体系纷纷被运用。

  3 结 语

  云计算的产生,是服务于当代的商业模式,满足于当代大数据时代的处理需求的结果。当然,前提是,需要有着足够强大的技术支持。在对云计算的建设及管理进行讨论后,本文对云计算在海量数据挖掘过程中的问题进行了分析和探讨。也指出了未来发展中瓶颈,希望对相关研究有所裨益。

  参考文献

  [1]崔云飞,李艺,李昀,等.基于SOA的云计算体系结构研究[J].装备指挥技术学院学报,2011(4).

  [2]成定荣.云计算在图书馆应用初探[J].中国科技信息,2011(17).

  [3]冯毅.浅谈在云计算平台下企业电子商务的发展[J].中国高新技术企业,2011(24).


核心期刊推荐