大数据时代发展历程是什么?

lin12345610 2021-09-19 09:07 237 次浏览 赞 117

最新问答

  • 健康是福83

    第一阶段,运营式系统阶段。在上世纪七八十年代,用户购物时产生的记录一条条输入库,当时都是由这些运营系统生成这些的。

    第二阶段,由用户原创内容阶段。2002年的时候,开始有了博客,后来发展成微博,到后来出现的微信,这些让每个网民都成了自媒体,都可以自己随心所地向网络发布相关的信息,这个时候产生的速度要远远大于之前的仅仅由运营系统产生的。

    第三阶段,感知式系统阶段。真正让大时代由量变到质变是因为产生的方式到了第三个阶段——感知式系统阶段。

    感知式系统阶段也就是物联网的大规模普及,物联网的迅速发展让大时代最终到来。

    大是互联网发展到一定阶段的必然产物:

    由于互联网在整合方面的能力在不断增强,互联网本身必须通过来体现出自身的价值,所以从这个角度来看,大正在充当互联网价值的体现者。

    随着更多的社会进行网络化和化改造,大所能承载的价值也必将不断提到提高,大的应用边界也会不断得到拓展,所以在未来的网络化时代,大自身不仅能够代表价值,大自身更是能够创造价值。

    浏览 373赞 96时间 2023-04-19
  • 吃货终结者0416

    大技术发展史:大的前世今生

    今天我们常说的大技术,其实起源于Google在2004年前后发表的三篇论文,也就是我们经常听到的“三驾马车”,分别是分布式文件系统GFS、大分布式计算框架MapReduce和NoSQL库系统BigTable。

    你知道,搜索引擎主要就做两件事情,一个是网页抓取,一个是索引构建,而在这个过程中,有大量的需要存储和计算。这“三驾马车”其实就是用来解决这个问题的,你从介绍中也能看出来,一个文件系统、一个计算框架、一个库系统。

    现在你听到分布式、大之类的词,肯定一点儿也不陌生。但你要知道,在2004年那会儿,整个互联网还处于懵懂时代,Google发布的论文实在是让业界为之一振,大家恍然大悟,原来还可以这么玩。

    因为那个时间段,大多数公司的关注点其实还是聚焦在单机上,在思考如何提升单机的性能,寻找更贵更好的服务器。而Google的思路是部署一个大规模的服务器集,通过分布式的方式将海量存储在这个集上,然后利用集上的所有机器进行计算。 这样,Google其实不需要买很多很贵的服务器,它只要把这些普通的机器组织到一起,就非常厉害了。

    当时的天才程序员,也是Lucene开源项目的创始人Doug Cutting正在开发开源搜索引擎Nutch,阅读了Google的论文后,他非常兴奋,紧接着就根据论文原理初步实现了类似GFS和MapReduce的功能。

    两年后的2006年,Doug Cutting将这些大相关的功能从Nutch中分离了出来,然后启动了一个的项目专门开发维护大技术,这就是后来赫赫有名的Hadoop,主要包括Hadoop分布式文件系统HDFS和大计算引擎MapReduce。

    当我们回顾软件开发的历史,包括我们自己开发的软件,你会发现,有的软件在开发出来以后无人问津或者寥寥数人使用,这样的软件其实在所有开发出来的软件中占大多数。而有的软件则可能会开创一个行业,每年创造数百亿美元的价值,创造百万计的就业岗位,这些软件曾经是Windows、Linux、Java,而现在这个要加上Hadoop的名字。

    如果有时间,你可以简单浏览下Hadoop的代,这个纯用Java编写的软件其实并没有什么高深的技术难点,使用的也都是一些最基础的编程技巧,也没有什么出奇之处,但是它却给社会带来巨大的影响,甚至带动一场深刻的科技,推动了人工智能的发展与进步。

    我觉得,我们在做软件开发的时候,也可以多思考一下,我们所开发软件的价值点在哪里?真正需要使用软件实现价值的地方在哪里?你应该关注业务、理解业务,有价值导向,用自己的技术为公司创造真正的价值,进而实现自己的人生价值。而不是整天埋头在需求说明文档里,做一个没有思考的代机器人。

    Hadoop发布之后,Yahoo很快就用了起来。大概又过了一年到了2007年,百度和阿里巴巴也开始使用Hadoop进行大存储与计算。

    2008年,Hadoop正式成为Apache的顶级项目,后来Doug Cutting本人也成为了Apache基金会的。自此,Hadoop作为软件开发领域的一颗明星冉冉升起。

    同年,专门运营Hadoop的商业公司Cloudera成立,Hadoop得到进一步的商业支持。

    这个时候,Yahoo的一些人觉得用MapReduce进行大编程太麻烦了,于是便开发了Pig。Pig是一种脚本语言,使用类SQL的语法,开发者可以用Pig脚本描述要对大集上进行的作,Pig经过编译后会生成MapReduce程序,然后在Hadoop上运行。

    编写Pig脚本虽然比直接MapReduce编程容易,但是依然需要学习新的脚本语法。于是Facebook又发布了Hive。Hive支持使用SQL语法来进行大计算,比如说你可以写个Select语句进行查询,然后Hive会把SQL语句转化成MapReduce的计算程序。

    这样,熟悉库的分析师和工程师便可以无门槛地使用大进行分析和处理了。Hive出现后极大程度地降低了Hadoop的使用难度,迅速得到开发者和企业的追捧。据说,2011年的时候,Facebook大平台上运行的作业90%都来源于Hive。

    随后,众多Hadoop周边产品开始出现,大生态体系逐渐形成,其中包括:专门将关系库中的导入导出到Hadoop平台的Sqoop;针对大规模日志进行分布式收集、聚合和传输的Flume;MapReduce工作流调度引擎Oozie等。

    在Hadoop早期,MapReduce既是一个执行引擎,又是一个调度框架,服务器集的调度管理由MapReduce自己完成。但是这样不利于复用,也使得MapReduce非常臃肿。于是一个新项目启动了,将MapReduce执行引擎和调度分离开来,这就是Yarn。2012年,Yarn成为一个的项目开始运营,随后被各类大产品支持,成为大平台上最主流的调度系统。

    同样是在2012年,UC伯克利AMP实验室(Algorithms、Machine和People的缩写)开发的Spark开始崭露头角。当时AMP实验室的马铁博士发现使用MapReduce进行机器学习计算的时候性能非常差,因为机器学习算法通常需要进行很多次的迭代计算,而MapReduce每执行一次Map和Reduce计算都需要重新启动一次作业,带来大量的无谓消耗。还有一点就是MapReduce主要使用磁盘作为存储介质,而2012年的时候,内存已经突破容量和成本,成为运行过程中主要的存储介质。Spark一经推出,立即受到业界的追捧,并逐步替代MapReduce在企业应用中的地位。

    一般说来,像MapReduce、Spark这类计算框架处理的业务场景都被称作批处理计算,因为它们通常针对以“天”为单位产生的进行一次计算,然后得到需要的结果,这中间计算需要花费的时间大概是几十分钟甚至更长的时间。因为计算的是非在线得到的实时,而是历史,所以这类计算也被称为大离线计算。

    而在大领域,还有另外一类应用场景,它们需要对实时产生的大量进行即时计算,比如对于遍布城市的监控摄像头进行人脸识别和嫌犯追踪。这类计算称为大流计算,相应地,有Storm、Flink、Spark Streaming等流计算框架来满足此类大应用的场景。 流式计算要处理的是实时在线产生的,所以这类计算也被称为大实时计算。

    在典型的大的业务场景下,业务最通用的做法是,采用批处理的技术处理历史全量,采用流式计算处理实时新增。而像Flink这样的计算引擎,可以同时支持流式计算和批处理计算。

    除了大批处理和流处理,NoSQL系统处理的主要也是大规模海量的存储与访问,所以也被归为大技术。 NoSQL曾经在2011年左右非常火爆,涌现出HBase、Cassandra等许多优秀的产品,其中HBase是从Hadoop中分离出来的、基于HDFS的NoSQL系统。

    我们回顾软件发展的历史会发现,差不多类似功能的软件,它们出现的时间都非常接近,比如Linux和Windows都是在90年代初出现,Java开发中的各类MVC框架也基本都是同期出现,Android和iOS也是前脚后脚问世。2011年前后,各种NoSQL库也是层出不,我也是在那个时候参与开发了阿里巴巴自己的NoSQL系统。

    事物发展有自己的潮流和规律,当你身处潮流之中的时候,要紧紧抓住潮流的机会,想办法脱颖而出,即使没有成功,也会更加洞悉时代的脉搏,收获珍贵的知识和经验。而如果潮流已经退去,这个时候再去往这个方向上努力,只会收获迷茫与压抑,对时代、对自己都没有什么帮助。

    但是时代的浪潮犹如海滩上的浪花,总是一浪接着一浪,只要你站在海边,身处这个行业之中,下一个浪潮很快又会到来。你需要敏感而又深刻地去观察,略去那些浮躁的,抓住真正潮流的机会,奋力一搏,不管成败,都不会遗憾。

    正所谓在历史前进的逻辑中前进,在时代发展的潮流中发展。通俗的说,就是要在风口中飞翔。

    上面我讲的这些基本上都可以归类为大引擎或者大框架。而大处理的主要应用场景包括分析、挖掘与机器学习。分析主要使用Hive、Spark SQL等SQL引擎完成;挖掘与机器学习则有专门的机器学习框架TensorFlow、Mahout以及MLlib等,内置了主要的机器学习和挖掘算法。

    此外,大要存入分布式文件系统(HDFS),要有序调度MapReduce和Spark作业执行,并能把执行结果写入到各个应用系统的库中,还需要有一个大平台整合所有这些大组件和企业应用系统。

    图中的所有这些框架、平台以及相关的算法共同构成了大的技术体系,我将会在专栏后面逐个分析,帮你能够对大技术原理和应用算法构建起完整的知识体系,进可以专职从事大开发,退可以在自己的应用开发中更好地和大集成,掌控自己的项目。

    希望对您有所帮助!~

    浏览 215赞 61时间 2023-04-14
  • 范范20130108

    互联网时代的来临,简易的说是海量信息同极致数学计算融合的结果。除此以外是移动互联、物联网技术造成了大量的信息,互联网大建筑科学极致地解决了海量信息的搜集、储存、测算、剖析的难题。互联网时代打开人类社会运用价值的另一个时期。
    互联网大(BigData)又称之为大量材料,便是信息大、来源宽阔(系统日志、、声频),大到PB级别,目前的架构便是以便处理
    PB级别的信息;到目前为止,人们生产的全部印刷耗材的信息量也但是200PB;阿里巴巴、京东商城、苏宁易购基础都沉定了PB级别;等于一家BAT企业(百度搜索、阿里巴巴、腾迅)顶过去全部人们时期生产的包装印刷材料
    互联网大便是解决海量信息的,工作中便是储存,清理,查寻,导出来,必须SQL句子和编程工具脚本适用
    互联网大一般用于描述一个企业造就的很多非结构型和半非结构化,这种信息在免费到关联型库查询用以剖析时候花销过多时间和钱财。分析常和云计算技术联络到一起,由于即时的大中型剖析必须像MapReduce一样的架构来向数十、百余或乃至千余的电脑上分派工作中。
    依据《大时代》中常说,互联网大并不是一个准确的定义,大量的是一种将会的方法。“互联网大是大家在规模性信息的基本上能够保证的事儿,而这种事儿在小规模纳税人信息的基本上是没法进行的。互联网大是大家得到 新的认知能力、造就新的使用价值的原动力,互联网大还为更改销市场
    “互联网大即一种新式的工作能力:以一种史无前例的方法,根据对海量信息开展剖析,得到 有极大使用价值的商品和服务项目,或刻骨铭心的洞悉。

    浏览 349赞 75时间 2022-08-09
  • 缘来是你69

    可按照时间点划分大的发展历程。

    大时代发展的具体历程如下:

    2005年Hadoop项目诞生。 Hadoop其最初只是雅虎公司用来解决网页搜索问题的一个项目,后来因其技术的高效性,被Apache Software Foundation公司引入并成为开源应用。

    Hadoop本身不是一个产品,而是由多个软件产品组成的一个生态系统,这些软件产品共同实现全面功能和灵活的大分析。从技术上看,Hadoop由两项关键服务构成:采用Hadoop分布式文件系统(HDFS)的可靠存储服务,以及利用一种叫做MapReduce技术的高性能并行处理服务。这两项服务的共同目标是,一个使对结构化和复杂的快速、可靠分析变为现实的基础。

    2008年末,“大”得到部分美国知名计算机科学研究人员的认可,业界组织计算联盟 (Computing Community Consortium),发表了一份有影响力的《大计算:在商务、科学和社会领域创建性突破》。它使人们的思维不仅局限于处理的机器,并提出:大真正重要的是新用途和新见解,而非本身。此组织可以说是最早提出大概念的机构。

    2009年印度建立了用于身份识别管理的生物识别库,联合国全球脉冲项目已研究了对如何利用手机和社交网站的源来分析预测从螺旋价格到疾病爆发之类的问题。同年,美国通过启动;lt;/p>

    2009年,欧洲一些领先的研究型图书馆和科技信息研究机构建立了伙伴关系致力于改善在互联网上获取科学的简易性。

    2010年2月,肯尼斯ž库克尔在《经济学人》上发表了长达14页的大专题报告《,无所不在的》。库克尔在报告中提到:“世界上有着无法想象的巨量数字信息,并以极快的速度增长。从经济界到科学界,从部门到艺术领域,很多方面都已经感受到了这种巨量信息的影响。科学家和计算机工程师已经为这个现象创造了一个新词汇:“大”。库克尔也因此成为最早洞见大时代趋势的科学家之一。

    2011年2月,IBM的沃森超级计算机每秒可扫描并分析4TB(约2亿页文字量)的量,并在美国著名智力竞赛电视节目《危险边缘》“Jeopardy”上击败两名人类选手而夺冠。后来纽约时报认为这一刻为一个“大计算的胜利。” 相继在同年5月,全球知名咨询公司麦肯锡(McKinsey&Company)肯锡全球研究院(MGI)发布了一份报告——《大:创新、竞争和生产力的下一个新领域》,大开始备受关注,这也是专业机构第一次全方面的介绍和展望大。报告指出,大已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。报告还提到,“大”源于生产和收集的能力和速度的大幅提升——由于越来越多的人、设备和传感器通过数字网络连接起来,产生、传送、分享和访问的能力也得到彻底变革。

    2011年12 月,工信部发布的物联网十二五规划上,把信息处理技术作为4 项关键技术创新工程之一被提出来,其中包括了海量存储、挖掘、图像智能分析,这都是大的重要组成部分。

    2012年1月份,瑞士达沃斯召开的世界经济论坛上,大是主题之一,会上发布的报告《大,大影响》(Big Data, Big Impact) 宣称,已经成为一种新的经济资产类别,就像货币或黄金一样。

    2012年3月,美国奥巴马在白宫网站发布了《大研究和发展倡议》,这一倡议标志着大已经成为重要的时代特征。2012年3月22日,奥巴马宣布2亿美元投资大领域,是大技术从商业行为上升到科技战略的分水岭,在次日的电话会议中,对的定义“未来的新石油”,大技术领域的竞争,事关安全和未来。并表示,层面的竞争力将部分体现为一国拥有的规模、活性以及解释、运用的能力;数字主权体现对的占有和控制。数字主权将是继边防、海防、空防之后,另一个大国博弈的空间。

    2012年4月,美国软件公司Splunk于19日在纳斯达克成功上市,成为第一家上市的大处理公司。鉴于美国经济持续低靡、股市持续震荡的大背景,Splunk首日的突出交易表现尤其令人们印象深刻,首日即涨了一倍多。Splunk是一家领先的大监测和分析服务的软件商,成立于2003年。Splunk成功上市促进了资本市场对大的关注,同时也促使IT厂商加快大布局。2012年7月,联合国在纽约发布了一份关于大政务的,总结了各国如何利用大更好地服务和保护。这份举例说明在一个生态系统中,个人、公共部门和私人部门各自的角色、动机和需求:例如通过对价格关注和更好服务的渴望,个人和众包信息,并对隐私和退出权力提出需求;公共部门出于改善服务,提升效益的目的,了诸如统计、设备信息,健康指标,及税务和消费信息等,并对隐私和退出权力提出需求;私人部门出于提升客户认知和预测趋势目的,汇总、消费和使用信息,并对敏感所有权和商业模式更加关注。还指出,人们如今可以使用的极大丰富的,包括旧和新,来对社会人口进行前所未有的实时分析。联合国还以爱尔兰和美国的社交网络活跃度增长可以作为失业率上升的早期征兆为例,表明如果能合理分析所掌握的,将能“与数俱进”,快速应变。在这一年的7月,为挖掘大的价值,阿里巴巴集团在管理层设立“首席官”一职,负责全面推进“分享平台”战略,并推出大型的分享平台——“聚石塔”,为天猫、淘宝平台上的电商及电商服务商等云服务。随后,阿里巴巴董事局马云在2012年网商大会上发表演讲,称从2013年1月1日起将转型重塑平台、金融和三大业务。马云强调:“假如我们有一个预报台,就像为企业装上了一个GPS和雷达,你们出海将会更有把握。”因此,阿里巴巴集团希望通过分享和挖掘海量,为和中小企业价值。此举是国内企业最早把大提升到企业管理层高度的一次重大里程碑。阿里巴巴也是最早提出通过进行企业化运营的企业。

    2014年4月,世界经济论坛以“大的回报与风险”主题发布了《全球信息技术报告(第13版)》。报告认为,在未来几年中针对各种信息通信技术的政策甚至会显得更加重要。在接下来将对保密和网络管制等议题展开积极讨论。全球大产业的日趋活跃,技术演进和应用创新的加速发展,使各国逐渐认识到大在推动经济发展、改善公共服务,增进福祉,乃至保障安全方面的重大意义。5月份,美国白宫发布了2014年全球“大”的研究报告《大:抓住机遇、守护价值》。报告鼓励使用以推动社会进步,特别是在市场与现有的机构并未以其他方式来支持这种进步的领域;同时,也需要相应的框架、结构与研究,来帮助保护美国人对于保护个人隐私、确保公平或是防止歧视的坚定信仰。2014年,“大”首次出现在当年的《工作报告》中。《报告》中指出,要设立新兴产业创业创新平台,在大等方面赶超先进,引领未来产业发展。“大”旋即成为国内热议词汇。

    2015年,国务正式印发《促进大发展行动纲要》,《纲要》明确,推动大发展和应用,在未来5至10年打造精准治理、多方协作的社会治理新模式,建立运行平稳、安全高效的经济运行新机制,构建以人为本、惠及全民的民生服务新体系,开启大众创业、万众创新的创新驱动新格局,培育高端智能、新兴繁荣的产业发展新生态。标志着大正式上升这战略。

    2016年,大“十三五”规划将,《规划》已征求了意见,并进行了集中讨论和修改。《规划》涉及的内容包括,推动大在研发、、产业链全流程各环节的应用;支持服务业利用大建立品牌、精准营销和定务等。

    大的技术:

    1. Hadoop

    Hadoop诞生于2005年,其最初只是雅虎公司用来解决网页搜索问题的一个项目,后来因其技术的高效性,被Apache Software Foundation公司引入并成为开源应用。Hadoop本身不是一个产品,而是由多个软件产品组成的一个生态系统, 这些软件产品共同实现全面功能和灵活的大分析。从技术上看,Hadoop由两项关键服务构成:采用Hadoop分布式文件系统(HDFS)的可靠 存储服务,以及利用一种叫做MapReduce技术的高性能并行处理服务。

    2. Hive

    Hive是一种建立在Hadoop文件系统上的仓库架构,并能对存储在HDFS中的进行分析和管理。它最初是应Facebook每天产生的海量新兴社会网络进行管理和机器学习的需求而产生和发展的。后来其他公司也开始使用和开发Apache Hive,例如Netflix、亚马逊等。

    3. Storm:

    Storm是一个分布式计算框架,主要由Clojure编程语言编写。最初是由Nathan Marz及其团队创建于BackType,这家市场营销情报企业于2011年被Twitter收购。之后Twitter将该项目转为开源并推向GitHub平台,最终Storm加入Apache孵化器计划并于2014年9月正式成为Apache旗下的顶级项目之一。

    浏览 298赞 110时间 2022-05-06
  • stella1135

    浏览 244赞 82时间 2022-05-02

大数据时代发展历程是什么?