什么是数据挖掘?

最近比较热门的职位,我想去学习数据挖掘,但是对其没有概念。

大萌的饰界 2021-09-18 16:44 471 次浏览 赞 151

最新问答

  • candy晓琳

    挖掘又译为探勘、采矿。是一种透过数理模式来分析企业内储存的大量,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。它是库知识发现中的一个步骤。挖掘一般是指从大量的中自动搜索隐藏于其中的有着特殊关系性的信息的过程。主要有准备、规律寻找和规律表示3个步骤。挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异组分析和演变分析等。挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。

    是一个用发现问题、解决问题的学科。

    通常通过对的探索、处理、分析或建模实现。

      我们可以看到挖掘具有以下几个特点:

      基于大量:并非说小量上就不可以进行挖掘,实际上大多数挖掘的算法都可以在小量上运行并得到结果。但是,一方面过小的量完全可以通过人工分析来总结规律,另一方面来说,小量常常无法反映出真实世界中的普遍特性。

      非平凡性:所谓非平凡,指的是挖掘出来的知识应该是不简单的,绝不能是类似某著名体育评论员所说的“经过我的计算,我发现了一个有趣的现象,到本场比赛结束 为止,这届世界杯的进球数和失球数是一样的。非常的巧合!”那种知识。这点看起来勿庸赘言,但是很多不懂业务知识的挖掘新手却常常犯这种错误。

      隐含性:挖掘是要发现深藏在内部的知识,而不是那些直接浮现在表面的信息。常用的BI工具,例如报表和OLAP,完全可以让用户找出这些信息。

      新奇性:挖掘出来的知识应该是以前未知的,否则只不过是验证了业务的经验而已。只有全新的知识,才可以帮助企业获得进一步的洞察力。

      价值性:挖掘的结果必须能给企业带来直接的或间接的效益。有人说挖掘只是“屠龙之技”,看起来神乎其神,却什么用处也没有。这只是一种误解,不可否认的 是在一些挖掘项目中,或者因为缺乏明确的业务目标,或者因为质量的不足,或者因为人们对改变业务流程的抵制,或者因为挖掘人员的经验不足,都会导 致效果不佳甚至完全没有效果。但大量的成功案例也在证明,挖掘的确可以变成提升效益的利器。

    浏览 496赞 127时间 2024-02-03
  • 飛8469682648

    挖掘是从大量的、不完全的、有噪声的、模糊的、随机的中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。

    挖掘流程:

    • 定义问题:清晰地定义出业务问题,确定挖掘的目的。

    • 准备:准备包括:选择–在大型库和仓库目标中 提取挖掘的目标集;预处理–进行再,包括检查的完整性及的一致性、去噪声,填补丢失的域,删除无效等。

    • 挖掘:根据功能的类型和和的特点选择相应的算法,在净化和转换过的集上进行挖掘。

    • 结果分析:对挖掘的结果进行解释和评价,转换成为能够最终被用户理解的知识。

    浏览 336赞 109时间 2023-11-30
  • 饿魔娃娃

    简单地说,挖掘是从大量中提取或‘挖掘’知识。该术语实际上有点用词不当。挖掘应当更正确地命名为‘从中挖掘知识’,不幸的是它有点长。许多人把挖掘视为另一个常用的术语‘库中知识发现’或KDD的同义词。而另一些人只是把挖掘视为库中知识发现过程的一个基本步骤。

    • 挖掘是一个用发现问题、解决问题的学科。

    • 通常通过对的探索、处理、分析或建模实现。

    • 我们可以看到挖掘具有以下几个特点:

      基于大量:并非说小量上就不可以进行挖掘,实际上大多数挖掘的算法都可以在小量上运行并得到结果。但是,一方面过小的量完全可以通过人工分析来总结规律,另一方面来说,小量常常无法反映出真实世界中的普遍特性。

      非平凡性:所谓非平凡,指的是挖掘出来的知识应该是不简单的,绝不能是类似某著名体育评论员所说的“经过我的计算,我发现了一个有趣的现象,到本场比赛结束 为止,这届世界杯的进球数和失球数是一样的。非常的巧合!”那种知识。这点看起来勿庸赘言,但是很多不懂业务知识的挖掘新手却常常犯这种错误。

      隐含性:挖掘是要发现深藏在内部的知识,而不是那些直接浮现在表面的信息。常用的BI工具,例如报表和OLAP,完全可以让用户找出这些信息。

      新奇性:挖掘出来的知识应该是以前未知的,否则只不过是验证了业务的经验而已。只有全新的知识,才可以帮助企业获得进一步的洞察力。

      价值性:挖掘的结果必须能给企业带来直接的或间接的效益。有人说挖掘只是“屠龙之技”,看起来神乎其神,却什么用处也没有。这只是一种误解,不可否认的 是在一些挖掘项目中,或者因为缺乏明确的业务目标,或者因为质量的不足,或者因为人们对改变业务流程的抵制,或者因为挖掘人员的经验不足,都会导 致效果不佳甚至完全没有效果。但大量的成功案例也在证明,挖掘的确可以变成提升效益的利器。

    浏览 382赞 95时间 2023-10-21
  • 七月的蟹

    由于科学刚刚兴起,科学家作为一种新生职业被提出,研究高级科学家Rachel Schutt将其定义为“计算机科学家、软件工程师和统计学家的混合体“。挖掘作为一个学术领域,横跨多个学科,涵盖了统计学、数学、机器学习和库等,此外还包括各类专业方向比如从油田电力、海洋生物、历史文本、通讯、法律税务等的各个专业领域。注意每一分类都需要相当的行业经验。

    而要明白某一事物的本质,就需要通过另一些近似的事物特性对比来说明。就好像你单独提问什么是男人?很难解释对不对。

    所以咱们来举个栗子简单看看:

    一、分析报告

    在《大闹天宫》里孙悟空跟二郎神在花果山下大战三百回合,咱来写一篇文章分析。

    • 孙悟空有金刚不坏火眼金睛筋斗云七十二般变化加上定海神针身法灵活。

    • 二郎神杨戬有三只眼缚妖索哮天犬银袍金甲加上三尖两刃四窍八环力量无穷。

    • 所以在大战开始三百回合时候不相上下,结果后来二郎神派出天兵天将放火烧花果山让大圣慌了心神被偷袭得手。

    • 最后二郎神赢了。

    • 分析报告完成。

    • 二、统计分析

      大圣二战杨戬。这次在二位大战之前做个数理统计来预测结果。

    • 首先根据历史样本史载发现两人在之前的五百年里打过100次,其中孙悟空赢60次。

    • 然后有记录显示,之前孙悟空和牛魔王战斗的胜率是80%,而杨戬斗牛魔王胜率是70%。

    • 所以可以得出综合预测总体胜率是孙悟空赢面大。

    • 结论依靠历史记录,使用样本预测总体,根据经验做出假设。

    • 统计分析完成。

    • 三、挖掘

      孙悟空和杨戬终极决战。这次咱们根据两位的详细(如家庭出身、教育背景、工作经验、婚育情况等)让计算机做协同过滤关联分析。计算机通过清洗建模后发现:

    • 贫苦出身的一般比皇亲国戚更能吃苦所以功夫底子更好平时训练更加扎实。

    • 战斗经验丰富的斗战胜佛因为平时经常打架擅长利用天时地利环境因素而胜算更大。

    • 在都得到大师指点的情况下,贫苦出身的可以利用后天的努力来弥补先天悟性的欠缺。

    • 样貌奇特注定孤独终老的神仙总是会比同等条件下美若天仙喜欢拈花惹草处处留情的神仙功夫好。

    • 综上所述,我们可知道:

    • 论出身两位大神不分伯仲。一个从石头出来,一个是凡人与神仙结合所生。

    • 悟空的菩提老祖(准提道人)和二郎神的玉鼎的元始天尊同为鸿钧老祖的高足所以前者更胜一筹。

    • 斗战胜佛战斗经验相对整日无忧无虑的二郎神来说更加丰富。

    • 另孙行者由于样貌原因始终单身(好伤感)。

    • 所以可以得出结论,这次大战孙悟空赢面大。

    • 挖掘完成。

    • 四、最后总结:

    • 分析报告一般是整个发生结束以后的总结(描述性)。

    • 统计分析能利用大量的历史样本来预测整个总体未来的走向(预测性概率)。

    • 挖掘则透过的表象发现隐藏在背后的蛛丝马迹,从而找到潜伏的规律以及看似无关事物之间背后的联系,用此来洞察未来(规范性)。

    浏览 404赞 111时间 2023-04-03
  • oo888888oo

    科技的快速发展和的存储技术的快速进步,使得各种行业或组织的得以海量积累。但是,从海量的当中,提取有用的信息成为了一个难题。在海量面前,传统的分析工具和方法很无力。由此,挖掘技术就登上了历史的舞台。

    挖掘是一种技术,将传统的分析方法与处理大量的复杂算法相结合(图1),从大量的、不完全的、有噪声的、模糊的、随机的中,提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程。

    那挖掘能够干什么?有哪些挖掘技术?怎么应用?

    挖掘技术应用广泛,如:1. 在交通领域,帮助铁路票价制定、交通流量预测等。2. 在生物学当中,挖掘基因与疾病之间的关系、蛋白质结构预测、代谢途径预测等。3. 在金融行业当中,股票指数追踪、税务稽查等方面有重要运用。4. 在商务领域,对顾客行为分析、定向营销、定向广告投放、谁是最有价值的用户、什么产品搭配销等。可以说,有的方法,就有挖掘的用武之地。

    那挖掘过程是什么呢?如图2:


    挖掘的任务主要分为一下四类,如图3:


    1.建模预测:用因变量作用目标变量建立模型。分为两类:(1)分类,用于预测离散的目标变量;(2)回归,用于预测连续的目标变量。两项任务目标都是训练一个模型,使目标变量预测值与实际值之间的误差达到最小。预测建模可以用来判断病人是否患有某种疾病,可以用于确定顾客是否需要某种产品,预测交通流量。


    2.关联分析:用来发现描述中强关联特征的模式。所发现的模式通常用特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以有效的方式提取最有用的模式。关联分析的应用包括用户商品之间的联系、找出相关功能的基因组、表单预测输出下拉列表如图4。

    3.聚类分析:发现紧密相关的观测值组,使得与属于不同簇的观察值相比,同一簇的观察值相互之间尽可能的类似。聚类可用来对相关的顾客分组、给不同功能的基因分组、不同的癌症细胞系分组。


    4.异常检测:识别其特征显著不同于其他的观测值。这样的观测值称为异常点或离点。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点。换言之,一个好的异常点检测模型必须具有高检测率和低误报率。异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式。


    参考文章:

    1. 《大话挖掘》

    2. 《挖掘导论》

    3. s?__biz=MzI2NDEwNzgxMw==&mid=401492893&idx=1&sn=5b6f61474fcd32cf9b009317aa8a65e6#rd

    浏览 221赞 124时间 2022-06-20

什么是数据挖掘?

最近比较热门的职位,我想去学习数据挖掘,但是对其没有概念。