什么是数据挖掘？

最近比较热门的职位，我想去学习数据挖掘，但是对其没有概念。

大萌的饰界 2021-09-18 16:44 471 次浏览赞 151

最新问答

candy晓琳
挖掘又译为探勘、采矿。是一种透过数理模式来分析企业内储存的大量，以找出不同的客户或市场划分，分析出消费者喜好和行为的方法。它是库知识发现中的一个步骤。挖掘一般是指从大量的中自动搜索隐藏于其中的有着特殊关系性的信息的过程。主要有准备、规律寻找和规律表示3个步骤。挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异组分析和演变分析等。挖掘通常与计算机科学有关，并通过统计、在线分析处理、情报检索、机器学习、系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。
是一个用发现问题、解决问题的学科。
通常通过对的探索、处理、分析或建模实现。
浏览 496赞 127时间 2024-02-03
飛8469682648

挖掘是从大量的、不完全的、有噪声的、模糊的、随机的中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
挖掘流程：
- 定义问题：清晰地定义出业务问题，确定挖掘的目的。
- 准备：准备包括：选择–在大型库和仓库目标中提取挖掘的目标集;预处理–进行再，包括检查的完整性及的一致性、去噪声，填补丢失的域，删除无效等。
- 挖掘：根据功能的类型和和的特点选择相应的算法，在净化和转换过的集上进行挖掘。
- 结果分析：对挖掘的结果进行解释和评价，转换成为能够最终被用户理解的知识。
浏览 336赞 109时间 2023-11-30
饿魔娃娃

简单地说，挖掘是从大量中提取或‘挖掘’知识。该术语实际上有点用词不当。挖掘应当更正确地命名为‘从中挖掘知识’，不幸的是它有点长。许多人把挖掘视为另一个常用的术语‘库中知识发现’或KDD的同义词。而另一些人只是把挖掘视为库中知识发现过程的一个基本步骤。
- 挖掘是一个用发现问题、解决问题的学科。
- 通常通过对的探索、处理、分析或建模实现。
浏览 382赞 95时间 2023-10-21
七月的蟹

由于科学刚刚兴起，科学家作为一种新生职业被提出，研究高级科学家Rachel Schutt将其定义为“计算机科学家、软件工程师和统计学家的混合体“。挖掘作为一个学术领域，横跨多个学科，涵盖了统计学、数学、机器学习和库等，此外还包括各类专业方向比如从油田电力、海洋生物、历史文本、通讯、法律税务等的各个专业领域。注意每一分类都需要相当的行业经验。
而要明白某一事物的本质，就需要通过另一些近似的事物特性对比来说明。就好像你单独提问什么是男人？很难解释对不对。
所以咱们来举个栗子简单看看：
一、分析报告
在《大闹天宫》里孙悟空跟二郎神在花果山下大战三百回合，咱来写一篇文章分析。
- 孙悟空有金刚不坏火眼金睛筋斗云七十二般变化加上定海神针身法灵活。
- 二郎神杨戬有三只眼缚妖索哮天犬银袍金甲加上三尖两刃四窍八环力量无穷。
- 所以在大战开始三百回合时候不相上下，结果后来二郎神派出天兵天将放火烧花果山让大圣慌了心神被偷袭得手。
- 最后二郎神赢了。
- 分析报告完成。
- 首先根据历史样本史载发现两人在之前的五百年里打过100次，其中孙悟空赢60次。
- 然后有记录显示，之前孙悟空和牛魔王战斗的胜率是80%，而杨戬斗牛魔王胜率是70%。
- 所以可以得出综合预测总体胜率是孙悟空赢面大。
- 结论依靠历史记录，使用样本预测总体，根据经验做出假设。
- 统计分析完成。
- 贫苦出身的一般比皇亲国戚更能吃苦所以功夫底子更好平时训练更加扎实。
- 战斗经验丰富的斗战胜佛因为平时经常打架擅长利用天时地利环境因素而胜算更大。
- 在都得到大师指点的情况下，贫苦出身的可以利用后天的努力来弥补先天悟性的欠缺。
- 样貌奇特注定孤独终老的神仙总是会比同等条件下美若天仙喜欢拈花惹草处处留情的神仙功夫好。
- 论出身两位大神不分伯仲。一个从石头出来，一个是凡人与神仙结合所生。
- 悟空的菩提老祖（准提道人）和二郎神的玉鼎的元始天尊同为鸿钧老祖的高足所以前者更胜一筹。
- 斗战胜佛战斗经验相对整日无忧无虑的二郎神来说更加丰富。
- 另孙行者由于样貌原因始终单身（好伤感）。
- 所以可以得出结论，这次大战孙悟空赢面大。
- 挖掘完成。
- 分析报告一般是整个发生结束以后的总结（描述性）。
- 统计分析能利用大量的历史样本来预测整个总体未来的走向（预测性概率）。
- 挖掘则透过的表象发现隐藏在背后的蛛丝马迹，从而找到潜伏的规律以及看似无关事物之间背后的联系，用此来洞察未来（规范性）。
浏览 404赞 111时间 2023-04-03
oo888888oo

科技的快速发展和的存储技术的快速进步，使得各种行业或组织的得以海量积累。但是，从海量的当中，提取有用的信息成为了一个难题。在海量面前，传统的分析工具和方法很无力。由此，挖掘技术就登上了历史的舞台。
挖掘是一种技术，将传统的分析方法与处理大量的复杂算法相结合（图1），从大量的、不完全的、有噪声的、模糊的、随机的中，提取隐含在其中的、人们事先不知道的、但又是潜在有用信息和知识的过程。
那挖掘能够干什么？有哪些挖掘技术？怎么应用？
挖掘技术应用广泛，如：1. 在交通领域，帮助铁路票价制定、交通流量预测等。2. 在生物学当中，挖掘基因与疾病之间的关系、蛋白质结构预测、代谢途径预测等。3. 在金融行业当中，股票指数追踪、税务稽查等方面有重要运用。4. 在商务领域，对顾客行为分析、定向营销、定向广告投放、谁是最有价值的用户、什么产品搭配销等。可以说，有的方法，就有挖掘的用武之地。
那挖掘过程是什么呢？如图2：

挖掘的任务主要分为一下四类，如图3：

1.建模预测：用因变量作用目标变量建立模型。分为两类：（1）分类，用于预测离散的目标变量；（2）回归，用于预测连续的目标变量。两项任务目标都是训练一个模型，使目标变量预测值与实际值之间的误差达到最小。预测建模可以用来判断病人是否患有某种疾病，可以用于确定顾客是否需要某种产品，预测交通流量。

2.关联分析：用来发现描述中强关联特征的模式。所发现的模式通常用特征子集的形式表示。由于搜索空间是指数规模的，关联分析的目标是以有效的方式提取最有用的模式。关联分析的应用包括用户商品之间的联系、找出相关功能的基因组、表单预测输出下拉列表如图4。
3.聚类分析：发现紧密相关的观测值组，使得与属于不同簇的观察值相比，同一簇的观察值相互之间尽可能的类似。聚类可用来对相关的顾客分组、给不同功能的基因分组、不同的癌症细胞系分组。

4.异常检测：识别其特征显著不同于其他的观测值。这样的观测值称为异常点或离点。异常检测算法的目标是发现真正的异常点，而避免错误地将正常的对象标注为异常点。换言之，一个好的异常点检测模型必须具有高检测率和低误报率。异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式。

参考文章：
1. 《大话挖掘》
2. 《挖掘导论》
3. s?__biz=MzI2NDEwNzgxMw==&mid=401492893&idx=1&sn=5b6f61474fcd32cf9b009317aa8a65e6#rd
浏览 221赞 124时间 2022-06-20

什么是数据挖掘？

最近比较热门的职位，我想去学习数据挖掘，但是对其没有概念。

什么是数据挖掘？

最新问答

相关问答

什么是数据挖掘？

最新问答

热门问答

热门标签