浅析十三种常用的数据挖掘的技术,刘华鹏授课见证 -【讲师网北京站】刘华鹏授课见证,刘华鹏博客,刘华鹏网站,刘华鹏文章,刘华鹏最新文章

刘华鹏:浅析十三种常用的数据挖掘的技术

互联网+

2016-01-20 13008

更多精彩内容参见：https://liuhuapeng.jiangshi.org

数据挖掘的技术有很多种，按照不同的分类有不同的分类法。下面着重讨论一下数据挖掘中常用的一些技术：统计技术，关联规则，基于历史的分析，遗传算法，聚集检测，连接分析，决策树，神经网络，粗糙集，模糊集，回归分析，差别分析，概念描述等十三种常用的数据挖掘的技术

1、统计技术

数据挖掘涉及的科学领域和技术很多，如统计技术。统计技术对数据集进行挖掘的主要思想是：统计的方法对给定的数据集合假设了一个分布或者概率模型(例如一个正态分布)然后根据模型采用相应的方法来进行挖掘。

2、关联规则

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之I司存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。

3、基于历史的MBR(Memory-basedReasoning)分析

先根据经验知识寻找相似的情况，然后将这些情况的信息应用于当前的例子中。这个就是MBR(Memory BasedReasoning)的本质。MBR首先寻找和新记录相似的邻居，然后利用这些邻居对新数据进行分类和估值。使用MBR有三个主要问题，寻找确定的历史数据；决定表示历史数据的最有效的方法；决定距离函数、联合函数和邻居的数量。

4、遗传算法GA(Genetic Algorithms)

基于进化理论，并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。主要思想是：根据适者生存的原则，形成由当前群体中最适合的规则组成新的群体，以及这些规则的后代。典型情况下，规则的适合度(Fitness)用它对训练样本集的分类准确率评估。

5、聚集检测

将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其它簇中的对象相异。相异度是根据描述对象的属眭值来计算的，距离是经常采用的度量方式。

6、连接分析

连接分析，Link analysis，它的基本理论是图论。图论的思想是寻找一个可以得出好结果但不是完美结果的算法，而不是去寻找完美的解的算法。连接分析就是运用了这样的思想：不完美的结果如果是可行的，那么这样的分析就是一个好的分析。利用连接分析，可以从一些用户的行为中分析出一些模式；同时将产生的概念应用于更广的用户群体中。