4000336031 微信 li1377174255

贵阳甲骨文培训学校

当我们谈论数据挖掘时,究竟是在说什么?

来源:贵阳甲骨文培训学校 发布时间:2016/11/15 17:15:09

       数据挖掘(Data Mining,简称DM),顾名思义,就是指从大量的数据中挖掘出未知的且有价值的信息和知识的过程。 相较于更注重技术和算法的机器学习而言,数据挖掘更偏向于“数据”而非算法,且包括了很多数据的前期处理工作,爬取数据,数据清洗,数据整合,数据有效性检测,数据可视化(画图)等等,因此是个比较宽泛的概念。

 

      商业上的诸多问题,例如:

      如何降低用户流失率?

      某个用户是否会响应本次营销活动?

      如何细分现有目标市场?

      如何制定交叉销售策略以提升销售额?

      如何预测未来销量?

      从数据挖掘的角度看,都可以转换为四大问题:分类、聚类、关联、预测。

      数据挖掘四大基本问题

      分类:分类问题带有预测性,简单来说就是判断一个未知数据属于哪种类别。

 

       ▲分类算法示意

      聚类:根据选定的指标,对数据进行划分,算法根据“物以类聚”的原则,判断各条数据之间的相似性,相似的就将其归为一类。

      聚类问题容易与分类问题混淆,主要是语言表达的原因,但两者之间有着本质的区别。分类问题是预测一个未知类别的用户属于哪个类别(相当于做单选题),而聚类问题是根据选定的指标,对一群用户进行划分(相当于做开放式的论述题),它不属于预测问题。


      ▲聚类算法示意

      关联:基于数据识别其中潜在的相关性。

      预测:采用统计学技术,例如回归、时间序列等研究目标变量与影响它的若干相关变量之间的关系。

      关联中蕴藏价值

      关联中蕴藏着巨大的价值,较典型的便是“啤酒-尿布”的故事,我们姑且不论该故事是否是编造而来,但隐藏在啤酒和尿布之间这种表面上并没有任何痕迹的关联,如果不通过数据挖掘技术,仅仅靠拍脑袋,是难以想出来的。

通联规则的挖掘,我们便可以找到数据间的相关性,从而指导实际工作。同时,通过寻找关联关系,我们又能发现其间的因果溯源。


      预测指导决策

      预测,是大数据算法应用中较核心的问题,绝大部分我们可以想象到的应用问题,例如:个性化推荐、精分营销、员工绩效管理、银行信用卡征信、小微企业贷款、生产线优化控制、广告投放和营业网点选择……等等,其本质都是预测问题。

      生活中,我们比较常见的大数据预测方法有点击购买类的预测(预测一个消费者有多大可能性会点击某个广告,购买某种商品)、基于移动轨迹的位置预测(通过“签到-分享”类应用积累消费者数据从而发现商业价值)、链路预测(社交网络上的朋友推荐)等。


      当确定分析问题和指标以后,通过对数据进行清洗、特征提取、模型训练、模型融合,就可以利用数据挖掘工具对数据进行较好的挖掘和分析。

国内外主流数据挖掘工具

      当前,国内外主流的数据挖掘工具有RapidMiner、Weka、SAS、R、IBM SPSS Modeler、iCloudUnion、Microsoft ML Studio等。

      其中,iCloudUnion作为国内率先出现的数据挖掘产品,以其轻便的B/S架构、特定领域的新算法响应、安全的多用户协作共享空间等众多优点逐步走进大众视野。
 

领取试听课
每天限量名额,先到先得
温馨提示:为不影响您的学业,来校区前请先电话或QQ咨询,方便我校安排相关的专业老师为您解答
  • 详情请进入 贵阳甲骨文培训学校

关于我们 | 招生信息 | 新闻中心 | 学校动态

版权所有:搜学搜课(www.soxsok.com)