炼数成金 门户 商业智能 数据挖掘 查看内容

原创翻译 |大数据使用的5种主要数据挖掘技术

2018-8-30 10:01| 发布者: 炼数成金_小数| 查看: 13867| 评论: 0

摘要: 数据挖掘涉及“处理数据和识别信息中的模式和趋势”,根据IBM所说,“数据挖掘原理已经存在了许多年,但是随着大数据的出现,它更为流行了。” IBM估计,仅过去的两年就产生了世界上百分之九十的数据。每天人们 ...

工具 模型 大数据 数据挖掘 ETL 模式

数据挖掘涉及“处理数据和识别信息中的模式和趋势”,根据IBM所说,“数据挖掘原理已经存在了许多年,但是随着大数据的出现,它更为流行了。”


IBM估计,仅过去的两年就产生了世界上百分之九十的数据。每天人们产生2.5兆字节的数据,足以填满1000万个蓝光光盘。


数据挖掘技术帮助专业人员了解可用数据集。这些技术可以为企业和其他组织提供描述性和预测性的能力。


5个数据挖掘技术
1.    关联规则

关联规则使两个或多个项之间的关联以确定它们之间的模式。例如,超市可以确定顾客在买草莓时也常买鲜奶油,反之亦然。关联通常用于销售点系统,以确定产品之间的共同趋势。


“这是一个非常简单的方法,但你会惊讶与其中有多少智慧和洞察,它可以提供许多企业的日常使用的信息,来提高效率和增加收入,根据科技公司Galvanize的说法。应用领域包括物品的实物摆放组织、市场营销和产品的交叉销售和上销。


2.   分类

我们可以使用多个属性来标记特定类别的项。分类将项目分配到目标类别或类中,以便准确地预测该类内部会发生什么。

某些行业会将客户进行分类。例如,一家信贷公司可以使用分类模型来确定贷款申请人的低、中或高信用风险。其他组织将当前和目标受众分为不同年龄和社会团体进行营销活动。


3.    聚类

“聚类是将数据记录组合在一起的方法”根据Alex Berson、Stephen Smith和Kurt Thearling在Building Data Mining Applications for CRM这本书中所说。“通常这样做是为了让最终用户对数据库中发生的事情有一个高层次的认识。”


查看对象分组情况可以帮助市场细分领域的企业。在这个例子中可以使用聚类将市场细分为客户子集。然后,每个子集可以根据簇的属性来制定特定的营销策略,例如在一个簇中与另一个簇中的客户的购买模式的对比。



4.    决策树

决策树用于分类或预测数据。决策树从一个简单的问题开始,它有两个或多个的答案。每个答案将会引出进一步的问题,该问题又可被用于分类或识别可被进一步分类的数据,或者可以基于每个答案进行预测。


应用决策树图分析手机供应商如何分类流失的客户,或不更新手机的客户。Building Data Mining Applications for CRM的作者为决策树图的构建提供了一些有趣的值得借鉴的东西。


将数据分成多个叶结点,所有叶结点的数据记录数的加和等于输入数据的记录总数。例如,父结点中的数据记录总数等于其两个子结点中包含的记录总和。


当在决策树上上下移动时,流失前和流失后的客户数量是需要存储的。

能够很容易的理解模型的构建。

如果你需要针对可能流失的客户提供一份市场营销方案,则该模型非常易于使用。

公司可以发展对其客户群的直觉;例如,可以得出这样的结论,那些多年一直在供应商身边客户和拥有手机的客户往往是忠诚的。


5.    序列模式

序列模式识别相似事件的趋势或通常情况发生的可能。这种数据挖掘技术经常被用来助于理解用户购买行为。许多零售商通过数据和序列模式来决定他们用于展示的产品。


“根据客户数据,您可以识别客户在一年中不同时间购买的特定的商品集合,”根据IBM所说,“在购物篮应用中,你可以使用这些信息自动地根据浏览频率和过去的购买历史记录来预测某些商品会被添加到购物篮中。”


大数据时代的工作机遇

在数据挖掘和分析领域中,大数据的增长创造了许多新兴的职业岗位,如数据分析师和数据科学家,其中应用到多种数据挖掘技术和原则。


英文原文:https://datafloq.com/read/5-major-data-mining-techniques-being-used-big-data/3352


欢迎加入本站公开兴趣群

商业智能与数据分析群

兴趣范围包括各种让数据产生价值的办法,实际应用案例分享与讨论,分析工具,ETL工具,数据仓库,数据挖掘工具,报表系统等全方位知识

QQ群:81035754


鲜花

握手

雷人

路过

鸡蛋

相关阅读

最新评论

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

 

GMT+8, 2018-9-21 02:37 , Processed in 0.204139 second(s), 25 queries .