当前位置: 首页 > news >正文

数据挖掘与数据化运营实战. 2.2 统计分析与数据挖掘的主要区别

2.2 统计分析与数据挖掘的主要区别

统计分析与数据挖掘有什么区别呢?从实践应用和商业实战的角度来看,这个问题并没有很大的意义,正如“不管白猫还是黑猫,抓住老鼠才是好猫”一样,在企业的商业实战中,数据分析师分析问题、解决问题时,首先考虑的是思路,其次才会对与思路匹配的分析挖掘技术进行筛选,而不是先考虑到底是用统计技术还是用数据挖掘技术来解决这个问题。

从两者的理论来源来看,它们在很多情况下都是同根同源的。比如,在属于典型的数据挖掘技术的决策树里,CART、CHAID等理论和方法都是基于统计理论所发展和延伸的;并且数据挖掘中的技术有相当比例是用统计学中的多变量分析来支撑的。

相对于传统的统计分析技术,数据挖掘有如下一些特点:

数据挖掘特别擅长于处理大数据,尤其是几十万行、几百万行,甚至更多更大的数据。

数据挖掘在实践应用中一般都会借助数据挖掘工具,而这些挖掘工具的使用,很多时候并不需要特别专业的统计背景作为必要条件。不过,需要强调的是基本的统计知识和技能是必需的。

在信息化时代,数据分析应用的趋势是从大型数据库中抓取数据,并通过专业软件进行分析,所以数据挖掘工具的应用更加符合企业实践和实战的需要。

从操作者来看,数据挖掘技术更多是企业的数据分析师、业务分析师在使用,而不是统计学家用于检测。

更主流的观点普遍认为,数据挖掘是统计分析技术的延伸和发展,如果一定要加以区分,它们又有哪些区别呢?数据挖掘在如下几个方面与统计分析形成了比较明显的差异:

统计分析的基础之一就是概率论,在对数据进行统计分析时,分析人员常常需要对数据分布和变量间的关系做假设,确定用什么概率函数来描述变量间的关系,以及如何检验参数的统计显著性;但是,在数据挖掘的应用中,分析人员不需要对数据分布做任何假设,数据挖掘中的算法会自动寻找变量间的关系。因此,相对于海量、杂乱的数据,数据挖掘技术有明显的应用优势。

统计分析在预测中的应用常表现为一个或一组函数关系式,而数据挖掘在预测应用中的重点在于预测的结果,很多时候并不会从结果中产生明确的函数关系式,有时候甚至不知道到底是哪些变量在起作用,又是如何起作用的。最典型的例子就是“神经网络”挖掘技术,它里面的隐蔽层就是一个“黑箱”,没有人能在所有的情况下读懂里面的非线性函数是如何对自变量进行组合的。在实践应用中,这种情况常会让习惯统计分析公式的分析师或者业务人员感到困惑,这也确实影响了模型在实践应用中的可理解性和可接受度。不过,如果能换种思维方式,从实战的角度考虑,只要模型能正确预测客户行为,能为精细化运营提供准确的细分人群和目标客户,业务部门、运营部门不了解模型的技术细节,又有何不可呢?

在实践应用中,统计分析常需要分析人员先做假设或判断,然后利用数据分析技术来验证该假设是否成立。但是,在数据挖掘中,分析人员并不需要对数据的内在关系做任何假设或判断,而是会让挖掘工具中的算法自动去寻找数据中隐藏的关系或规律。两者的思维方式并不相同,这给数据挖掘带来了更灵活、更宽广的思路和舞台。

虽然上面详细阐述了统计分析与数据挖掘的区别,但是在企业的实践应用中,我们不应该硬性地把两者割裂开来,也无法割裂,在实践应用中,没有哪个分析师会说,“我只用数据挖掘技术来分析”,或者“我只用统计分析技术来分析”。正确的思路和方法应该是:针对具体的业务分析需求,先确定分析思路,然后根据这个分析思路去挑选和匹配合适的分析算法、分析技术,而且一个具体的分析需求一般都会有两种以上不同的思路和算法可以去探索,最后可根据验证的效果和资源匹配等一系列因素进行综合权衡,从而决定最终的思路、算法和解决方案。

鉴于实践应用中,统计分析与数据挖掘技术并不能完全被割裂开来,并且本书侧重于数据化运营的实践分享。所以在后续各章节的讨论中,将不再人为地给一个算法、技术贴上“统计分析”或“数据挖掘”的标签,后续各章节的技术分享和实战应用举例,都会本着针对不同的分析目的、项目类型来介绍主流的、有效的分析挖掘技术以及相应的特点和技巧。统计分析也罢,数据挖掘也好,只要有价值,只要在实战中有效,都会是我们所关注的,都会是我们所要分析分享的。

相关文章:

  • 4个可以发送完整电子邮件的命令行工具
  • 《社会智能与综合集成系统》—第2章2.1节机器智能的发展
  • 《树莓派实战秘籍》——1.17添加重启按钮
  • 百度编辑器Ueditor 多图上传 图片在线管理的排序问题解决方案
  • 未来的C#之覆写放宽
  • 《机器人爱好者(第2辑)》——Robot Hut初印象
  • 《Linux指令从入门到精通》——4.2 Linux下的简单文字模式文本编辑器
  • Java 获取当前操作系统信息
  • import static和import的区别(转)
  • 程序员再回首
  • MYSQL坑爹的UPDATE子查询,UPDATE时避免使用子查询
  • R数据可视化----ggplot2之标度、坐标轴和图例详解
  • 深入解析SQL Server并行执行原理及实践(上) ---高继伟
  • 关于在a标签中添加点击事件的一些问题
  • Hbase 布隆过滤器BloomFilter介绍
  • 【知识碎片】第三方登录弹窗效果
  • Create React App 使用
  • Java知识点总结(JDBC-连接步骤及CRUD)
  • js写一个简单的选项卡
  • Linux学习笔记6-使用fdisk进行磁盘管理
  • mysql中InnoDB引擎中页的概念
  • v-if和v-for连用出现的问题
  • Vue 重置组件到初始状态
  • 聊聊hikari连接池的leakDetectionThreshold
  • 前嗅ForeSpider中数据浏览界面介绍
  • 容器服务kubernetes弹性伸缩高级用法
  • 携程小程序初体验
  • 智能合约开发环境搭建及Hello World合约
  • Nginx实现动静分离
  • ![CDATA[ ]] 是什么东东
  • (51单片机)第五章-A/D和D/A工作原理-A/D
  • (LeetCode C++)盛最多水的容器
  • (十一)手动添加用户和文件的特殊权限
  • (转)IOS中获取各种文件的目录路径的方法
  • (转)Java socket中关闭IO流后,发生什么事?(以关闭输出流为例) .
  • (总结)Linux下的暴力密码在线破解工具Hydra详解
  • .NET 4.0中的泛型协变和反变
  • .NET和.COM和.CN域名区别
  • .Net下的签名与混淆
  • .NET中统一的存储过程调用方法(收藏)
  • ?.的用法
  • @modelattribute注解用postman测试怎么传参_接口测试之问题挖掘
  • [100天算法】-每个元音包含偶数次的最长子字符串(day 53)
  • [22]. 括号生成
  • [C++][数据结构][算法]单链式结构的深拷贝
  • [CareerCup] 12.3 Test Move Method in a Chess Game 测试象棋游戏中的移动方法
  • [C语言]——C语言常见概念(1)
  • [DEBUG] spring boot-如何处理链接中的空格等特殊字符
  • [HJ56 完全数计算]
  • [IE编程] 如何获得IE版本号
  • [JavaScript]_[初级]_[不使用JQuery原生Ajax提交表单文件并监听进度]
  • [LeetCode]—Roman to Integer 罗马数字转阿拉伯数字
  • [MongoDB]------windos下的安装部署与基础使用
  • [MSSQL]GROUPING SETS,ROLLUP,CUBE初体验
  • [NOI2020统一省选 A] 组合数问题 (推式子)