当前位置: 首页 > news >正文

数据分析的 5 种归纳方法

e62e0ae31d43b25f123f6388aa14b9db.gif

c8e2c1e290c34508c2c17182094cd71f.png

导读:归纳思维,是从特殊情况出发,推理出一般性的结论,作为数据分析的重要思维,我认为应该引起足够的重视。

下面介绍 5 种归纳方法,即:求同法、求异法、共用法、共变法和剩余法,其实这些方法早在古代就有,后来培根在《新工具》一书中进行了概括和归纳,最后由穆勒加以系统的整理和说明,因此通常称为「穆勒五法」。

9c95d21f0bfc23f050ba2b5f03bbec27.png

作者 / 来源:林骥(ID:linjiwx)

0053219bff14d3953ccccd94fedbac67.png

01 求同法

在多个场合中,如果只有一个条件相同,那么这个相同的条件,就是我们要找的原因。

用字母来表示,如果有 A 就有 a,那么 A 可能是 a 的原因。

场合情况被研究现象
(1)A、B、Ca
(2)A、D、Ea
(3)A、F、Ga
………………

比如说,火鸡吃了「发霉的花生」,得癌症死了,鸽子、老鼠、鱼等动物吃了这种花生,也都得癌症死了。

在这个例子中,只有「发霉的花生」这个条件是相同的,其中「发霉的花生」是 A,「得癌症死亡」就是 a,于是猜想,吃发霉的花生是得癌症死亡的原因。

后来,通过化验证明,在发霉的花生中,有一种黄曲霉素,这是一种致癌的物质。

再比如,有一组患 a 病的人,他们年龄不同,身高不同,性别不同,饮食习惯等等都不同。他们只有一个共同点,就是都酗酒。利用求同法,酗酒和 a 病之间可能存在因果关系。

求同法相对比较简单,但是要注意它的局限性,不要把巧合当成因果。

02 求异法

如果一个现象是否出现,只有一个条件不同,那么这个不同的条件,就是我们要找的原因。

用字母来表示,如果有 A 就有 a,且无 A 就无 a,那么 A 可能是 a 的原因。

场合情况被研究现象
(1)A、B、Ca
(2)一、B、C
………………

比如说,在化学实验中,氯化钾加热会产生氧气,但速度很慢,当加入少量「二氧化锰」之后,产生氧气的速度明显加快。

在这个例子中,「二氧化锰」是影响速度快慢的唯一不同条件,其中「二氧化锰」是 A,「快速产生氧气」是 a,所以,二氧化锰是快速产生氧气原因。

再比如,中国人和外国人远洋航行,途中,外国人都得了坏血病,中国人都没事。用求异法发现,中国人喜欢喝茶,这一点与外国人不同,其中「喝茶」是 A,「抵御坏血病」是 a,于是归纳出「喝茶能够抵御坏血病」的猜想。

在现实的业务环境中,很难找到只有一个条件不同的场景,所以,一般要借助 AB 测试,控制好实验组与对照组的唯一不同条件,让其他条件都尽可能保持一致。比如投放两组广告,只有标题不同,其他都一样,然后分析转化率的差异。

6456a3077945562b070d787135c28bbb.png

03 共用法

共用法,就是把求同法和求异法结合起来共同使用,从而让分析结论更加可靠,但并不能保证结论完全正确。

具体来说,共用法包括两次求同和一次求异,即以下三个步骤:

  • 第一步:正面场合求同,寻找现象出现的相同条件,有 A 就有 a;

  • 第二步:反面场合求同,寻找现象不出现的相同条件,无 A 就无 a;

  • 第三步:正反场合求异,得出数据分析的结论,A 可能是 a 的原因。

场合情况被研究现象
(正面场合1)A、B、Ca
(正面场合2)A、D、Ea
(正面场合3)A、F、Ga
………………
(反面场合1)一、B、C
(反面场合2)一、D、E
(反面场合3)一、F、G
………………

比如说,有阳光,韭菜等植物是绿色,没有阳光,韭菜等植物不是绿色,其中「阳光」是 A,「绿色」是 a,所以阳光可能是韭菜等植物变成绿色的原因。

再比如,为了调查甲状腺肿大的原因,先到几个这种病流行的地区,发现这些地区的地理环境、经济水平都各不相同,但有一点是相同的,即居民经常食用的食物和饮用的水中缺碘。再到一些这种病不流行的地区去调查,发现这些地区的地理环境和经济水平也各不相同,但有一点是相同的,即居民经常食用的食物和饮用的水中不缺碘。其中「缺碘」是 A,「甲状腺肿大」是 a,所以缺碘可能导致甲状腺肿大。

再举一个商业环境中的例子,对广告效果进行数据分析的时候,假如广告文案中包含「限时」的转化率就较高,不包含「限时」的转化率就不高,那么我们可以认为,「限时」这个关键词对转化率可能有提升效果。

在实际工作中,共用法比求同法和求异法的应用更加广泛,得出的结论往往也更加可靠。

04 共变法

在其他条件不变的情况下,如果某一现象发生变化,另一现象也发生变化,那么这两个现象之间可能存在因果联系。

用字母来表示,如果 A 变化的时候 a 也变化,那么 A 可能是 a 的原因。

场合情况被研究现象
(1)A1、B、Ca1
(2)A2、B、Ca2
(3)A3、B、Ca3
………………

比如说,气温上升,水银体积就膨胀;气温下降,水银体积就缩小,其中「气温」是 A,「水银体积」是 a,气温与水银体积之间可能存在因果关系。

再比如,广告投放量增加,销量就上升,广告投放量减少,销量就下降,其中「广告投放量」是 A,「销量」是 a,广告投放量与销量之间存在因果联系。

使用共变法时要注意,不能仅凭简单观察,就确定因果关系。有时两种现象共变,但实际上并无因果联系,比如闪电与雷鸣。

6c415e89a7a30a5e1fb5eca814b37471.png

05 剩余法

已知复合结果是由复合原因引起的,如果其中一部分原因导致一部分结果,那么剩余部分原因也会导致剩余部分结果。

用字母来表示,如果 A、B、C、D 导致 a、b、c、d,其中 A、B、C 分别导致 a、b、c,那么 D 可能导致 d。

场合情况被研究现象
(1)A、B、C、Da、b、c、d
(2)Aa
(3)Bb
(4)Cc

比如说,天王星的运行轨道,有四个地方发生偏离,其中三个地方的偏离是由三个行星引起的,所以天文学家和数学家认为,第四个地方的偏离肯定是因为受到另一个行星的引力。其中三个行星分别是 A、B、C,三个地方的偏离分别是 a、b、c,第四个地方的偏离是 d,而另一个行星就是要找的 D。

后来果然发现了这个行星,它就是海王星,是唯一利用数学预测发现的行星。

一般来说,剩余法只能用于研究复合现象的原因。

小结

以上介绍的 5 种归纳方法,即:求同法、求异法、共用法、共变法、剩余法,是我们获取新知的重要方法。需要注意的是,它们都属于不完全归纳法,也就是说,即使推理过程看起来没问题,但是得出的结论可能是错误的,应该经过进一步的验证。

有许多的案例和故事都说明,有限的观察不等于真理。

比如说,中国的天鹅是白色的,美国的天鹅也是白色的,于是有人猜想,所有天鹅都是白色的。但是,世界上确实有黑天鹅存在。

再比如,在《三体》中有这么一个故事:

一个农场里有一群火鸡,农场主每天中午十一点来喂食。火鸡中有位科学家,观察了近一年都没有例外,于是它发现了自己宇宙中的伟大定律:「每天上午十一点,会有食物降临。」它在感恩节的早晨,向火鸡们公布了这个定律,但这天上午十一点,食物没有降临,农场主进来把它们都捉去杀了。

为了避免以偏概全,我们需要运用合适的方法,加强归纳思维的训练,积累更多实战的经验,这样归纳总结出来的结论,才能经得起时间的考验,才会更有现实意义。

04334c23b4f4f07009285d0799062444.gif

延伸阅读👇

《利用Python进行数据分析》(原书第2版)

0eb19e8c368c03b711e4d0364fa3c40a.png

推荐语:本书由Python pandas项目创始人Wes McKinney亲笔撰写,详细介绍利用Python进行操作、处理、清洗和规整数据等方面的具体细节和基本要点。第2版针对Python 3.6进行全面修订和更新,涵盖新版的pandas、NumPy、IPython和Jupyter,并增加大量实际案例,可以帮助你高效解决一系列数据分析问题。

a4590c949540ecbdbd58db1fbfbad8ff.gif

566a0c07fcc2cd98115b84e78fe63a02.png

扫码关注【华章计算机】视频号

每天来听华章哥讲书

a1c84fb4eeb19c1b49bd87442906087e.gif

更多精彩回顾

书讯 | 1月书讯(下)| 2022年的第一本书

书讯 | 1月书讯(上)| 2022年的第一本书

资讯 | 重磅!达摩院发布2022十大科技趋势

书单 | 6本书,读懂2022年最火的边缘计算

干货 | Flink1.14.2发布,除了log4j漏洞你还需要关注什么?

收藏 | Docker冲顶技术热词,微服务应用热度不减,中国云原生开发者真实现状如何?

上新 | 【新书速递】金融领域可解释机器学习模型与实践

赠书 | 【第87期】程序员怎样上元宇宙的车?

53c64d06512bc4b29b1a5f58bed249f7.gif

d83634775686acf5eaa723f7a9ac6883.gif

点击阅读全文购买

相关文章:

  • 四位RISC先驱获「工程学界诺贝尔奖」,图灵奖得主David Patterson、John Hennessy获奖...
  • 【第88期】这10本硬核技术书,带你读懂5G、物联网和边缘计算,玩转元宇宙
  • 抖音的推荐技术这么强,为什么还有人觉得推荐的一点都不准呢?
  • 【新书速递】如何高效学习存储系统?一本书全都讲明白
  • 学会这10个设计原则,离架构师又进了一步!!!
  • Electron开发者该如何提升自己的技能水平
  • 终于有人把ROS机器人操作系统讲明白了
  • 一文看懂——序列数据的生成:GAN的方法
  • “三行代码,确实需要耗上一整天!”
  • GraalVM下一代JVM到底是什么?
  • 【第89期】推荐几本电商必读书
  • 一文带你了解LoongArch自主指令系统
  • 2021年数据中台行业十大关键词
  • 测试工程师的未来发展方向在哪里?
  • 一个案例讲明白!如何更安全地实现数据备份和恢复
  • 2017 年终总结 —— 在路上
  • Codepen 每日精选(2018-3-25)
  • Js基础——数据类型之Null和Undefined
  • LeetCode18.四数之和 JavaScript
  • Linux gpio口使用方法
  • yii2权限控制rbac之rule详细讲解
  • zookeeper系列(七)实战分布式命名服务
  • 机器人定位导航技术 激光SLAM与视觉SLAM谁更胜一筹?
  • 坑!为什么View.startAnimation不起作用?
  • 三分钟教你同步 Visual Studio Code 设置
  • 微信开放平台全网发布【失败】的几点排查方法
  • 一份游戏开发学习路线
  • 原生js练习题---第五课
  • 源码之下无秘密 ── 做最好的 Netty 源码分析教程
  • ​ ​Redis(五)主从复制:主从模式介绍、配置、拓扑(一主一从结构、一主多从结构、树形主从结构)、原理(复制过程、​​​​​​​数据同步psync)、总结
  • ​TypeScript都不会用,也敢说会前端?
  • # 安徽锐锋科技IDMS系统简介
  • #Java第九次作业--输入输出流和文件操作
  • #大学#套接字
  • (LeetCode) T14. Longest Common Prefix
  • (附源码)计算机毕业设计SSM疫情居家隔离服务系统
  • .gitignore
  • .mysql secret在哪_MySQL如何使用索引
  • .NET Core 2.1路线图
  • .NET Remoting学习笔记(三)信道
  • .NET4.0并行计算技术基础(1)
  • .NET程序员迈向卓越的必由之路
  • .NET的微型Web框架 Nancy
  • .NET国产化改造探索(一)、VMware安装银河麒麟
  • .NET性能优化(文摘)
  • @ModelAttribute注解使用
  • [ 云计算 | AWS ] AI 编程助手新势力 Amazon CodeWhisperer:优势功能及实用技巧
  • [C/C++]关于C++11中的std::move和std::forward
  • [C++]四种方式求解最大子序列求和问题
  • [CISCN2019 华东南赛区]Web11
  • [Codeforces] number theory (R1600) Part.11
  • [EWS]查找 文件夹
  • [Java] 模拟Jdk 以及 CGLib 代理原理
  • [JavaWeb]——过滤器filter与拦截器Interceptor的使用、执行过程、区别
  • [LeetCode]: 145: Binary Tree Postorder Traversal