概率为何反直觉?
数学上的概率论和数理统计时常被一并提及,但这两门学科是有区别的。概率论是统计学的基础,它是研究随机性的数学理论。数理统计则关注研究对象的行为规律,它是一系列的研究方法。可以说,概率论更偏数学理论,数理统计更多的是应用。
统计学不是必然用到概率论,比如用样本均值来表示总体某种特征的大致水平,这个和概率就没关系。但是因为概率论研究的是随机现象,而统计学恰恰涉及无处不在的随机性,因此概率论就成为了精确刻画统计数据的重要工具。
举例来说,概率论研究的是一个白盒,你很清楚盒子中有几个红球、几个白球,即很清楚数学上的分布函数,然后推测摸到特定颜色球的可能。而数理统计要面对的是一个黑盒,你只看到每次从盒子里摸出来的是红球还是白球,然后猜测这个盒子中球的颜色分布。比如,盒子中红球和白球的比例各占多少?或者回答能不能认为红球占60%、白球占40%?用统计学术语来说,前一个问题叫做参数估计,后一个问题则被称为假设检验。
法国数学家拉普拉斯(1749-1827)曾说:“人生中最重要的问题,大多数情况下是概率问题”。不过,如此重要的数学理论,在过去很长一段时间里却一直没有被人们重视起来。最初研究概率论的并非数学家,而是一群赌徒和投机者,因为解决这些概率问题可以直接为他们带来金钱上的收益。直到上个世纪,概率论的公理体系才被比较完整地建立起来。
01. 试验能得出什么规律
自然界里的现象大致可以分为两类。一类是在特定条件下必然发生的现象。比如,把手中的石子抛向空中,由于受到地球引力的影响,它必然会落下;同性电荷受到电场的作用,必然相互排斥。我们把这类现象称为确定现象。
还有一类现象,它们没那么确定。比如向空中抛一枚硬币,落下后可能是正面朝上,也可能是反面朝上,只有抛了才知道。射击运动员拿枪对准靶子射击,有可能射中靶心,也有脱靶的风险。这类现象称为不确定现象。它的特点是:第一,在相同的条件下可以重复进行;第二,出现结果的个数有限,所有可能的结果事先可知;第三,每次究竟出现哪个结果,无法提前确定。
虽然每次抛硬币的结果无法提前预知,但只要重复进行大量试验,硬币正面朝上的结果总是接近总数的一半。这种在大量重复试验或观察中呈现出的固定规律性,便是统计规律性。在个别试验中结果呈现不确定性,在大量试验中结果又具有统计规律性的现象,称为随机现象。概率论与数理统计,就是研究和揭示这种随机现象统计规律性的数学学科。
当进行随机试验时,人们通常关心符合某种条件的样本所组成的集合,它被称为随机事件,简称为事件。例如,想要检测某种灯泡的质量,“灯泡中有次品”就是一个随机事件。为了统计出随机事件究竟有多大可能性会发生,数学家们使用频率来描述随机事件发生的频繁程度。它是同等条件下某个事件发生次数与总试验次数之比。假设100个灯泡中有10个是次品,那么次品发生的频率就是10%。
当重复试验的次数逐渐增大,事件频率会呈现出稳定性,数值接近某个常数。这种“频率稳定性”就是我们前面所说的统计规律性。而通过反复试验得到的频率常数,可以近似代表这个事件发生的可能性,即它的概率。
02.如何合理分配赌金
概率这个概念产生于17世纪,主要的资料来源于数学家帕斯卡和费马的书信内容。这两个数学天才讨论并解决了一个“赌金分配问题”。该问题预设了这样一个场景:在一场赌局中,约定谁先赢3局谁就获胜,赢家可以拿走全部赌金。现在其中一人已经赢了2局,另一人只赢了1局,突然赌局因故终止,问双方应该如何公平地分配赌金?
对于掌握了现代统计学知识的我们来说,这个问题实际上就是要计算双方赌局中的获胜概率。有了概率,就能求出赌金的分配比例。可当时的人们并不知道这个思路。实际上,帕斯卡和费马这两位数学家使用了不同的数学方法来解决这个问题,帕斯卡运用的是算术方法,费马则运用了排列组合方法。他们都给出了正确答案:应该按照3:1的比例分配赌金。
正是关于这一赌金分配问题的讨论,开创了概率论研究的先河。当时还没有“概率”(Probability)这一术语,人们使用“机会”(Chance)之类的词来表达概率的含义。后来,阿尔诺(Antoine Arnauld)与尼古拉(Pierre Nicole)在1662年出版的《波尔·罗亚尔逻辑》中首次为“概率”这个词赋予了数学含义。
概率论严格的数学体系直到20世纪才得以完善,如今大多数人知道的概率定义,是由法国数学家及物理学家拉普拉斯在1774年正式提出的。他指出,概率是“发生特定情况的个数”占“所有可能发生情况的个数”的比值。
03.概率与异常值
概率是一个比较抽象的概念,它表示某件事件会发生的可能性。
首先,概率是经验值,它由频率推导而来。比如要验证抛硬币正面朝上的概率,可以重复地抛,抛的次数越多,它的频率就越接近它的概率。历史上,为了验证频率是否可以表示某个事件发生的可能性,很多数学家都抛过硬币。比如18世纪法国数学家蒲丰亲自抛了4040次硬币,20世纪英国数学家卡尔·皮尔逊抛了24000次,二战时期南非数学家约翰·克里奇抛了10000次硬币,他们把数据一一记录下来,做了详细的统计分析,才得出了概率的结论。
其次,概率揭示了不确定性中的确定,如同放射性元素固定不变的半衰期、掷骰子时每个点数出现的概率、打牌时摸到同花顺的几率,这些事件都有着相同的规律特点,即单次事件的结果不确定,但总的发生可能性又相对确定。
此外,概率避免不了“黑天鹅”。由于概率是从已有数据中统计出来的,所以,如果没有相关事实数据,就不要指望能通过概率反映出来真相。欧洲人哪怕拥有几千年来数百万次观察得到的白天鹅数据,也无法获得更好的天鹅模型。因为数据是不完整的,其中没有包含澳大利亚的黑天鹅数据。更糟糕的是,没人知道没有这些数据。
今天被广泛运用到各行各业的人工智能,其原理基于的是统计学。它们只能根据已有数据进行归纳、推演和预测。对于那些“黑天鹅”数据,人工智能从来就没有见过,自然对其无能为力,更可能的是把它们当做异常值给忽略掉。
但在现实中,我们要警惕数据的异常值!异常值是那些少量但与其他数据存在较大差异的数据。有时,异常值仅仅是统计错误,可以直接丢弃。但有时,异常值反映了一些特殊且重要的情况,它们不能被忽略,反而需要数据分析人员做更深入的研究。
举例来说,美国股市的道琼斯工业指数每天价格的波动幅度不会太大,如果只是基于历史数据来看,通常不超过4%。但在1987年10月19日,纽约股市的道琼斯指数开盘后经过一阵波动后急剧下跌,造成了迄今为止影响面最大的一次全球性股灾,随之带来很长一段时间的全球经济衰退。当天休市时,道琼斯指数下跌了23%,相当于美元市值亏损了5000亿。因为这天是星期一,所以后来也被称为黑色星期一。很多人在股灾发生后仍然感到奇怪,因为当天根本就没有任何不利于股市的消息和新闻。对于股市研究者来说,23%就是一个异常值。
异常值出现次数少,但要特别引起关注。事实上,异常值本身就是非常有价值的研究对象。生活中常见的异常检测应用有金融反欺诈、罕见病检测、网络流量入侵检测、机器故障检测等等。如果我们要开发一个异常检测程序,就要想办法让算法“重视”而不是“忽略”异常值,里面自然能用到很多数学方法,比如提高异常值的计算权重、或是通过概率计算出正常数值的区间范围,等等。
04.用概率击败庄家
概率作为数学中的重要概念,可以描述复杂系统的内在机制,在金融、博弈论、物理学、人工智能、机器学习、计算机科学等领域广泛应用。人们对概率的研究起源于赌博。早在公元前1500年,埃及人为了打发时间和忘却饥饿,经常聚在一起掷骰子,很多赌博游戏从那时起就开始流行起来。直到欧洲文艺复兴时期,人们开始将这种机会性游戏作为科学研究的对象,将赌博视为一种概率游戏。
大多数的赌博游戏都是让赌徒对赌,相互赢对方的钱,而庄家从中获利。因为庄家事先计算各种输赢概率,然后设计相应的玩法和赔率,所以只要一直玩,庄家总是赢钱的一方。
历史上有很多数学家都热衷研究赌博问题,爱德华·索普就是其中之一。这位数学家经过仔细研究,最终发现赌场里的21点游戏存在漏洞,能“钻空子”。在21点游戏中,每位玩家先拿到两张牌,然后选择是继续要牌还是不要,在手牌点数不超过21点的情况下,谁更接近21点谁就获胜。
索普发现,这个游戏的获胜概率会随着已发牌的情况而改变。比如一副牌在发过几轮后,如果台面上出现的都是小牌,那么剩余牌堆里的大牌就更多。根据规则,大牌会对庄家不利,因为庄家更有可能拿牌超过21点而爆牌。假设有一种方法可以计算出发牌情况,就能制定相应的获胜策略,从而提高玩家的胜率。为此,索普发明了一种叫做“高低法”的算牌方法,帮助玩家快速算牌。结果可想而知,他成为了赌场中的常胜将军,甚至被很多赌场列入黑名单。这足以见证概率的威力。
举这个例子并不是鼓励大家赌博和投机,而是为了说明概率论这门学科在很多地方都发挥出了远超你想象的作用。
绝大多数人做判断时习惯从自身认知出发。人们评估风险时倾向于自己的主观感受,往往忽略了客观分析的重要性。比如很多人认为汽车比飞机安全,但大量统计数据表明,发生飞机事故的概率要比发生车辆事故的概率小得多。喜欢炒股的人总认为自己能跑赢大盘,但统计表明,市面上70%左右的基金表现都比市场差,那些专业的投资人并不能赢过市场。又比如,心理学上有个术语叫做自利性偏差,认为人类普遍拥有认知偏差,喜欢把成功揽到自己身上,把失败归咎于别人或者坏运气。
由于数据会影响人的主观感受,而人的直觉对数据不敏感,所以人们依靠直觉做出的判断很容易出现错误。此时,使用概率就比直觉更靠谱。
概率问题之所以有时反直觉,是因为它要根据不同的前提假设做出不同的推算。我们必须认识到,获取信息的方式和信息本身同样重要。一旦我们使用了一些非随机的方式去干预或影响本该随机的事件,概率也就会随之发生变化。
关于作者:徐晟,高级工程师、毕业于上海交通大学,从业十余年,具备开发、架构、大数据、安全、运维等多领域技术从业经验,对科技发展、人工智能有自己独到的见解。现就职于某商业银行,主要负责智能运维(AIOps)、数据可视化、容量管理等方面工作;参与智能运维国家标准相关编制工作。
本文摘编自《大话机器智能:一书看透AI的底层运行逻辑》,转载请标明文章来源
转载请联系微信:Better_lydia
RECOMMEND
推荐阅读
大话机器智能:一书看透AI的底层运行逻辑
作者:徐晟
本书以通俗易懂的方式,勾勒人工智能的全貌,展现AI的底层运行逻辑。
告诉你AI是如何工作的!
推荐阅读
本书以有趣的案例和深入浅出的语言,直击AI的底层运行逻辑与核心原理,勾勒人工智能的全貌,以便读者掌握AI技术要点,打通AI的各种技术壁垒,厘清不易察觉的“认知错误”,从而更好地认识正在运转的神秘AI世界。
更多精彩回顾
书讯 | 4月书讯(上)| 上新了,华章
书讯 | 4月书讯(下)| 上新了,华章
资讯 | 视频时代的大数据:问题、挑战与解决方案
书单 | 金三银四求职季,十道腾讯算法真题解析!
干货 | TypeScript 中的“类型”到底是个啥?
收藏 | 终于有人把Scrapy爬虫框架讲明白了
上新 | NLP大牛菲利普•科恩机器翻译权威著作
赠书 | 【第99期】边缘计算比云计算强在哪里?终于有人讲明白了
点击阅读全文购买