当前位置：首页 > news >正文

[机器学习] 通俗理解机器学习分类模型评估指标-准确率、精准率、召回率

news 来源：原创 2024/5/8 0:34:35

机器学习模型需要有量化的评估指标来评估哪些模型的效果更好。

分类问题的混淆矩阵和各种评估指标的计算公式。将要给大家介绍的评估指标有：准确率、精准率、召回率、F1、ROC曲线、AUC曲线。

一分类问题图解

举个例子：我们有10张照片，5张男性、5张女性。如下图：

有一个判断性别的机器学习模型，当使用它来判断「是否为男性」时，会出现4种情况。如下图：

实际为男性，且判断为男性（正确）
实际为男性，但判断为女性（错误）
实际为女性，且判断为女性（正确）
实际为女性，但判断为男性（错误）

这4种情况构成了经典的混淆矩阵，如下图：

TP - True Positive：实际为男性，且判断为男性（正确）
FN - False Negative：实际为男性，但判断为女性（错误）
TN - True Negative：实际为女性，且判断为女性（正确）
FP - False Positive：实际为女性，但判断为男性（错误）

分类评估指标详解

准确率 - Accuracy

虽然准确率可以判断总的正确率，但是在样本不平衡 的情况下，并不能作为很好的指标来衡量结果。举个简单的例子，比如在一个总样本中，正样本占 90%，负样本占 10%，样本是严重不平衡的。对于这种情况，我们只需要将全部样本预测为正样本即可得到 90% 的高准确率，但实际上我们并没有很用心的分类，只是随便无脑一分而已。这就说明了：由于样本不平衡的问题，导致了得到的高准确率结果含有很大的水分。即如果样本不平衡，准确率就会失效。

精确率（查准率）- Precision

精确率（P值）是针对我们预测结果而言的，它表示预测为正的样本中有多少是真正的正样本。

精准率和准确率看上去有些类似，但是完全不同的两个概念。精准率代表对正样本结果中的预测准确程度，而准确率则代表整体的预测准确程度，既包括正样本，也包括负样本。

人脸识别支付：主要提升精确率，更倾向于不能出现错误的预测。

应用场景：你刷脸支付时就算几次没检测到你的脸，最多会让你愤怒，对银行损失不大，但是如果把你的脸检测成别人的脸，就会出现金融风险，让别人替你买单，对银行损失很大。所以宁愿让你付不了钱，也不会让别人帮你付钱。

召回率（查全率）- Recall

召回率（R值）是针对我们原来的样本而言的，它表示的是样本中的正例有多少被预测正确了。

召回率的应用场景： 比如拿网贷违约率为例，相对好用户，我们更关心坏用户，不能错放过任何一个坏用户。因为如果我们过多的将坏用户当成好用户，这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额，造成严重偿失。召回率越高，代表实际坏用户被预测出来的概率越高，它的含义类似：宁可错杀一千，绝不放过一个。

预测地震：主要提升召回率，更倾向于宁愿多预测一些错的也不能漏检。

应用场景：地震预测时宁愿多预测一些错的，也不想漏掉一次地震，预测错误最多会让大家多跑几趟，造成少量损失。只要预测对一次，就会挽回百亿级别的损失，之前所有的损失都值了。

提升精确率是为了不错报、提升召回率是为了不漏报