sklearn实战-乳腺癌细胞数据挖掘(博客主亲自录制视频教程)
https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share
杰卡德距离(Jaccard Distance) 是用来衡量两个集合差异性的一种指标,它是杰卡德
相似系数的
补集,被定义为1减去Jaccard相似系数。而杰卡德相似系数(Jaccard similarity coefficient),也称杰卡德指数(Jaccard Index),是用来衡量两个集合相似度的一种指标。
-
中文名
- 杰卡德距离 外文名
- Jaccard Distance
-
提出者
- Paul Jaccard 应用学科
- 统计学,机器学习,数据挖掘,信息信息检索 适用领域范围
- 集合相似性度量,字符串相似性度量
目录
- 1 定义
- 2 性质
- 3 应用
定义
编辑
Jaccard相似指数用来度量两个集合之间的相似性,它被定义为两个集合交集的元素个数除以
并集的元素个数。
Jaccard距离用来度量两个集合之间的差异性,它是Jaccard的
相似系数的
补集,被定义为1减去Jaccard相似系数。
性质
编辑
1) 若A、B两个集合都为空,则
;
2)
;
应用
编辑
给定两个n维二元向量A、B,A、B的每一维都只能是0或者1,利用Jaccard
相似系数来计算二者的相似性:
1)
代表向量A与向量B都是0的维度个数;
2)
代表向量A是0而向量B是1的维度个数;
3)
代表向量A是1而向量B是0的维度个数;
4)
代表向量A和向量B都是1的维度个数。
n维向量的每一维都会落入这4类中的某一类,因此:
则Jaccard
相似系数为
Jaccard距离为
python风控评分卡建模和风控常识(博客主亲自录制视频教程)
https://study.163.com/course/introduction.htm?courseId=1005214003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share