当前位置: 首页 > news >正文

【笔记】字符串相似度代码分享

目录

  • 一、算法介绍
    • 1、算法
      • 1)基于编辑距离
      • 2)基于标记
      • 3)基于序列
      • 4)基于压缩
      • 5)基于发音
      • 6)简单算法
    • 2、安装
  • 二、代码demo
    • 1、Hamming 距离
    • 2、Levenshtein 距离
    • 3、Damerau-Levenshtein距离
    • 4、Jaro 相似度
    • 5、Jaro-Winkler相似度
    • 6、Smith–Waterman相似度
    • 7、Jaccard 相似度
    • 8、Sørensen-Dice 相似度
    • 9、Tversky 相似度
    • 10、Overlap coefficient相似度
    • 11、Cosine similarity相似度
    • 12、N-gram相似度
    • 13、最长公共子字符串/子序列相似度
    • 14、Ratcliff-Obershelp相似度
  • 三、效果分析
    • 1、中文文本字符串
      • 1)效果最好排序
      • 2)速度最快排序
      • 3)综合排序
    • 2、其他
      • 1)基于压缩的应用场景
      • 2)基于发音的应用场景
      • 3)简单算法的应用场景

一、算法介绍

1、算法

1)基于编辑距离

算法函数
HammingHamminghamming
MLIPNSMlipnsmlipns
LevenshteinLevenshteinlevenshtein
Damerau-LevenshteinDamerauLevenshteindamerau_levenshtein
Jaro-WinklerJaroWinklerjaro_winkler, jaro
Strcmp95StrCmp95strcmp95
Needleman-WunschNeedlemanWunschneedleman_wunsch
GotohGotohgotoh
Smith-WatermanSmithWatermansmith_waterman

2)基于标记

算法函数
Jaccard indexJaccardjaccard
Sørensen–Dice coefficientSorensensorensen, sorensen_dice, dice
Tversky indexTverskytversky
Overlap coefficientOverlapoverlap
Tanimoto distanceTanimototanimoto
Cosine similarityCosinecosine
Monge-ElkanMongeElkanmonge_elkan
Bag distanceBagbag

3)基于序列

算法函数
最长公共子序列相似度LCSSeqlcsseq
最长公共子串相似度LCSStrlcsstr
Ratcliff-Obershelp 相似度RatcliffObershelpratcliff_obershelp

4)基于压缩

使用不同压缩算法的归一化压缩距离。

经典压缩算法:

算法函数
算术编码ArithNCDarith_ncd
RLERLENCDrle_ncd
BWT RLEBWTRLENCDbwtrle_ncd

常见压缩算法:

算法函数
平方根SqrtNCDsqrt_ncd
EntropyNCDentropy_ncd

正在开发的算法,将两个字符串比较为比特数组:

算法函数
BZ2BZ2NCDbz2_ncd
LZMALZMANCDlzma_ncd
ZLibZLIBNCDzlib_ncd

5)基于发音

算法函数
MRAMRAmra
EditexEditexeditex

6)简单算法

算法函数
前缀相似度Prefixprefix
后缀相似度Postfixpostfix
长度距离Lengthlength
身份相似度Identityidentity
矩阵相似度Matrixmatrix

2、安装

仅纯Python实现:

pip install textdistance

带有额外库以实现最大速度:

pip install "textdistance[extras]"

包含所有库(用于基准测试和测试):

pip install "textdistance[benchmark]"

带有特定算法的额外库:

pip install "textdistance[Hamming]"

提供额外库的算法有:DamerauLevenshteinHammingJaroJaroWinklerLevenshtein

二、代码demo

1、Hamming 距离

>> import textdistance as td
>> td.hamming('book', 'look')
1
>> td.hamming.normalized_similarity('book', 'look')
0.75
>> td.hamming('bellow', 'below')
3
>> td.hamming.normalized_similarity('Below', 'Bellow')
0.5

在第一个示例中,有一个不同的字符。这使得距离等于1,归一化相似度等于(4-1)/4 = 75%。在第二个示例中,比较“bellow”和“below”,前三个字母相同,但接下来的三个字母不同。因此,距离是3,归一化相似度是(6-3)/6 = 50%。

2、Levenshtein 距离

>> td.levenshtein('book', 'look')
1
>> td.levenshtein.normalized_similarity('book', 'look')
0.75
>> td.levenshtein('bellow', 'below')
1
>> td.levenshtein.normalized_similarity('Below', 'Bellow')
0.84

在第一个示例中,可以通过替换一个字母来得到另一个单词,因此归一化相似度是(4-1)/4 = 75%。在第二个示例中,有一个插入操作,因此距离是1,归一化相似度是(6-1)/6 = 84%。

3、Damerau-Levenshtein距离

>> td.levenshtein('act', 'cat')
2
>> td.levenshtein.normalized_similarity('act', 'cat')
0.34
>> td.damerau_levenshtein('act', 'cat')
1
>> td.damerau_levenshtein.normalized_similarity('act', 'cat')
0.67

Damerau-Levenshtein距离是Levenshtein 距离的一个变种,应用广泛,如拼写检查和序列分析

4、Jaro 相似度

>> td.jaro('bellow', 'below')
0.94
>> td.jaro('simple', 'plesim')
0
>> td.jaro('jaro', 'ajro')
0.92

在第一个示例中,有5个匹配字符和一个插入(这不是置换操作),因此Jaro 相似度为1/3*(5/6+5/5+6/6)。在第二个示例中,有0个匹配字符,因为共同字符不在max(|s1|, |s2|)/2-1的范围内。这就是为什么相似度为0的原因。在最后一个示例中,有4个匹配字符和第一和第二字母之间的1个置换操作,因此相似度为1/3 * (4/4+4/4+3/4) = 0.91。

5、Jaro-Winkler相似度

>> td.jaro("simple", "since")
0.7
>> t.jaro_winkler("simple", "since")
0.76

由于两个字符串有两个共同的前缀字母。Jaro-Winkler相似度大于Jaro相似度:0.7 + 0.12(1–0.7) = 0.7 + 0.06 = 0.76。

6、Smith–Waterman相似度

>> td.smith_waterman("GATTACA", "GCATGCU")
3
>> td.smith_waterman("GATTACA", "GCATGCU")
0.43

Smith–Waterman算法在生物信息学中特别有用,用于识别生物序列中的相似区域或基序

7、Jaccard 相似度

>> td.jaccard('jaccard similarity'.split(), "similarity jaccard".split())
1
>> td.jaccard('jaccard similarity'.split(), "similarity jaccard jaccard".split())
0.66

类似交并比(Intersection of Union,IoU),对比时并不考虑字符串单词的顺序

8、Sørensen-Dice 相似度

>> td.sorencen('jaccard similarity'.split(), "similarity jaccard".split())
1
>> td.sorencen('jaccard similarity'.split(), "similarity jaccard jaccard".split())
0.8

与前者相比,不考虑重复元素

9、Tversky 相似度

>> td.sorencen('tversky similarity'.split(), "similarity tversky tversky".split())
0.8
>> tversky = td.Tversky(ks=(0.5, 0.5))
>> tversky('tversky similarity'.split(), "similarity tversky tversky".split())
0.8
>> td.jaccard('tversky similarity'.split(), "similarity tversky tversky".split())
0.67
>> tversky = td.Tversky(ks=(1, 1))
>> tversky('tversky similarity'.split(), "similarity tversky tversky".split())
0.67
>> tversky = td.Tversky(ks=(0.2, 0.8))
>> tversky('tversky similarity'.split(), "similarity tversky tversky".split())
0.74

10、Overlap coefficient相似度

>> td.overlap('overlap similarity'.split(), "similarity overlap overlap".split())
1.0

计算集合交集大小与较小集合大小的比例

11、Cosine similarity相似度

>> td.cosine('cosine'.split(), "similarity".split())
0
>> td.cosine('cosine sim'.split(), "cosine sim sim".split())
0.81

12、N-gram相似度

N-gram 相似度是一种基于字符串中连续N个字符的相似度度量方法。它通过将字符串拆分为N-gram(N个连续字符的子串),然后比较这些N-gram的集合来计算两个字符串之间的相似度。下面是用 Python 实现 N-gram 相似度的代码示例:

def ngrams(string, n):"""将字符串拆分为N-gram"""return [string[i:i+n] for i in range(len(string)-n+1)]def ngram_similarity(str1, str2, n):"""计算两个字符串的N-gram相似度"""ngrams1 = set(ngrams(str1, n))ngrams2 = set(ngrams(str2, n))intersection = ngrams1.intersection(ngrams2)union = ngrams1.union(ngrams2)return len(intersection) / len(union) if union else 0.0# 示例
str1 = "hello"
str2 = "hallo"
n = 2similarity = ngram_similarity(str1, str2, n)
print(f"{n}-gram 相似度: {similarity:.2f}")
# 2-gram 相似度: 0.33

13、最长公共子字符串/子序列相似度

>> s1, s2 = "RO PATTERN MATCHING", "RO PRACTICE"
>> td.lcsstr(s1, s2), td.lcsseq(s2, s1), td.lcsseq(s2, s1)('RO P', 'RO PRATC', 'RO PRACI')
>> td.lcsstr.normalized_similarity(s1, s2), td.lcsseq.normalized_similarity(s1, s2)(0.21, 0.42)

最长公共子字符串专注于找出两个字符串之间的最长公共子字符串,它通过识别两个字符串共享的最长连续字符序列来衡量字符串之间的相似度
子序列不要求在原始序列中占据连续位置。因此,最长公共子序列总是大于最长公共子字符串

14、Ratcliff-Obershelp相似度

>> s1, s2 = "RO PATTERN MATCHING", "RO PRACTICE"
>> td.ratcliff_obershelp(s1, s2), td.ratcliff_obershelp(s2, s1), len(s1), len(s2)
(0.46, 0.53, 19, 11)

三、效果分析

1、中文文本字符串

在对中文文本字符串进行相似度比较时,效果和速度各有不同的算法可供选择。以下是根据效果最好和速度最快分别排序的算法:

1)效果最好排序

  1. Levenshtein:计算编辑距离,考虑到中文字符的插入、删除和替换,效果较好。
  2. Damerau-Levenshtein:比Levenshtein更进一步,考虑到字符的交换,能更准确地反映一些错别字的相似性。
  3. Jaro-Winkler:考虑字符的匹配和位移,对拼音和形近字有较好的识别效果。
  4. Needleman-Wunsch:常用于序列比对,适合处理长文本,但速度较慢。
  5. Smith-Waterman:和Needleman-Wunsch类似,但更精细,适合局部相似性比对。
  6. Cosine similarity:基于向量空间模型,适合处理词语或短句相似度,但需要预处理成向量表示。
  7. Jaccard index:基于集合的相似度计算,适合分词后的文本比较。

2)速度最快排序

  1. Hamming:适合固定长度的字符串比较,速度极快,但只能比较长度相同的字符串。
  2. Jaccard index:基于集合操作,速度较快,尤其是在分词后的文本上。
  3. Cosine similarity:向量化处理后计算余弦相似度,速度较快,但依赖预处理。
  4. Jaro-Winkler:速度相对较快,适合短文本比较。
  5. Levenshtein:虽然是动态规划算法,但优化后速度也较快,适合中短文本比较。
  6. Damerau-Levenshtein:考虑交换操作,稍慢于Levenshtein,但仍然较快。
  7. Smith-Waterman:局部比对,速度较慢,适合较短文本。
  8. Needleman-Wunsch:全局比对,速度慢,适合处理长文本。

3)综合排序

结合效果和速度,以下是综合排序:

  1. Levenshtein:综合效果和速度,适合大多数情况。
  2. Damerau-Levenshtein:效果好于Levenshtein,速度稍慢,但仍然适用。
  3. Jaro-Winkler:适合拼音和形近字,速度较快。
  4. Cosine similarity:需要预处理,但在向量化后速度较快,效果也不错。
  5. Jaccard index:适合分词后的文本比较,速度快。
  6. Needleman-Wunsch:适合长文本,效果好但速度慢。
  7. Smith-Waterman:适合局部相似性比较,效果好但速度最慢。

选择具体算法时,可以根据文本的长度、预处理的复杂度以及对效果的要求来综合考虑。
英文文本也适用

2、其他

1)基于压缩的应用场景

基于压缩的算法主要用于处理和比较大规模或复杂的数据集,因为它们能够有效地压缩和分析数据。这些算法常用于以下场景:

  1. 大数据分析:在需要处理和比较大量文本数据的场景中,如日志文件、网络爬虫数据等。
  2. 数据压缩和传输:在需要高效压缩和传输数据的应用中,这些算法可以用于优化数据存储和传输效率。
  3. 文本和字符串匹配:用于需要在大文本库中查找相似文本或字符串的场景。

2)基于发音的应用场景

基于发音的算法主要用于处理语音和文本的相似性计算,这在以下场景中尤为有用:

  1. 语音识别和处理:在语音识别系统中,用于比较和识别发音相似的词汇。
  2. 拼写纠正:在文本输入系统中,根据发音相似性来纠正拼写错误。
  3. 名称匹配:用于比较和匹配发音相似的人名、地名等,如客户关系管理系统中匹配相似的客户名字。

3)简单算法的应用场景

简单算法通常用于需要快速、直接比较的场景,这些场景不需要复杂的计算或大量数据处理:

  1. 前缀和后缀匹配:用于文件名或路径的匹配和分类,如查找特定前缀或后缀的文件。
  2. 长度比较:用于需要比较字符串长度的场景,如数据验证和清理。
  3. 身份相似度:用于简单的字符串相等性比较,如用户输入的验证码验证。
  4. 矩阵相似度:用于矩阵数据的比较,如图像处理中的像素矩阵比较。

相关文章:

  • 重塑通信边界,基于ZYNQ7000 FPGA驱动的多频段多协议软件无线电平台
  • 腾讯课堂即将停止服务?来试试这款开源的知识付费系统
  • strcpy,srtcmp,strlen函数漏洞利用
  • 鸿蒙OS开发者高级学习第2课:自由流转(含习题答案)
  • Linux学习笔记(一)
  • 若依 Vue 前端分离 3.8.8 版中生成的前端代码中关于下拉框只有下拉箭头的问题
  • 【Mathematica14.0】快速从下载安装到使用
  • 前端git约定式规范化提交-commitizen
  • 贪吃蛇——C语言(VS2022含源代码,及源代码zip文件)
  • 统计学习方法三要素的理解 (以线性回归为例)
  • gitLab使用流程
  • Java--继承
  • 百数教学:如何用分析图表助力报表可视化?
  • 本地文件同步上传到Gitee远程仓库
  • 【C++】认识使用string类
  • -------------------- 第二讲-------- 第一节------在此给出链表的基本操作
  • 《用数据讲故事》作者Cole N. Knaflic:消除一切无效的图表
  • 2017-08-04 前端日报
  • bearychat的java client
  • css属性的继承、初识值、计算值、当前值、应用值
  • Javascript基础之Array数组API
  • JavaScript实现分页效果
  • Java精华积累:初学者都应该搞懂的问题
  • JS学习笔记——闭包
  • Quartz实现数据同步 | 从0开始构建SpringCloud微服务(3)
  • windows下mongoDB的环境配置
  • 从伪并行的 Python 多线程说起
  • 技术攻略】php设计模式(一):简介及创建型模式
  • 解决jsp引用其他项目时出现的 cannot be resolved to a type错误
  • 排序(1):冒泡排序
  • 微信如何实现自动跳转到用其他浏览器打开指定页面下载APP
  • 学习使用ExpressJS 4.0中的新Router
  • 一些关于Rust在2019年的思考
  • 怎么将电脑中的声音录制成WAV格式
  • #中的引用型是什么意识_Java中四种引用有什么区别以及应用场景
  • $(selector).each()和$.each()的区别
  • (32位汇编 五)mov/add/sub/and/or/xor/not
  • (9)STL算法之逆转旋转
  • (Java入门)学生管理系统
  • (STM32笔记)九、RCC时钟树与时钟 第二部分
  • (非本人原创)我们工作到底是为了什么?​——HP大中华区总裁孙振耀退休感言(r4笔记第60天)...
  • (汇总)os模块以及shutil模块对文件的操作
  • (三)Kafka离线安装 - ZooKeeper开机自启
  • (三)uboot源码分析
  • (实战篇)如何缓存数据
  • (四)事件系统
  • (算法)大数的进制转换
  • (续)使用Django搭建一个完整的项目(Centos7+Nginx)
  • (一)Mocha源码阅读: 项目结构及命令行启动
  • (一)硬件制作--从零开始自制linux掌上电脑(F1C200S) <嵌入式项目>
  • (原創) 物件導向與老子思想 (OO)
  • (中等) HDU 4370 0 or 1,建模+Dijkstra。
  • (转)Android学习系列(31)--App自动化之使用Ant编译项目多渠道打包
  • (转)人的集合论——移山之道
  • (最完美)小米手机6X的Usb调试模式在哪里打开的流程