当前位置: 首页 > news >正文

白话 KMP 算法

KMP 算法是计算机字符串匹配的常规算法。wiki
本篇文章借助简单示例,用通俗易懂的方式描述对 KMP 算法的理解。

匹配值表

对于 KMP 来说,“匹配值表”是很关键的。下面我们从简单示例出发描述匹配值表是如何产生的,以便理解。

现在 我们需要查找的字符串是 “ABABABCA”。

在描述“匹配值表“之前,我们需要简短的介绍下前缀和后缀的概念:

前缀:从 0 位,依次截取 1 到(len - 1)长度字符串的集合
后缀:从 len - 1 位反序,依次截取 1 到(len - 1)长度字符串的集合

字符串前缀集合后缀集合前缀后缀交集
"A"[][][]
"AB"[A][B][]
"ABA"[A,AB][A, BA][A]
"ABAB"[A, AB, ABA][B, AB, BAB][AB]
"ABABA"[A, AB, ABA, ABAB][A, BA, ABA, BABA][A, ABA]
"ABABAB"[A, AB, ABA, ABAB, ABABA][B, AB, BAB, ABAB, BABAB][AB, ABAB]
"ABABABC"[A, AB, ABA, ABAB, ABABA, ABABAB][C, BC, ABC, BABC, ABABC, BABABC][]
"ABABABCA"[A, AB, ABA, ABAB, ABABA, ABABAB, ABABABC][A, CA, BCA, ABCA, BABCA, ABABCA, BABABCA][A]

从上表,如果耐心看,完全可以理解前缀和后缀的概念。

那么“匹配值”又是指什么呢?

“匹配值”是指前缀和后缀集合,最长共有元素的长度,即交集中最长元素的长度

那么不难从上表中得出每一位(index)字符对应“匹配值(value)”:

char: | A | B | A | B | A | B | C | A |
index:| 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
value:| 0 | 0 | 1 | 2 | 3 | 4 | 0 | 1 |
复制代码

匹配值表的使用

我们可以根据匹配值表来加速查找匹配的过程。

下面还是举例说明问题:

在字符串"BACBABABAABCBABABABCA"(text)中查找上文中的字符串"ABABABCA"(pattern), 下文中对两个字符串的代称为括号之内的单词。

从 text 第一位开始匹配,第一次匹配成功是这样:

BACBABABAABCBABABABCA
 |
 ABABABCA
复制代码

那么开始往后匹配,发现 text 的第二位"C"和 pattern 的第二位"B"不匹配, 所以当前部分匹配长度为1(只有一个A),并且根据上文的匹配值表得到,当前的匹配值为 0。

移动位数 = 已匹配字符长度 - 对应位的匹配值

即 移动位数 = 1 - 0,所以我们继续向后移一位进行匹配。

再一次匹配成功的情形:

BACBABABAABCBABABABCA
    |||||
    ABABABCA
复制代码

此时,text 中的"A"与 pattern 中的 "B" 不匹配,如果不按照算法,肯定是继续后移一位进行匹配。 如果根据上述计算公式:

移动位数 = "ABABA".length - pattern[4]的匹配值
即 5 - 3 = 2

所以我们可以一次后移两位:

BACBABABAABCBABABABCA
    xx|||
      ABABABCA
复制代码

又不匹配了,此时应该后移
"ABA".length - pattern[2]的匹配值
即 3 - 1 = 2

继续后移两位:

BACBABABAABCBABABABCA
      xx|
        ABABABCA
复制代码

继续后移
"A".length - pattern[0]的匹配值
即 1 - 0 = 1

后移一位:

BACBABABAABCBABABABCA
        x||
         ABABABCA
复制代码

继续后移
"AB".length - pattern[1]的匹配值
即 2 - 0 = 2

后移两位:

BACBABABAABCBABABABCA
         xx|
           ABABABCA
复制代码

第一位都不匹配,我们继续往后移动直到匹配成功

BACBABABAABCBABABABCA
             ||||||||
             ABABABCA
复制代码

移动几次之后(step=1),找到了最终匹配结果。

参考: jakeboxer.com/blog/2009/1…

相关文章:

  • python web开发之flask框架学习(2) 加载模版
  • 异步任务 -- FutureTask
  • (二)学习JVM —— 垃圾回收机制
  • 搭建私有CA和证书认证
  • Linux rpm 命令参数使用详解
  • 智能合约开发环境搭建及Hello World合约
  • zookeeper安装部署
  • java B2B2C Springcloud多租户电子商城系统- 分布式事务
  • Shell 脚本 100 例《四》
  • Powershell 批量重命名
  • 浙江台州警方侦破特大制售假酒案 涉案金额超4000万元
  • 《SQL必知必会》读书笔记
  • Unity C#编程优化——枚举
  • 正则表达式知识点汇总
  • 山西政协委员建言探索农业托管模式 解决“谁来种地”问题
  • [PHP内核探索]PHP中的哈希表
  • @jsonView过滤属性
  • Docker 笔记(1):介绍、镜像、容器及其基本操作
  • Docker入门(二) - Dockerfile
  • Koa2 之文件上传下载
  • MySQL-事务管理(基础)
  • NSTimer学习笔记
  • react-native 安卓真机环境搭建
  • tweak 支持第三方库
  • vue2.0一起在懵逼的海洋里越陷越深(四)
  • 案例分享〡三拾众筹持续交付开发流程支撑创新业务
  • 给自己的博客网站加上酷炫的初音未来音乐游戏?
  • 学习使用ExpressJS 4.0中的新Router
  • media数据库操作,可以进行增删改查,实现回收站,隐私照片功能 SharedPreferences存储地址:
  • 国内开源镜像站点
  • 我们雇佣了一只大猴子...
  • ​人工智能书单(数学基础篇)
  • # Swust 12th acm 邀请赛# [ A ] A+B problem [题解]
  • #Linux(帮助手册)
  • #QT项目实战(天气预报)
  • #Spring-boot高级
  • #经典论文 异质山坡的物理模型 2 有效导水率
  • #我与Java虚拟机的故事#连载03:面试过的百度,滴滴,快手都问了这些问题
  • (11)MSP430F5529 定时器B
  • (bean配置类的注解开发)学习Spring的第十三天
  • (Matalb时序预测)WOA-BP鲸鱼算法优化BP神经网络的多维时序回归预测
  • (Repost) Getting Genode with TrustZone on the i.MX
  • (独孤九剑)--文件系统
  • (附源码)ssm教师工作量核算统计系统 毕业设计 162307
  • (算法设计与分析)第一章算法概述-习题
  • .NET Core引入性能分析引导优化
  • .net framwork4.6操作MySQL报错Character set ‘utf8mb3‘ is not supported 解决方法
  • .NET 解决重复提交问题
  • .net 重复调用webservice_Java RMI 远程调用详解,优劣势说明
  • .NET/C# 如何获取当前进程的 CPU 和内存占用?如何获取全局 CPU 和内存占用?
  • .NET中使用Protobuffer 实现序列化和反序列化
  • .sh文件怎么运行_创建优化的Go镜像文件以及踩过的坑
  • /dev/sda2 is mounted; will not make a filesystem here!
  • /etc/motd and /etc/issue
  • ??如何把JavaScript脚本中的参数传到java代码段中