当前位置: 首页 > news >正文

匹配分词

规则分词:
简单高效,但是词典的维护是一个庞大的工程。
正向分词:
1、统计分词词典,确定词典中最长词条的字符m;
2、从左向右取待切分语句的m个字符作为匹配字段,查找词典,如果匹配成功,则作为一个切分后的词语,
否则,去掉待匹配字符的最后一个继续查找词典,重复上述步骤直到切分出所有词语。



dictA = ['南京市', '南京市长', '长江大桥', '大桥']

maxDictA = max([len(word) for word in dictA])

sentence = "南京市长江大桥"

def cutA(sentence):
result = []
sentenceLen = len(sentence)
n = 0

while n < sentenceLen:
matched = 0

for i in range(maxDictA, 0, -1):


piece = sentence[n:n+i]

if piece in dictA:
result.append(piece)
matched = 1
n = n + i
break
if not matched:

result.append(sentence[n])
n += 1

print(result)

cutA(sentence) # ['南京市长', '江', '大桥']

dictB = ['南京市', '南京市长', '长江大桥', '大桥']

maxDictB = max([len(word) for word in dictA])

sentence = "南京市长江大桥"
def cutB(sentence):
result = []
sentenceLen = len(sentence)

while sentenceLen > 0:
word = ''
for i in range(maxDictB, 0, -1):
piece = sentence[sentenceLen-i:sentenceLen]
if piece in dictB:
word = piece
result.append(word)
sentenceLen -= i
break

if word is '':
sentenceLen -= 1
result.append(sentence[sentenceLen])

print(result[::-1])

cutB(sentence) # ['南京市', '长江大桥']

# 双向最大匹配法
# 思想: 如果正反向分词结果词数不同,则取分词数量较少的那个
如果分词结果词数相同:
分词结果相同,则说明没有歧义,返回任意一个
分词结果不同,返回单字较少的那个














转载于:https://www.cnblogs.com/hapyygril/p/9916351.html

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • NSNotificationCenter传值
  • [ NOI 2001 ] 食物链
  • tomcat8 安装部署--一键版本
  • 【SSH网上商城项目实战25】使用java email给用户发送邮件
  • extjs 之columntree 自定义分页工具条
  • javascript基础修炼(9)——MVVM中双向数据绑定的基本原理
  • python lambda的详细介绍
  • 字典变成有序字典
  • Vbs脚本编程简明教程之六
  • iptables的snat与dnat
  • 传Windows 7 正式版明年6月发布
  • 软件名称集合
  • 在Hyper-V下安装Centos Linux系统的网卡驱动问题
  • 数据库连接池问题 Max Pool Size
  • 0228_2012深圳试题_网络配置部分
  • [笔记] php常见简单功能及函数
  • 「前端」从UglifyJSPlugin强制开启css压缩探究webpack插件运行机制
  • exports和module.exports
  • Next.js之基础概念(二)
  • Odoo domain写法及运用
  • 记录一下第一次使用npm
  • 简单数学运算程序(不定期更新)
  • 码农张的Bug人生 - 见面之礼
  • 前端
  • 什么软件可以提取视频中的音频制作成手机铃声
  • 策略 : 一文教你成为人工智能(AI)领域专家
  • 直播平台建设千万不要忘记流媒体服务器的存在 ...
  • ​​​【收录 Hello 算法】9.4 小结
  • ​批处理文件中的errorlevel用法
  • # Swust 12th acm 邀请赛# [ A ] A+B problem [题解]
  • #职场发展#其他
  • ${factoryList }后面有空格不影响
  • (51单片机)第五章-A/D和D/A工作原理-A/D
  • (delphi11最新学习资料) Object Pascal 学习笔记---第14章泛型第2节(泛型类的类构造函数)
  • (delphi11最新学习资料) Object Pascal 学习笔记---第2章第五节(日期和时间)
  • (Qt) 默认QtWidget应用包含什么?
  • (读书笔记)Javascript高级程序设计---ECMAScript基础
  • (九)One-Wire总线-DS18B20
  • (数据结构)顺序表的定义
  • (最全解法)输入一个整数,输出该数二进制表示中1的个数。
  • ./和../以及/和~之间的区别
  • .bat批处理(八):各种形式的变量%0、%i、%%i、var、%var%、!var!的含义和区别
  • .NET 8.0 中有哪些新的变化?
  • .NET CLR Hosting 简介
  • .net core 的缓存方案
  • .NET开发不可不知、不可不用的辅助类(三)(报表导出---终结版)
  • .NET学习教程二——.net基础定义+VS常用设置
  • /etc/shadow字段详解
  • [ C++ ] STL---仿函数与priority_queue
  • [ vulhub漏洞复现篇 ] JBOSS AS 5.x/6.x反序列化远程代码执行漏洞CVE-2017-12149
  • [20171113]修改表结构删除列相关问题4.txt
  • [Armbian] 部署Docker版Home Assistent,安装HACS并连接米家设备
  • [BUUCTF NewStarCTF 2023 公开赛道] week4 crypto/pwn
  • [Cocoa]iOS 开发者账户,联机调试,发布应用事宜
  • [CP_AUTOSAR]_系统服务_DEM模块(一)功能及模块间依赖关系介绍