当前位置：首页 > news >正文

匹配分词

news 来源：原创 2024/9/21 15:54:09

规则分词：
   简单高效，但是词典的维护是一个庞大的工程。
正向分词：
 1、统计分词词典，确定词典中最长词条的字符m；
 2、从左向右取待切分语句的m个字符作为匹配字段，查找词典，如果匹配成功，则作为一个切分后的词语，
    否则，去掉待匹配字符的最后一个继续查找词典，重复上述步骤直到切分出所有词语。



dictA = ['南京市', '南京市长', '长江大桥',  '大桥']

maxDictA = max([len(word) for word in dictA])

sentence = "南京市长江大桥"

def cutA(sentence):
    result = []
    sentenceLen = len(sentence)
    n = 0

    while n < sentenceLen:
        matched = 0

        for i in range(maxDictA, 0, -1):


            piece = sentence[n:n+i]

            if piece in dictA:
                result.append(piece)
                matched = 1
                n = n + i
                break
        if not matched:

            result.append(sentence[n])
            n += 1

    print(result)

cutA(sentence)  # ['南京市长', '江', '大桥']

dictB = ['南京市', '南京市长', '长江大桥',  '大桥']

maxDictB = max([len(word) for word in dictA])

sentence = "南京市长江大桥"
def cutB(sentence):
    result = []
    sentenceLen = len(sentence)

    while sentenceLen > 0:
        word = ''
        for i in range(maxDictB, 0, -1):
            piece = sentence[sentenceLen-i:sentenceLen]
            if piece in dictB:
                word = piece
                result.append(word)
                sentenceLen -= i
                break

        if word is '':
            sentenceLen -= 1
            result.append(sentence[sentenceLen])

    print(result[::-1])

cutB(sentence)  # ['南京市', '长江大桥']

# 双向最大匹配法
# 思想： 如果正反向分词结果词数不同，则取分词数量较少的那个
        如果分词结果词数相同：
                 分词结果相同，则说明没有歧义，返回任意一个
                 分词结果不同，返回单字较少的那个

转载于:https://www.cnblogs.com/hapyygril/p/9916351.html

相关文章：

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

NSNotificationCenter传值

[ NOI 2001 ] 食物链

tomcat8 安装部署--一键版本

【SSH网上商城项目实战25】使用java email给用户发送邮件

extjs 之columntree 自定义分页工具条

javascript基础修炼(9)——MVVM中双向数据绑定的基本原理

python lambda的详细介绍

字典变成有序字典

Vbs脚本编程简明教程之六

iptables的snat与dnat

传Windows 7 正式版明年6月发布

软件名称集合

在Hyper-V下安装Centos Linux系统的网卡驱动问题

数据库连接池问题 Max Pool Size

0228_2012深圳试题_网络配置部分

[笔记] php常见简单功能及函数

「前端」从UglifyJSPlugin强制开启css压缩探究webpack插件运行机制

exports和module.exports

Next.js之基础概念（二）

Odoo domain写法及运用

记录一下第一次使用npm

简单数学运算程序（不定期更新）

码农张的Bug人生 - 见面之礼

前端

什么软件可以提取视频中的音频制作成手机铃声

策略：一文教你成为人工智能（AI）领域专家

直播平台建设千万不要忘记流媒体服务器的存在 ...

【收录 Hello 算法】9.4 小结

批处理文件中的errorlevel用法

# Swust 12th acm 邀请赛# [ A ] A+B problem [题解]

#职场发展#其他

${factoryList }后面有空格不影响

（51单片机）第五章-A/D和D/A工作原理-A/D

(delphi11最新学习资料) Object Pascal 学习笔记---第14章泛型第2节（泛型类的类构造函数）

(delphi11最新学习资料) Object Pascal 学习笔记---第2章第五节(日期和时间)

(Qt) 默认QtWidget应用包含什么？

(读书笔记)Javascript高级程序设计---ECMAScript基础

(九)One-Wire总线-DS18B20

（数据结构）顺序表的定义

（最全解法）输入一个整数，输出该数二进制表示中1的个数。

./和../以及/和~之间的区别

.bat批处理（八）：各种形式的变量%0、%i、%%i、var、%var%、!var!的含义和区别

.NET 8.0 中有哪些新的变化？

.NET CLR Hosting 简介

.net core 的缓存方案

.NET开发不可不知、不可不用的辅助类（三）（报表导出---终结版）

.NET学习教程二——.net基础定义+VS常用设置

/etc/shadow字段详解

[ C++ ] STL---仿函数与priority_queue

[ vulhub漏洞复现篇 ] JBOSS AS 5.x/6.x反序列化远程代码执行漏洞CVE-2017-12149

[20171113]修改表结构删除列相关问题4.txt

[Armbian] 部署Docker版Home Assistent，安装HACS并连接米家设备

[BUUCTF NewStarCTF 2023 公开赛道] week4 crypto/pwn

[Cocoa]iOS 开发者账户，联机调试，发布应用事宜

[CP_AUTOSAR]_系统服务_DEM模块（一）功能及模块间依赖关系介绍