当前位置: 首页 > news >正文

[nlp] tokenizer

参考:NLP中的Tokenization - 知乎

1、Tokenization的难点

        Tokenization其实是为数值化作准备,数值化的过程必然需要映射,而映射又需要一个目标集合或者说映射表。

2、三类Tokenization方法      

        本节我们来讨论词粒度的相关方法。词粒度的切分就跟人类平时理解文本原理一样,可以用一些工具来完成,例如英文的NLTK、SpaCy,中文的jieba、HanLP等。

       词粒度Tokenization跟我们人类阅读时自然而然地切分是一致的。

       这种方法的优点是,能够很好地保留 词的语义和边界信息

       对于英文等拉丁语系的词粒度Tokenization很简单,我们可以直接按照空格便能水到渠成地切出来,但是针对中日韩这类文字是无法通过空格进行切分的,这时针对这类语言的文字我们便需要用到一些分词方法。这些方法中一类是使用模型学习如何分词的

相关文章:

  • 什么是 Jest ? Vue2 如何使用 Jest 进行单元测试?Vue2 使用 Jest 开发单元测试实例
  • Vue3中的Suspense组件有什么用?
  • Vivado版本控制
  • Android Studio 添加so无法打包进apk问题
  • Go语言实现大模型分词器tokenizer
  • UniApp项目中 使用微信小程序原生语言 进行开发
  • flutter开发实战-实现获取视频的缩略图封面video_thumbnail
  • 主机安全-WindowsLinux的SSH安全加固
  • 解锁 ElasticJob 云原生实践的难题
  • 有权图的最短路径算法
  • 快速筛出EXCEL行中的重复项
  • Android flutter项目 启动优化实战(一)使用benchmark分析项目
  • SQL Server 2016(分离和附加数据库)
  • P1 什么是链表 C语言简单易懂
  • MOS管的静电击穿问题
  • gf框架之分页模块(五) - 自定义分页
  • gitlab-ci配置详解(一)
  • Go 语言编译器的 //go: 详解
  • JavaScript创建对象的四种方式
  • JS数组方法汇总
  • markdown编辑器简评
  • opencv python Meanshift 和 Camshift
  • React 快速上手 - 07 前端路由 react-router
  • zookeeper系列(七)实战分布式命名服务
  • 前端自动化解决方案
  • 前嗅ForeSpider采集配置界面介绍
  • 扫描识别控件Dynamic Web TWAIN v12.2发布,改进SSL证书
  • 双管齐下,VMware的容器新战略
  • 微信公众号开发小记——5.python微信红包
  • 在Mac OS X上安装 Ruby运行环境
  • 职业生涯 一个六年开发经验的女程序员的心声。
  • nb
  • 阿里云服务器如何修改远程端口?
  • 机器人开始自主学习,是人类福祉,还是定时炸弹? ...
  • 教程:使用iPhone相机和openCV来完成3D重建(第一部分) ...
  • #include
  • #Spring-boot高级
  • #我与Java虚拟机的故事#连载16:打开Java世界大门的钥匙
  • (01)ORB-SLAM2源码无死角解析-(66) BA优化(g2o)→闭环线程:Optimizer::GlobalBundleAdjustemnt→全局优化
  • (1)(1.9) MSP (version 4.2)
  • (2)(2.10) LTM telemetry
  • (9)目标检测_SSD的原理
  • (vue)el-checkbox 实现展示区分 label 和 value(展示值与选中获取值需不同)
  • (动手学习深度学习)第13章 计算机视觉---图像增广与微调
  • (分享)自己整理的一些简单awk实用语句
  • (四)c52学习之旅-流水LED灯
  • (学习日记)2024.01.19
  • .NET 4.0网络开发入门之旅-- 我在“网” 中央(下)
  • .net core webapi Startup 注入ConfigurePrimaryHttpMessageHandler
  • .net mvc部分视图
  • /dev/VolGroup00/LogVol00:unexpected inconsistency;run fsck manually
  • @Autowired多个相同类型bean装配问题
  • @ComponentScan比较
  • @media screen 针对不同移动设备
  • [04]Web前端进阶—JS伪数组