当前位置: 首页 > news >正文

自然语言处理系列三十二》 语义相似度》语义相似度概念及入门

注:此文章内容均节选自充电了么创始人,CEO兼CTO陈敬雷老师的新书《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】

文章目录

  • 自然语言处理系列三十二
    • 语义相似度概念及入门
      • 同义词词林
  • 总结

自然语言处理系列三十二

语义相似度概念及入门

语义相似度(semantic similarity) 是指文本或词语之间在涵义或语义内容上相像的程度。在很多NLP任务中,都涉及到语义相似度的计算,例如:在搜索场景下(对话系统、问答系统、推理等),query和Doc的语义相似度;feeds场景下Doc和Doc的语义相似度;在各种分类任务,翻译场景下,都会涉及到语义相似度语义相似度的计算。
基于语义理解的文本相似度计算方法与基于统计学的计算方法不同,此方法不需要大规模的语料库,也不需要长时间和大量的训练,一般需要一个具有层次结构关系的语义词典,依据概念之间的上下位关系或同义关系进行计算。文本的相似性计算大多是依赖于组成此文本的词语,基于语义理解的相似度计算方法也不例外,一般都是通过计算语义结构树中两词语之间的距离来计算词语的相似度。因此,一般会用到一些具有层次结构关系的语义词典,如WordNet、HowNet、同义词词林等。基于语义词典的文本相似度计算方法很多,有的通过计算词语在 WordNet 中由上下位关系所构成的最短路径来计算词语的相似度;也有的根据两词语在词典中的公共祖先结点所具有的最大信息量来计算词语的相关度;国内也有通过知网或同义词词林来计算词语的语义相似度的方法。

同义词词林

同义词词林主要用来衡量词和词之间的语义相似度,是人工整理的一个词典。下一篇文章给大家介绍基于同义词词林的语义相似度计算方式。

总结

此文章有对应的配套新书教材和视频:

【配套新书教材】
《自然语言处理原理与实战》(人工智能科学与技术丛书)【陈敬雷编著】【清华大学出版社】
新书特色:本书从自然语言处理基础开始,逐步深入各种NLP热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。
全书共分为19章,详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算、词频-逆文档频率(TF-IDF)、条件随机场、新词发现与短语提取、搜索引擎Solr Cloud和Elasticsearch、Word2vec词向量模型、文本分类、文本聚类、关键词提取和文本摘要、自然语言模型(Language Model)、分布式深度学习实战等内容,同时配套完整实战项目,例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。
本书理论联系实践,深入浅出,知识点全面,通过阅读本书,读者不仅可以理解自然语言处理的知识,还能通过实战项目案例更好地将理论融入实际工作中。

【配套视频】
自然语言处理NLP原理与实战 视频教程【陈敬雷】
视频特色:《自然语言处理NLP原理与实战》包含了互联网公司前沿的热门算法的核心原理,以及源码级别的应用操作实战,直接讲解自然语言处理的核心精髓部分,自然语言处理从业者或者转行自然语言处理者必听视频!

上一篇:自然语言处理系列三十一》文本相似度算法》余弦相似度》Python代码实现
下一篇:自然语言处理系列三十三》 语义相似度》同义词词林》算法原理

相关文章:

  • Python爬虫-实现自动获取随机请求头User-Agent
  • ArcGIS高/低聚类(Getis-Ord General G)——探究人口空间格局的20年变迁
  • WPS关闭后,进程依然在后台运行的解决办法
  • AI绘画SD三分钟入门教程!秋叶大佬8月最新的Stable Diffusion整合包V4.9来了,完整安装部署教程奉上,附各种模型插件一次性用爽!
  • 云 VS 边缘计算,关系与区别是什么?
  • SIP协议之匿名呼叫
  • 【数据结构篇】~栈和队列(附源码)
  • 终端防火墙软件功能 | 在终端设备上启用防火墙!终端安全小课堂开讲啦
  • ubuntu安装minio
  • 【达梦数据库】审计功能开启审计记录查看定时删除
  • Elementui-Plus动态渲染图标icon
  • C# LinkedList
  • 全光谱日光模拟HUD阳光倒灌实验温升测试
  • vue 组件通信的解决方案
  • react面试题四
  • 【EOS】Cleos基础
  • 30天自制操作系统-2
  • Brief introduction of how to 'Call, Apply and Bind'
  • CSS实用技巧干货
  • Git学习与使用心得(1)—— 初始化
  • TCP拥塞控制
  • Three.js 再探 - 写一个跳一跳极简版游戏
  • uva 10370 Above Average
  • V4L2视频输入框架概述
  • -- 查询加强-- 使用如何where子句进行筛选,% _ like的使用
  • 初识MongoDB分片
  • 从0实现一个tiny react(三)生命周期
  • 二维平面内的碰撞检测【一】
  • 开发基于以太坊智能合约的DApp
  • 少走弯路,给Java 1~5 年程序员的建议
  • 数据可视化之 Sankey 桑基图的实现
  • 我从编程教室毕业
  • 一些基于React、Vue、Node.js、MongoDB技术栈的实践项目
  • 译米田引理
  • 智能合约开发环境搭建及Hello World合约
  • 中国人寿如何基于容器搭建金融PaaS云平台
  • 走向全栈之MongoDB的使用
  • 长三角G60科创走廊智能驾驶产业联盟揭牌成立,近80家企业助力智能驾驶行业发展 ...
  • ​学习笔记——动态路由——IS-IS中间系统到中间系统(报文/TLV)​
  • # centos7下FFmpeg环境部署记录
  • # Redis 入门到精通(九)-- 主从复制(1)
  • ######## golang各章节终篇索引 ########
  • ( 用例图)定义了系统的功能需求,它是从系统的外部看系统功能,并不描述系统内部对功能的具体实现
  • (k8s中)docker netty OOM问题记录
  • (MTK)java文件添加简单接口并配置相应的SELinux avc 权限笔记2
  • (八十八)VFL语言初步 - 实现布局
  • (二)学习JVM —— 垃圾回收机制
  • (学习总结16)C++模版2
  • (一)python发送HTTP 请求的两种方式(get和post )
  • (原创) cocos2dx使用Curl连接网络(客户端)
  • (转)iOS字体
  • .apk 成为历史!
  • .NET 简介:跨平台、开源、高性能的开发平台
  • .NET 解决重复提交问题
  • .NET/C# 反射的的性能数据,以及高性能开发建议(反射获取 Attribute 和反射调用方法)