当前位置: 首页 > news >正文

c 语言计算自信息量,基于知网义原信息量的词语相似度的计算方法

基于知网义原信息量的词语相似度的计算方法

基于知网义原信息量的词语相似度的计算方法

摘要:国内利用知网计算中文词语相似度通常采用基于义原距离的方法,这些方法依赖于公式设计和参数选取。根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算词语所包含的义原信息量,将义原及其角色关系的信息量作为词语相似度计算的基本单位,通过计算两个词语的共有义原及其角色关系的信息量和所有义原及其角色关系的信息量的比值来综合计算词语的相似度。实验结果证明,该方法合理可行。

edd8ea8673927ae9ddf5d642e1d294ee.png

关键词:义原信息量;角色关系;词语相似度;信息处理

中图分类号:TP391

作者简介作者简介:李国佳(1986-),男,山西大同人,硕士,华北水利水电大学软件学院助教,研究方向为自然语言处理;杨喜亮(1981-),男,河南郑州人,硕士,华北水利水电大学现代教育技术中心助教,研究方向为智能信息处理。

0 引言

本文从整体性角度出发,给出一种基于义原信息量计算中文词语相似度的方法。基于知网的分类体系(Taxonomy),将义原及其角色关系整体作为词语相似度计算的基本单位,保留了描述词语概念的各个义原间的关系,并依据信息论中计算两个事物相似度的思想[4],用两个词语共有义原及其角色关系的信息量和所有义原及其角色关系的信息量来综合计算词语的相似度。

1 知网义原信息量

1.1 义原信息量

其中,P(A)表示义原A在某个语料库样本空间中出现的概率。计算语料库样本空间中某个义原出现的概率很困难。知网作为一个以各类概念及关系为描述对象的知识系统,其分类体系本身可以看作是各个义原出现的一个样本空间,那么仅依赖知网分类体系本身而不需其它语料库,作为计算义原出现概率的样本空间也是合理的。本文给出一种根据知网的分类体系来计算义原信息量的方法。

由义原组成的知网分类体系是一棵概念分类树,在每类义原树状层次结构(以下简称为义原树)中,根结点义原是分类类别,是最大的分类,其它义原都是根结点义原的子孙。可以认为,分支结点义原包含越多的.子孙结点,其信息量越小。叶子结点是最小的分类,所有叶子结点的信息量是相同的。

在知网的知识词典中,每个词语由DEF来描述其概念。将DEF分为两部分:主类义原和特性描述部分。

定义1:义原及其角色关系。

在词语概念DEF的特性描述部分中,将义原及动态角色与特征(Event Role and Features)[9]的层次结构的组合称为义原及其角色关系。

定义2:主类义原。

在词语概念DEF中,把描述词语概念最左边的第一个义原称为主类义原,也称为第0层义原及其角色关系。

例如词语“病菌”的一个概念:DEF={bacteria|微生物:domain={medical|医},modifier={able|能:scope={ResultIn|导致:result={disease|疾病}}}}。在“病菌”的DEF中,将“bacteria|微生物”称为主类义原,其它部分是特性描述部分。在特性描述部分中,将“domain={medical|医}”、“modifier={able|能 }”称为DEF的第一层义原及其角色关系,其中包含两个本层义原“medical|医”和“medical|医”;把“scope={ResultIn|导致}”称为第二层义原及其角色关系,包含一个本层义原“ResultIn|导致”,将“result={disease|疾病}”称为第三层的义原及其角色关系,包含一个本层义原“disease|疾病”,依次类推。

其中,I(pj)表示r所包含的第j个义原pj的信息量。

例如在词语“病菌”的DEF中,每层的义原及其角色关系中包含的本层义原信息量均为3.346,根据式(4)可得“病菌”的义原及其角色关系的总信息量为7.946。

1.3 共有义原及其角色关系的信息量

2 实验结果及分析

综合来看,本文方法的结果整体表现更加合理,能够反映出词语间语义的相似性和差异,与人的判断结果比较一致,计算也简单。

3 结语

基于知网义原信息量计算中文词语相似度的方法根据信息论中计算两个事物相似度的思想,利用知网的分类体系来计算义原信息量,并根据知网这一关系系统的特性,从保留义原间关系的角度出发,将义原及其角色关系作为计算概念相似度的基本单位,更能全面反映词语语义的相似性和差异。基于知网通过义原及其角色关系的信息量来综合计算词语的相似度,计算量较少,计算结果合理可行。在词语相似度计算基础上,进一步研究句子间相似度计算方法,则有待下一步研究。

参考文献:

[2] 刘群,李素建.基于《知网》的词汇语义相似度的计算[C]. 台北:第三届汉语词汇语义学研讨会,2002,7(2):5976.

[3] 董振东,董强,郝长伶.《知网》的理论发现[J].中文信息学报,2007,21(4):39.

[6] 夏天.汉语词语语义相似度计算研究[J].计算机工程,2007, 33(6):191194.

[8] 王小林,王义.改进的基于知网的词语相似度算法[J].计算机应用,2011,31(11):7590.

【基于知网义原信息量的词语相似度的计算方法】相关文章:

相关文章:

  • android 动画懒加载,Android - 懒加载
  • android怎样拼接带参数的url,这种url网址如何拼接成android 的Retrofit注解
  • android:style/theme.holo.light,Galaxy Nexus上的Android Theme.Holo.Light在模拟器没有的时候有灰色背景...
  • 华为Android10版怎么截屏,华为Mate10怎么截屏?华为Mate10两种截图方法
  • solar2 android,Solar2(太阳系行星2)
  • 同一个页面显示多个html界面,浏览器怎么设置在同一个界面/窗口打开多个网页...
  • html中判断电话是否正确,jsjquery验证邮箱和手机号是否正确范例
  • 2021年高考成绩还能查询吗,【去年高考成绩还能查吗】_怎么查询以前的高考成绩往年高考成绩能查吗...
  • 电脑播放html5绿屏,我的电脑在看暴风影音时总是绿屏 是为什么啊?有什么解决良策啊?...
  • 使用计算机 发展了人的运算能力,计算机的发展
  • 皖西学院计算机网络期末试卷,皖西学院2013–2014学年度第1学期期末考试试卷(B卷)...
  • jq+设置html+值,jQuery 设置
  • 公共基础知识计算机考题,2017年全国计算机考试二级公共基础知识试题及答案...
  • 计算机专业未来美句,关于新的开始的句子
  • cortex a53 微型计算机,2019年值得期待的5个树莓派替代品
  • chrome扩展demo1-小时钟
  • cookie和session
  • JavaScript类型识别
  • js递归,无限分级树形折叠菜单
  • Object.assign方法不能实现深复制
  • PermissionScope Swift4 兼容问题
  • Python代码面试必读 - Data Structures and Algorithms in Python
  • SpringBoot 实战 (三) | 配置文件详解
  • sublime配置文件
  • V4L2视频输入框架概述
  • 服务器从安装到部署全过程(二)
  • 关于for循环的简单归纳
  • 前端路由实现-history
  • 使用 Node.js 的 nodemailer 模块发送邮件(支持 QQ、163 等、支持附件)
  • 原生 js 实现移动端 Touch 滑动反弹
  • [Shell 脚本] 备份网站文件至OSS服务(纯shell脚本无sdk) ...
  • 国内唯一,阿里云入选全球区块链云服务报告,领先AWS、Google ...
  • ​如何防止网络攻击?
  • #define MODIFY_REG(REG, CLEARMASK, SETMASK)
  • (30)数组元素和与数字和的绝对差
  • (附源码)spring boot球鞋文化交流论坛 毕业设计 141436
  • (解决办法)ASP.NET导出Excel,打开时提示“您尝试打开文件'XXX.xls'的格式与文件扩展名指定文件不一致
  • (介绍与使用)物联网NodeMCUESP8266(ESP-12F)连接新版onenet mqtt协议实现上传数据(温湿度)和下发指令(控制LED灯)
  • (算法二)滑动窗口
  • (一)eclipse Dynamic web project 工程目录以及文件路径问题
  • (原創) 如何解决make kernel时『clock skew detected』的warning? (OS) (Linux)
  • (转)socket Aio demo
  • (最优化理论与方法)第二章最优化所需基础知识-第三节:重要凸集举例
  • .aanva
  • .axf 转化 .bin文件 的方法
  • .NET 4.0中使用内存映射文件实现进程通讯
  • .NET 6 在已知拓扑路径的情况下使用 Dijkstra,A*算法搜索最短路径
  • .NET Core 通过 Ef Core 操作 Mysql
  • .net core控制台应用程序初识
  • .NET delegate 委托 、 Event 事件,接口回调
  • .net 使用ajax控件后如何调用前端脚本
  • .NET框架
  • @cacheable 是否缓存成功_Spring Cache缓存注解
  • @column注解_MyBatis注解开发 -MyBatis(15)
  • @RunWith注解作用