当前位置: 首页 > news >正文

大规模中文概念图谱CN-Probase正式发布

历时多年的研发,复旦大学知识工场实验室正式推出大规模中文概念图谱——CN-Probase,用于帮助机器更好的理解人类语言。概念图谱中包含实体(比如“刘德华”)、概念(比如“演员”),实体与概念之间的类属关系(又称isA关系,比如 “刘德华 isA 演员”),概念与概念之间的 subclass of 关系(比如 “电影演员”是“演员”的子类)。通常后面两类关系,又统称为 isA 关系。如果 A isA B,通常称A为B的下位词(hyponym),或者B为A的上位词(hypernym)。

概念的形成是人类认知从具体进入抽象的第一步。人类通过概念认知世界,概念是人类认知世界的基石。概念是人脑对客观事物本质的反映,是思维活动的结果和产物,是思维活动借以开展的基本单元。比如“恐龙”这一概念让我们能够认知形形色色的恐龙,把握其共性本质,而无需纠缠于不同特定恐龙的细微差别。建立概念分类体系,并为数以千万计的实体建立概念图谱,是我们在让机器具备认知能力的征程中所迈出的至关重要的一步。

人类通过分类结构(Taxonomy)来组织和表示概念。最早可以追溯到亚里士多德时代。随后的几千年来,人类一直在不断完善概念的分类体系,并于近些年涌现了很多分类体系,如Cyc,WordNet等,这些概念分类体系大都由专家手工构建,质量精良,但是构建代价高昂,规模有限。

f932aec59015755d4229cac867194d70b613a698

现在知识工场采用自动的方法,基于CN-DBpedia以及海量中文网页语料等多个数据源,构建了大型中文概念知识图谱——CN-Probase。针对中文语言的特性,采用了全新的抽取策略,达到质和量的全面升级。

CN-Probase是由复旦大学知识工场实验室研发并维护的大规模中文概念图谱,是目前规模最大的开放领域中文概念图谱和概念分类体系,isA关系的准确率在95%以上。相比较于其他概念图谱,CN-Probase具有两个显著优点:

一、规模巨大,基本涵盖常见实体和概念。包含约1700万实体、27万概念和3300万isA关系。

二、严格按照实体进行组织,有利于精准理解实体的概念。例如,“刘德华”这个名字,可能对应很多叫“刘德华”的人,在CN-Probase里搜索“刘德华”,会出现按照典型性排序的很多实体,排在第一个的是大家提及名字都会联想到的歌手“刘德华”。

bc8c92630b347ca363223abf12906c1717b50cbc

有了CN-Probase,计算机就能像人类一样具有常识。例如,计算机可以知道鲤鱼和鲨鱼都是鱼,但鲤鱼是一种淡水鱼,而鲨鱼是一种海水鱼。

与此同时,CN-Probase还可以广泛应用于各种场景:

例一:搜索意图理解

用户搜索“西游记”,我们通过它的概念“中国古代四大名著”、“小说”可以理解用户是在搜索小说类名著。对于用户搜索意图的精准理解可以进一步帮助改进检索、排序与推荐。

f5bf5a389ef983746fa0c361233519a1e343fea5

例二:实体相似性判断


当用户需要判断“复旦大学”和“上海交大”是否相似时,仅仅根据字面相似性,很难知道它们是相似实体。但是通过CN-Probase,我们可以看到它们的概念是差不多的(如下图),从而可以判断它们在语义上是相似的。

8ec5d09d3a1dcea22727fbfa63dbc240f129aaae

e9b40392a5c6632ae97371dc9397f0f05f1c9369

f8691c01281e0618377793941276128ae054a764




例三:可解释实体推荐

当用户先后搜索“复旦大学”、“上海交通大学”,“上海理工大学”时,我们人类可以自然地推断用户是在搜索上海高校。如今,机器通过检索CN-Probase,发现这三个实体共享“上海高校”这个概念,从而也可以准确识别用户的搜索意图,进一步推荐“上海外国语大学”,“同济大学”等实体,并给出用户是在搜索上海高校这一解释。

ee6c10552b20ae354ced58f3bf11333511d8f76e

a1f2c3b628867425111fd2d2e00055e5a8cc8cea

目前,知识工场提供两种方式访问CN-Probase:

  1. 页面直接访问。进入http://kw.fudan.edu.cn/cnprobase即可访问CN-Probase页面。
  2. API接口访问。我们提供了全套数据访问API,大家可以访问http://kw.fudan.edu.cn/apis/cnprobase/ 查看具体访问方法。

值此发布之际,特向大规模概念图谱的“前辈们”,包括德国马普研究所的Yago、微软亚洲研究院的Probase、微软的概念图谱以及哈尔滨工业大学的大词林,表示崇高的敬意。


原文发布时间为:2017-11-13

本文作者:知识工场

本文来自云栖社区合作伙伴“PaperWeekly”,了解相关信息可以关注“PaperWeekly”微信公众号

相关文章:

  • Windows XP \Windows 2003启动过程的学习及故障分析处理(五)
  • Ural State University Internal Contest October'2000 Junior Session
  • 使用React、Node.js、MongoDB、Socket.IO开发一个角色投票应用的学习过程(一)
  • pythony读取xml
  • 配置DNS支持邮件服务器域名解析,支持别名,反向查找区
  • Flash正式成为Googel Chrome浏览器内置插件
  • mysql主从切换步骤
  • GIS软件开发工具包TatukGIS Developer Kernel更新至v11.9丨附下载
  • javascript:typeof与instanceof区别
  • JS组件系列——Bootstrap Table 表格行拖拽(二:多行拖拽)
  • HTMl编写计算器
  • 使用PEAP实现802.1X
  • 超实用Mac软件分享(二)
  • JDBC获取新增记录的自增主键
  • HTTP协议中状态码的应用
  • 《Java8实战》-第四章读书笔记(引入流Stream)
  • 【跃迁之路】【641天】程序员高效学习方法论探索系列(实验阶段398-2018.11.14)...
  • 07.Android之多媒体问题
  • CAP理论的例子讲解
  • django开发-定时任务的使用
  • ES学习笔记(10)--ES6中的函数和数组补漏
  • Fastjson的基本使用方法大全
  • Java 实战开发之spring、logback配置及chrome开发神器(六)
  • node.js
  • 基于 Babel 的 npm 包最小化设置
  • 我的业余项目总结
  • 详解NodeJs流之一
  • ionic入门之数据绑定显示-1
  • ​软考-高级-系统架构设计师教程(清华第2版)【第1章-绪论-思维导图】​
  • # 再次尝试 连接失败_无线WiFi无法连接到网络怎么办【解决方法】
  • #【QT 5 调试软件后,发布相关:软件生成exe文件 + 文件打包】
  • #NOIP 2014#day.2 T1 无限网络发射器选址
  • $NOIp2018$劝退记
  • (+3)1.3敏捷宣言与敏捷过程的特点
  • (¥1011)-(一千零一拾一元整)输出
  • (C语言)strcpy与strcpy详解,与模拟实现
  • (C语言)编写程序将一个4×4的数组进行顺时针旋转90度后输出。
  • (编程语言界的丐帮 C#).NET MD5 HASH 哈希 加密 与JAVA 互通
  • (多级缓存)缓存同步
  • (附源码)ssm基于微信小程序的疫苗管理系统 毕业设计 092354
  • (一)硬件制作--从零开始自制linux掌上电脑(F1C200S) <嵌入式项目>
  • (转)Android学习笔记 --- android任务栈和启动模式
  • (转)关于pipe()的详细解析
  • (转载)Linux 多线程条件变量同步
  • ./include/caffe/util/cudnn.hpp: In function ‘const char* cudnnGetErrorString(cudnnStatus_t)’: ./incl
  • .NET Core中Emit的使用
  • .Net Winform开发笔记(一)
  • .Net 垃圾回收机制原理(二)
  • .Net下C#针对Excel开发控件汇总(ClosedXML,EPPlus,NPOI)
  • .net中调用windows performance记录性能信息
  • .Net中间语言BeforeFieldInit
  • [ C++ ] 继承
  • [ CTF ] WriteUp- 2022年第三届“网鼎杯”网络安全大赛(白虎组)
  • [ Linux ] Linux信号概述 信号的产生
  • [23] 4K4D: Real-Time 4D View Synthesis at 4K Resolution