当前位置: 首页 > news >正文

关键字提取算法TF-IDF

在文本分类的学习过程中,在“如何衡量一个关键字在文章中的重要性”的问题上,遇到了困难。在网上找了很多资料,大多数都提到了这个算法,就是今天要讲的TF-IDF。

总起

  TF-IDF,理解起来相当简单,他实际上就是TF*IDF,两个计算值的乘积,用来衡量一个词库中的词对每一篇文档的重要程度。下面我们分开来讲这两个值,TF和IDF。

TF

  TF,是Term Frequency的缩写,就是某个关键字出现的频率,具体来讲,就是词库中的某个词在当前文章中出现的频率。那么我们可以写出它的计算公式:

  

 

  其中:

    TF(i,j):关键词j在文档i中的出现频率。

    n(i,j):关键词j在文档i中出现的次数。

  

  比如,一篇文章一共100个词汇,其中“机器学习”一共出现10次,那么他的TF就是10/100=0.1。

  这么看来好像仅仅是一个TF就能用来评估一个关键词的重要性(出现频率越高就越重要),其实不然,单纯使用TF来评估关键词的重要性忽略了常用词的干扰。常用词就是指那些文章中大量用到的,但是不能反映文章性质的那种词,比如:因为、所以、因此等等的连词,在英文文章里就体现为and、the、of等等的词。这些词往往拥有较高的TF,所以仅仅使用TF来考察一个词的关键性,是不够的。这里我们要引出IDF,来帮助我们解决这个问题。

IDF

  IDF,英文全称:Inverse Document Frequency,即“反文档频率”。先看什么是文档频率,文档频率DF就是一个词在整个文库词典中出现的频率,就拿上一个例子来讲:一个文件集中有100篇文章,共有10篇文章包含“机器学习”这个词,那么它的文档频率就是10/100=0.1,反文档频率IDF就是这个值的倒数,即10。因此得出它的计算公式:

 

其中:

  IDF(i):词语i的反文档频率

  |D|:语料库中的文件总数

  |j:t(i)属于d(j)|出现词语i的文档总数

  +1是为了防止分母变0。

 

  于是这个TF*IDF就能用来评估一个词语的重要性。

  还是用上面这个例子,我们来看看IDF是怎么消去常用词的干扰的。假设100篇文档有10000个词,研究某篇500词文章,“机器学习”出现了20次,“而且”出现了20次,那么他们的TF都是20/500=0.04。再来看IDF,对于语料库的100篇文章,每篇都出现了“而且”,因此它的IDF就是log1=0,他的TF*IDF=0。而“机器学习”出现了10篇,那么它的IDF就是log10=1,他的TF*IDF=0.04>0,显然“机器学习”比“而且”更加重要。

 

总结

  这算法看似简单,实际上在SEO搜索引擎优化啊,文本分类方面用的挺多的,面试时也常常作为信息论知识储备来出题。

转载于:https://www.cnblogs.com/HolyShine/p/6033368.html

相关文章:

  • 微软Madoko常见问题总结
  • 【Python基础学习二】定义变量、判断、循环、函数基本语法
  • HTML5 Canvas 练习及知识点分享之绘制圆及曲线(一)
  • redis安装出错
  • js基础总结 一
  • 总结Selenium自动化测试方法(四)WebDriver常用的操作
  • js 时间与时间戳的转换
  • HTTP——学习笔记(1)
  • ORACLE 体系结构
  • 数字证书调研整理-基本概念
  • delphi 中sql的语法规范
  • sql数据库链接
  • 脱水缩合
  • AIDL小结
  • jQuery简单的Ajax调用示例
  • [PHP内核探索]PHP中的哈希表
  • 4个实用的微服务测试策略
  • input实现文字超出省略号功能
  • PHP的Ev教程三(Periodic watcher)
  • react-native 安卓真机环境搭建
  • 闭包--闭包作用之保存(一)
  • 基于Vue2全家桶的移动端AppDEMO实现
  • 聊聊directory traversal attack
  • 判断客户端类型,Android,iOS,PC
  • 前端_面试
  • 前端技术周刊 2019-02-11 Serverless
  • 双管齐下,VMware的容器新战略
  • 用 vue 组件自定义 v-model, 实现一个 Tab 组件。
  • 用quicker-worker.js轻松跑一个大数据遍历
  • “十年磨一剑”--有赞的HBase平台实践和应用之路 ...
  • Nginx惊现漏洞 百万网站面临“拖库”风险
  • 哈罗单车融资几十亿元,蚂蚁金服与春华资本加持 ...
  • ​configparser --- 配置文件解析器​
  • ​你们这样子,耽误我的工作进度怎么办?
  • ​油烟净化器电源安全,保障健康餐饮生活
  • # 学号 2017-2018-20172309 《程序设计与数据结构》实验三报告
  • #if和#ifdef区别
  • #微信小程序(布局、渲染层基础知识)
  • #我与Java虚拟机的故事#连载12:一本书带我深入Java领域
  • (4)STL算法之比较
  • (ibm)Java 语言的 XPath API
  • (二)springcloud实战之config配置中心
  • (分享)自己整理的一些简单awk实用语句
  • (附源码)计算机毕业设计ssm高校《大学语文》课程作业在线管理系统
  • (汇总)os模块以及shutil模块对文件的操作
  • (三)终结任务
  • (一)appium-desktop定位元素原理
  • (一)Neo4j下载安装以及初次使用
  • (一)VirtualBox安装增强功能
  • (转)3D模板阴影原理
  • (转)iOS字体
  • (转)创业的注意事项
  • (转载)CentOS查看系统信息|CentOS查看命令
  • .chm格式文件如何阅读
  • .Net IE10 _doPostBack 未定义