当前位置: 首页 > news >正文

文本数据特征选取的四种方法

     目前大多数中文文本分类系统都采用词作为特征项,作为特征项的词称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算 。

基于频率的过滤方法

    基于频率的过滤方法中,一条留言中一个词语出现一次以上都是按照一次计算。本文采用了长匹配优先的方式对其进行匹配。如果一个词语包含另一个词语,则被包含的词语的次数不能加一,例如第一条留言中出现“清楚”,包含“清”,第二条留言中包含“清”,则“清出现的次数只能是一次,而不是两次”,还有一种特殊情况是“松”被分作了两个词性,“松/a”和“松/ng”,对于这种情况我们把所有词语的词性去掉之后再统计这个词语出现的次数。

基于信息增益的过滤方法

基于信息增益的过滤方法中,根据IG计算公式计算需要留下的IG值,

c表示类别,属于此类或者不属于;τ表示此特征出现与否,布尔型。若特征与类别无关,则IG=0。

1.1.1      基于条件概率比的过滤方法

基于条件概率比的过滤方法,根据下面公式计算,

                                          

 

在这里越小越好,即其值越小越有意义,说明word在不同类别中出现的概率差异大。若

,说明word的出现与类别判断无关,可去掉;若

 

,说明word的出现与类别高度有关,此类词语需保留。

1.1.2      基于期望值差异的过滤方法

基于期望值差异的过滤方法,根据以下计算方法计算,一个词项word在类中出现的期望值=word在所有数据表中出现的总次数,令=word在类中出现的实际次数,则

,                                           

 

对于E值,E越大越有意义。

 

转载于:https://www.cnblogs.com/nurbs/p/6568951.html

相关文章:

  • C#多线程编程之:lock使用注意事项
  • kmp模式串匹配
  • java 面向对象 — 多态
  • Java容器-引用分类与部分Map用法
  • 在Kotlin编写RecyclerView适配器(KAD 16)
  • web-app 与本地app的区别
  • JS 面向对象例题
  • Idea中的插件-列出Java Bean的所有set方法
  • JavaScript的数据类型与变量
  • Android 权限的实现
  • 看《神探夏洛克》经典台词
  • 挂载硬盘,并分区格式化
  • JavaScript中的对象
  • 用vs2015 编译 web app ionic
  • HTTP访问控制(CORS)
  • .pyc 想到的一些问题
  • Android 初级面试者拾遗(前台界面篇)之 Activity 和 Fragment
  • Angular4 模板式表单用法以及验证
  • Docker下部署自己的LNMP工作环境
  • flutter的key在widget list的作用以及必要性
  • JavaScript的使用你知道几种?(上)
  • JAVA之继承和多态
  • macOS 中 shell 创建文件夹及文件并 VS Code 打开
  • MySQL Access denied for user 'root'@'localhost' 解决方法
  • uni-app项目数字滚动
  • vue 个人积累(使用工具,组件)
  • 阿里云Kubernetes容器服务上体验Knative
  • 诡异!React stopPropagation失灵
  • 记一次删除Git记录中的大文件的过程
  • 开源中国专访:Chameleon原理首发,其它跨多端统一框架都是假的?
  • 排序算法学习笔记
  • 时间复杂度与空间复杂度分析
  • 一个普通的 5 年iOS开发者的自我总结,以及5年开发经历和感想!
  • JavaScript 新语法详解:Class 的私有属性与私有方法 ...
  • Linux权限管理(week1_day5)--技术流ken
  • ​总结MySQL 的一些知识点:MySQL 选择数据库​
  • # C++之functional库用法整理
  • #laravel 通过手动安装依赖PHPExcel#
  • #NOIP 2014#Day.2 T3 解方程
  • (超简单)使用vuepress搭建自己的博客并部署到github pages上
  • (分类)KNN算法- 参数调优
  • (力扣记录)1448. 统计二叉树中好节点的数目
  • (十二)devops持续集成开发——jenkins的全局工具配置之sonar qube环境安装及配置
  • (四) Graphivz 颜色选择
  • (转)Google的Objective-C编码规范
  • (转)程序员疫苗:代码注入
  • (转)详解PHP处理密码的几种方式
  • ***测试-HTTP方法
  • ./include/caffe/util/cudnn.hpp: In function ‘const char* cudnnGetErrorString(cudnnStatus_t)’: ./incl
  • .L0CK3D来袭:如何保护您的数据免受致命攻击
  • .net 简单实现MD5
  • .NET8.0 AOT 经验分享 FreeSql/FreeRedis/FreeScheduler 均已通过测试
  • .NetCore Flurl.Http 升级到4.0后 https 无法建立SSL连接
  • .net和jar包windows服务部署
  • @EnableWebMvc介绍和使用详细demo