当前位置: 首页 > news >正文

coursera 公开课 文本挖掘和分析(text mining and analytics) week 1 笔记

一、课程简介:

text mining and analytics 是一门在coursera上的公开课,由美国伊利诺伊大学香槟分校(UIUC)计算机系教授 chengxiang zhai 讲授,公开课链接:https://class.coursera.org/textanalytics-001/wiki/view?page=Programming_Assignments_Overview。

二、课程大纲:

三、课程主要内容

3.1 Text representation

可以从以下几个方面来对文本进行表示:

lexicon analysis 词汇分析

syntactic analysis 句法分析

semantic analysis 语义分析

pragmatic analysis 实用性分析

文本表示有很多种方法:Multiple ways of representing text are possible

 string, words, syntactic structures, entity-relation graphs, predicates…

这门公开课中,主要讨论word 层面的文本表示方法,word relation analysis,topic analysis,sentiment analysis.

3.2 word association mining and analysis

(1)word 之间有两种基本关系:Paradigmatic vs. Syntagmatic

Paradigmatic (词形没有变化)E.g., “cat” and “dog”; “Monday” and “Tuesday”
Syntagmatic:(组合关系) E.g., “cat” and “sit”; “car” and “drive”
这两种关系的研究在很多NLP任务中都有重要的意义,如:位置标注,语法分析(parsing),实体识别,词汇拓展。

(2)对这两种关系的挖掘方法:

Paradigmatic ,文本内容的相似性

Syntagmatic,文本同时出现的概率

(3)分别介绍下两种关系挖掘的方法

Paradigmatic Relation Discovery,相似词的发现
word context 表示:bag of word、vector space model (VSM)

 

 

计算向量之间的相似度:(EOWC)

总结:相似词的计算,步骤如下:

从文档中表示两个词的相关词袋;计算相关词袋向量的相似度;选取相似度最高的词。

在表示词向量的方法中,BM25+IDF是the state of art.

 

 Syntagmatic Relation Discovery: Entropy,组合关系的发现
熵:衡量变量X的随机性

条件熵:

 

升序排列取top-k生成候选集

互信息 mutual information :I(X; Y)= H(X) – H(X|Y) = H(Y)-H(Y|X),倒序取top-k生成候选集

KL-divergence :KL散度( Kullback–Leibler divergence),又称相对熵(relative entropy),是描述两个概率分布P和Q差异的一种方法。在信息论中,D(P||Q)表示当用概率分布Q来拟合真实分布P时,产生的信息损耗,其中P表示真实分布,Q表示P的拟合分布。

 

 

转载于:https://www.cnblogs.com/baiting/p/5240565.html

相关文章:

  • win7下使用Taste实现协同过滤算法
  • 设计模式 ( 十九 ) 模板方法模式Template method(类行为型)
  • 分享一款快速APP功能测试工具
  • R语言编程艺术#04#数据框(data.frame)
  • 动态规划(DP),0-1背包问题
  • 各大公司广泛使用的在线学习算法FTRL详解
  • .Net CF下精确的计时器
  • SSH 正向/反向代理小记
  • 寻求最快解决方案
  • [MAT]使用MAT比較多个heap dump文件
  • nagios 主机状态
  • FZU 1692 Key problem (构造矩阵)
  • 【分享】通过Excel生成批量SQL语句,处理大量数据的好办法
  • SGU 122 The book(构造)
  • 全局dialog,在小米4及部分机型上不能正常弹出
  • [js高手之路]搞清楚面向对象,必须要理解对象在创建过程中的内存表示
  • avalon2.2的VM生成过程
  • echarts的各种常用效果展示
  • E-HPC支持多队列管理和自动伸缩
  • Essential Studio for ASP.NET Web Forms 2017 v2,新增自定义树形网格工具栏
  • extract-text-webpack-plugin用法
  • httpie使用详解
  • idea + plantuml 画流程图
  • miniui datagrid 的客户端分页解决方案 - CS结合
  • Perseus-BERT——业内性能极致优化的BERT训练方案
  • Python爬虫--- 1.3 BS4库的解析器
  • Spring-boot 启动时碰到的错误
  • spring学习第二天
  • 测试如何在敏捷团队中工作?
  • 从0实现一个tiny react(三)生命周期
  • 基于 Babel 的 npm 包最小化设置
  • 计算机常识 - 收藏集 - 掘金
  • 聊聊sentinel的DegradeSlot
  • 前端学习笔记之原型——一张图说明`prototype`和`__proto__`的区别
  • 实习面试笔记
  • 使用parted解决大于2T的磁盘分区
  • 算法之不定期更新(一)(2018-04-12)
  • 学习笔记DL002:AI、机器学习、表示学习、深度学习,第一次大衰退
  • 异步
  • 扩展资源服务器解决oauth2 性能瓶颈
  • ​力扣解法汇总946-验证栈序列
  • ​总结MySQL 的一些知识点:MySQL 选择数据库​
  • #13 yum、编译安装与sed命令的使用
  • #includecmath
  • #ubuntu# #git# repository git config --global --add safe.directory
  • #我与Java虚拟机的故事#连载03:面试过的百度,滴滴,快手都问了这些问题
  • (3)(3.2) MAVLink2数据包签名(安全)
  • (cljs/run-at (JSVM. :browser) 搭建刚好可用的开发环境!)
  • (DenseNet)Densely Connected Convolutional Networks--Gao Huang
  • (Matlab)基于蝙蝠算法实现电力系统经济调度
  • (react踩过的坑)Antd Select(设置了labelInValue)在FormItem中initialValue的问题
  • (附源码)spring boot网络空间安全实验教学示范中心网站 毕业设计 111454
  • (十)DDRC架构组成、效率Efficiency及功能实现
  • (使用vite搭建vue3项目(vite + vue3 + vue router + pinia + element plus))
  • (四)搭建容器云管理平台笔记—安装ETCD(不使用证书)