当前位置: 首页 > news >正文

语料库与python应用_语料库与Python应用/语料库翻译学文库

第1章 绪论

1.1 语料库与Python

1.1.1 语料库的若干维度

1.1.2 语料库的技术实现

1.2 本书概要

上篇 语料文本的基础性代码

第2章 语料文本的读取及其运行结果的输出

2.1 概述

2.2 语料文本的读取

2.2.1 读取NLTK固有语料库

2.2.2 读取自制语料库

2.2.3 读取非独立存储的语料文本

2.2.4 读取docx格式的语料文本

2.2.5 读取xlsx格式的语料文本

2.3 语料文本运行结果的输出

2.3.1 操作界面直接输出结果

2.3.2 输出txt文件格式

2.3.3 输出xlsX文件格式

2.4 中文语料文本的读取和结果输出

2.4.1 自制语料库

2.4.2 非独立存储的语料文本

第3章 语料库应用的基础性代码

3.1 概述

3.2 停用词的使用

3.2.1 不同语种的停用词

3.2.2 自有停用词的设置

3.3 文本降噪代码

3.3.1 具体代码的功用

3.3.2 组合使用代码的功用

3.3.3 降噪与文本计数

3.4 语料文本的语言学处理代码

3.4.1 字母大小写转换

3.4.2 词形还原

3.4.3 文本分句或分词

3.4.4 词性标注

3.5 语料库词频排序

3.5.1 简单词频排序

3.5.2 降噪处理后词频排序

3.5.3 清除停用词后排序

3.6 语料库检索与统计

3.6.1 上下文关键词检索

3.6.2 类符形符比

3.6.3 N连词提取

3.6.4 指定词检索与统计

3.7 中文语料文本的处理方法

3.7.1 上下文关键词检索

3.7.2 中文停用词

第4章 数据可视化

4.1 概述

4.2 表格绘制

4.3 图形绘制

4.3.1 词频图形绘制

4.3.2 柱状图和点状图绘制

4.4 词云图绘制

4.4.1 英文文本词云图

4.4.2 中文文本词云图

第5章 代码运行错误分析

5.1 概述

5.2 错误分析案例

5.2.1 输入输出错误(10Error)

5.2.2 对象属性错误(AttributeError)

5.2.3 数据类型错误(TypeErrQr)

5.2.4 变量名称错误(NameError)

5.2.5 索引错误(IndexError)

5.2.6 缩进错误(IndentationError)

5.2.7 参数类型错误(ValueError)

5.2.8 语法错误(SyntaxError)

5.2.9 Unicode解码错误(UnicodeDecodeError)

5.2.10 关键字错误(KeyError)

中篇 基础性代码的组合使用

第6章 算法、代码与编程

6.1 篇章结构l

6.2 算法和代码

6.2.1 算法

6.2.2 代码

6.3 选择不同代码的影响

6.3.1 分词处理方式对后续文本分析的影响

6.3.2 不同的降噪效果

6.3.3 链表、字符串、元组和字典对比

6.3.4 停用词的功用

6.4 Python与既有语料库工具的关系

第7章 基础性代码的语料库组合应用

7.1 以Excel文件格式输出术语(类符)

7.1.1 简单输出术语

7.1.2 按词频输出术语

7.2 以Excel文件格式输出表格

7.3 语篇词汇密度的计算

7.4 语篇词汇复杂性的计算

7.5 语篇词长分布的计算

7.6 NL,TK固有语料库

7.6.1 总统就职演说语料库

7.6.2 华尔街杂志语料库

7.6.3 其他相关语料库介绍

下篇 Python探索路径

第8章 Python的语料库拓展应用

8.1 概述

8.2 单语语料导入Excel工作簿

8.3 KWIC检索功能的拓展

8.4 语篇词形还原

8.5 术语提取效果的改进

8.6 语篇段落对齐

8.7 应用语言学文献计量研究的数据提取

8.8 专业通用词的提取路径探索

附录1 与本书相关的加载模块与函数命令对应表

附录2 Python2和Python3部分代码对比

附录3 部分NLTK固有语料库

附录4 汉英对照术语表

索引

^ 收 起

相关文章:

  • 多个id如何用js_将多个MSA连超级高铁网络,如何用最少的轨道连接所有MSA?
  • python上传excel文件_利用django如何解析用户上传的excel文件
  • js悬浮二级菜单代码_纯CSS实现简单二级导航下拉效果
  • microbit python扩展_【micro:bit扩展】如何用慧编程扩展设计器为 micro:bit 编写扩展...
  • boost原理与sklearn源码_从sklearn源码简析GBDT
  • 信息隐藏将txt文件合并到jpg文件中_GIS工作中让你事半功倍,在数据处理中常用的小技巧...
  • android欢迎界面引导页_uni-app: 引导页功能如何实现?
  • 六位小数的字符串怎么转化成double类型而不损失精度?_C# 一次数据类型强转失败的翻车原因分析...
  • 互动整合营销_企业做整合营销,有什么实际的意义
  • vue+bootstrap响应式布局_实现 Vue 的响应式系统
  • python扫雷代码源码_利兹联足球俱乐部 2018
  • java写入txt文件_Java面试题如何将字符串写入文件?
  • python支持面向过程_python之面向过程,函数式编程,面向对象浅析
  • 小组取什么名字好_寓意好的公司名字大全 公司名字取什么好
  • c语言计算日出日落时间_高中地理——每日讲1题(日出日落时间、昼夜长短、气压带风带)...
  • Android开发 - 掌握ConstraintLayout(四)创建基本约束
  • java 多线程基础, 我觉得还是有必要看看的
  • JavaScript设计模式之工厂模式
  • Java应用性能调优
  • JS字符串转数字方法总结
  • Redis的resp协议
  • vue-loader 源码解析系列之 selector
  • 机器学习学习笔记一
  • 聊聊spring cloud的LoadBalancerAutoConfiguration
  • 扑朔迷离的属性和特性【彻底弄清】
  • 让你的分享飞起来——极光推出社会化分享组件
  • 一起来学SpringBoot | 第十篇:使用Spring Cache集成Redis
  • 2017年360最后一道编程题
  • 没有任何编程基础可以直接学习python语言吗?学会后能够做什么? ...
  • ​​​​​​​Installing ROS on the Raspberry Pi
  • ​Base64转换成图片,android studio build乱码,找不到okio.ByteString接腾讯人脸识别
  • #Linux(make工具和makefile文件以及makefile语法)
  • #每天一道面试题# 什么是MySQL的回表查询
  • $.proxy和$.extend
  • $refs 、$nextTic、动态组件、name的使用
  • (13):Silverlight 2 数据与通信之WebRequest
  • (Java数据结构)ArrayList
  • (js)循环条件满足时终止循环
  • (图)IntelliTrace Tools 跟踪云端程序
  • (未解决)jmeter报错之“请在微信客户端打开链接”
  • (一)使用IDEA创建Maven项目和Maven使用入门(配图详解)
  • ./indexer: error while loading shared libraries: libmysqlclient.so.18: cannot open shared object fil
  • ./和../以及/和~之间的区别
  • .net core webapi 大文件上传到wwwroot文件夹
  • .NET Framework Client Profile - a Subset of the .NET Framework Redistribution
  • .NET 使用 JustAssembly 比较两个不同版本程序集的 API 变化
  • .NET 中 GetHashCode 的哈希值有多大概率会相同(哈希碰撞)
  • .NET中的十进制浮点类型,徐汇区网站设计
  • @private @protected @public
  • [Android Studio] 开发Java 程序
  • [Avalon] Avalon中的Conditional Formatting.
  • [BT]BUUCTF刷题第9天(3.27)
  • [C#] 我的log4net使用手册
  • [C#]使用PaddleInference图片旋转四种角度检测
  • [C++] 统计程序耗时