当前位置: 首页 > news >正文

自然语言处理系列之: NLP基础

大纲

  • NLP基础概念

  • NLP的发展与应用

  • NLP常用术语以及扩展介绍


1.1 什么是NLP

  • 基本分类

NLP基本分类

  • 自然语言生成(Natural Language Generation,NLG)

    指从结构化数据中以读取的方式自动生成文本,主要包括三个阶段:

    • 文本规划:完成结构化数据中的基础内容规划;
    • 语句规划:从结构化数据中组合语句来表达信息流;
    • 实现:产生语法通顺的语句来表达文本;
  • 研究任务

    • 机器翻译
    • 情感分析
    • 智能问答
    • 文摘生成
    • 文本分类
    • 舆论分析
    • 知识图谱

1.2 NLP的发展历程

  • 萌芽期(1956年以前)

    贝叶斯方法、隐马尔可夫、最大熵、支持向量机……,主流仍为基于规则的理性主义方法;

  • 快速发展期(1980~1999年)

    基于统计、基于实例和基于规则的语料库技术在这一时期蓬勃发展;

  • 突飞猛进期(2000年至今)

    神经网络与深度学习;


1.3 NLP相关知识的构成

  • 基本术语

    • 分词(segment)

    • 词性标注(part-of-speech tagging)

    • 命名实体识别(NER,Named Entity Recognition)

      指从文本中识别具有特定类标的实体(常为名词),如人名、地名、机构名、专有名词等;

    • 句法分析(syntax parsing)

      目的是解析句子中各个成分的依赖关系;

    • 指代消解(anaphora resolution)

    • 情感识别(emotion recognition)

    • 纠错(correction)

    • 问答系统(QA system)

  • 知识结构

    NLP是一门跨学科科学,体系化与特殊化并存,其知识体系如下:

    • 句法语义分析:针对目标句子,进行各种句法分析;
    • 关键词抽取:抽取目标文本中的主要信息;
    • 文本挖掘:主要包含对文本的聚类、分类、信息抽取、摘要、情感分析及对挖掘的信息和知识的可视化、交互式的呈现界面;
    • 信息检索:对大规模的文档进行索引;
    • 机器翻译:将输入的源语言文本通过自动化翻译转化为另一种语言的文本;
    • 问答系统:针对某个自然语言表达的问题,由问答系统给出一个精确答案;
    • 对话系统:系统通过多回合对话,与用户进行聊天、问答、完成某项任务;

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3dcQHXkQ-1604644206901)(https://i.loli.net/2019/08/26/LBWhK5q8V4Zd6JF.png)]


1.4 语料库

  • 中文维基百科

  • 搜狗新闻语料库

  • IMDB情感分析语料库

  • fastText词向量

  • 维基可比语料


1.5 探究NLP的几个层面

  • 第一层面:词法分析

    • 分词

    • 词性标注

      目的是为每个词赋予一个类别;

  • 第二层面:句法分析

    对输入的文本以句子为单位,进行分析从而得到句子的句法结构的处理过程;

  • 第三层面:语义分析

    语义角色标注(semantic role labeling)是当前较为成熟的浅层语义分析技术;

相关文章:

  • 自然语言处理系列之:中文分词技术
  • 自然语言处理系列之:词性标注与命名实体识别
  • 自然语言处理系列之: 关键词提取算法
  • 自然语言处理系列之: 句法分析
  • 自然语言处理系列之:文本向量化
  • 自然语言处理系列之: 实战电影评论情感分析
  • 自然语言处理系列之: NLP中用到的机器学习算法
  • Java网络编程:UDP套接字程序设计,UDP实现Socket通信(附完整代码实现)
  • Java网络编程:邮件发送程序设计,SMPT传输协议实现(完整代码实现)
  • java网络编程:基于HTTP的下载程序设计及web浏览器制作(完整代码实现)
  • Java网络编程:Socket实现的扫描程序设计 (完整代码实现)
  • 为什么要学习设计模式?看完这篇你就懂了!
  • 使用Wps切分单页PDF文件为多页pdf
  • 深入解析JVM(四):对象的创建
  • IntellIJ IDEA导入项目后无法运行方法的解决方法!
  • [NodeJS] 关于Buffer
  • 30天自制操作系统-2
  • magento2项目上线注意事项
  • mysql_config not found
  • niucms就是以城市为分割单位,在上面 小区/乡村/同城论坛+58+团购
  • PHP的类修饰符与访问修饰符
  • Sass Day-01
  • 读懂package.json -- 依赖管理
  • 飞驰在Mesos的涡轮引擎上
  • 技术胖1-4季视频复习— (看视频笔记)
  • 每天一个设计模式之命令模式
  • 物联网链路协议
  • 学习ES6 变量的解构赋值
  • 《天龙八部3D》Unity技术方案揭秘
  • ​​​​​​​ubuntu16.04 fastreid训练过程
  • # include “ “ 和 # include < >两者的区别
  • ###C语言程序设计-----C语言学习(6)#
  • #define
  • #我与Java虚拟机的故事#连载07:我放弃了对JVM的进一步学习
  • $.ajax,axios,fetch三种ajax请求的区别
  • (11)MATLAB PCA+SVM 人脸识别
  • (17)Hive ——MR任务的map与reduce个数由什么决定?
  • (DenseNet)Densely Connected Convolutional Networks--Gao Huang
  • (Java数据结构)ArrayList
  • (react踩过的坑)Antd Select(设置了labelInValue)在FormItem中initialValue的问题
  • (附源码)springboot宠物管理系统 毕业设计 121654
  • (附源码)springboot炼糖厂地磅全自动控制系统 毕业设计 341357
  • (论文阅读23/100)Hierarchical Convolutional Features for Visual Tracking
  • (强烈推荐)移动端音视频从零到上手(下)
  • (十六)串口UART
  • (转)GCC在C语言中内嵌汇编 asm __volatile__
  • (转)大型网站的系统架构
  • .net 4.0 A potentially dangerous Request.Form value was detected from the client 的解决方案
  • .Net 知识杂记
  • .NET/C# 将一个命令行参数字符串转换为命令行参数数组 args
  • .NET/C# 利用 Walterlv.WeakEvents 高性能地定义和使用弱事件
  • .NET/C# 阻止屏幕关闭,阻止系统进入睡眠状态
  • .NET企业级应用架构设计系列之技术选型
  • [20171102]视图v$session中process字段含义
  • [2021]Zookeeper getAcl命令未授权访问漏洞概述与解决