当前位置: 首页 > news >正文

《Ai学习笔记》自然语言处理 (Natural Language Processing):机器阅读理解-基础概念解析01

自然语言处理 (Natural Language Processing)

NLP四大基本任务

序列标注: 分词、词性标注

分类任务: 文本分类、情感分析

句子关系:问答系统、对话系统

生成任务:机器翻译、文章摘要

机器阅读理解的定义

Machine Reading Comprehension(MRC)机器阅读理解任务

QA问题的一个子集,含有contexts

通过交互从书面文字中提取与构造文章语义的过程

机器阅读理解场景

搜索引擎

机器回答&智能客服

垂直:医疗、法律、金融、教育等领域

MRC四大任务

完形填空

原文中除去若干关键词,需要模型填入正确的单词或者短语

多项选择

模型需要从给定的若干选项中给出正确答案

答案抽取

回答限定是文章中的一个子句,需要模型在文章中标注正确答案的起始和终止位置。

自由回答

不限制模型生成答案形式,允许模型自由产生数据

机器阅读理解方法

特征+传统机器学习

BERT以前:各种神奇的QA架构
BERT之后:预训练+微调+trick

机器学习总体架构

NLP相关任务的基本流程

文本预处理:构造训练语料

算法选择:输出数据-》规则

文本获取:

1、人工标注

2、用户标注

3、互联网收集后清洗

文本预处理:

1、去除冗余字符标记

2、分词(jieba/中文)

3、单词处理(英文:大写->小写,单词还原,同义词扩展)

4、去除停用词

总结:

在训练之前,要针对对应的模型:
1、确定目标大模型的训练语料格式
2、针对庞杂的文本文件进行去除标记、分词、单词处理、去除停用词。这些操作

3、得到的文件就可以用来预训练啦!

相关文章:

  • Redis机制-Redis缓存穿透,击穿,雪崩理解等问题的理解和学习
  • Python面试宝典:Python中与数据库连接和操作相关的面试笔试题(1000加面试笔试题助你轻松捕获大厂Offer)
  • 神经网络的工程基础(一)——利用PyTorch实现梯度下降法
  • 基于STM32的自动宠物喂食器的Proteus仿真
  • x的平方根-力扣
  • [7] CUDA之常量内存与纹理内存
  • Java——图书管理系统万字详解(附代码)
  • 树莓派4B 有电但无法启动
  • 几种常用的配置文件格式对比分析——ini、json、xml、toml、yaml
  • 2024年5月20日优雅草蜻蜓API大数据服务中心v2.0.4更新
  • 26.synchronized和ReentrantLock的区别
  • 初步认识栈和队列
  • 网络安全等级保护:正确配置 Linux
  • 38、Flink 的窗口触发器(Triggers)详解
  • html5网页-浏览器中实现高德地图定位功能
  • centos安装java运行环境jdk+tomcat
  • Elasticsearch 参考指南(升级前重新索引)
  • iOS | NSProxy
  • nginx 配置多 域名 + 多 https
  • Node.js 新计划:使用 V8 snapshot 将启动速度提升 8 倍
  • ucore操作系统实验笔记 - 重新理解中断
  • vue.js框架原理浅析
  • 笨办法学C 练习34:动态数组
  • 对象引论
  • 干货 | 以太坊Mist负责人教你建立无服务器应用
  • 机器学习学习笔记一
  • 排序算法学习笔记
  • 前端每日实战:61# 视频演示如何用纯 CSS 创作一只咖啡壶
  • 入手阿里云新服务器的部署NODE
  • 携程小程序初体验
  • 一个项目push到多个远程Git仓库
  • 深度学习之轻量级神经网络在TWS蓝牙音频处理器上的部署
  • MPAndroidChart 教程:Y轴 YAxis
  • 阿里云重庆大学大数据训练营落地分享
  • 如何用纯 CSS 创作一个菱形 loader 动画
  • ​软考-高级-系统架构设计师教程(清华第2版)【第15章 面向服务架构设计理论与实践(P527~554)-思维导图】​
  • $L^p$ 调和函数恒为零
  • ()、[]、{}、(())、[[]]等各种括号的使用
  • (2024最新)CentOS 7上在线安装MySQL 5.7|喂饭级教程
  • (C#)if (this == null)?你在逗我,this 怎么可能为 null!用 IL 编译和反编译看穿一切
  • (附源码)spring boot球鞋文化交流论坛 毕业设计 141436
  • (附源码)springboot宠物管理系统 毕业设计 121654
  • (附源码)计算机毕业设计ssm高校《大学语文》课程作业在线管理系统
  • (转)Linux下编译安装log4cxx
  • (转)总结使用Unity 3D优化游戏运行性能的经验
  • .Net Core 微服务之Consul(三)-KV存储分布式锁
  • .NET DataGridView数据绑定说明
  • .NET 设计一套高性能的弱事件机制
  • .NET/C#⾯试题汇总系列:集合、异常、泛型、LINQ、委托、EF!(完整版)
  • .sdf和.msp文件读取
  • .w文件怎么转成html文件,使用pandoc进行Word与Markdown文件转化
  • @Autowired注解的实现原理
  • @RequestBody详解:用于获取请求体中的Json格式参数
  • [ Linux 长征路第五篇 ] make/Makefile Linux项目自动化创建工具
  • [100天算法】-每个元音包含偶数次的最长子字符串(day 53)