当前位置: 首页 > news >正文

《昇思25天学习打卡营第25天|文本解码原理--以MindNLP为例》

文本解码是自然语言处理(NLP)中的一个关键步骤,用于将模型生成的向量表示转化为可读的文本。
请添加图片描述
请添加图片描述

文本解码的基本原理

在 NLP 中,解码过程通常从模型输出的概率分布或嵌入向量开始,通过某种策略将这些概率或嵌入转化为实际的文本。常见的解码策略有以下几种:

  1. 贪婪搜索(Greedy Search):每次选择概率最高的单词作为输出。
  2. 束搜索(Beam Search):维护一个候选序列的集合,在每一步扩展这些候选序列并选择最有可能的几个。
  3. 采样(Sampling):根据概率分布随机选择单词,适合生成更有创造性的文本。
  4. 温度调节(Temperature Scaling):通过调节概率分布的温度参数来平衡探索性和确定性。

MindNLP 中的文本解码

MindNLP 是一个基于 MindSpore 的 NLP 框架,它提供了丰富的模型和工具用于自然语言处理任务。在 MindNLP 中,文本解码通常包含以下步骤:

1. 加载模型和词汇表

首先,需要加载预训练的模型和相应的词汇表(vocabulary),这些词汇表包含了模型能够识别和生成的所有词汇。

from mindnlp.models import SomePretrainedModel
from mindnlp.vocab import Vocab# 加载预训练模型
model = SomePretrainedModel.from_pretrained('model_name')# 加载词汇表
vocab = Vocab.load('vocab_path')

2. 模型生成输出

使用模型对输入进行推理,得到输出的概率分布或嵌入向量。

inputs = 'Some input text'
outputs = model(inputs)

3. 解码输出

根据选定的解码策略,将模型输出的概率分布或嵌入向量转换为文本。例如,使用贪婪搜索策略:

def greedy_decode(outputs, vocab):decoded_text = []for output in outputs:# 选择概率最高的单词word_id = output.argmax(dim=-1).item()word = vocab.to_tokens(word_id)decoded_text.append(word)return ' '.join(decoded_text)decoded_text = greedy_decode(outputs, vocab)
print(decoded_text)

如果使用束搜索策略,可以引入 BeamSearch 类:

from mindnlp.utils import BeamSearchbeam_search = BeamSearch(model, vocab)
decoded_text = beam_search.decode(outputs)
print(decoded_text)

常见解码策略的优缺点

1. 贪婪搜索(Greedy Search)

优点:

  • 实现简单,计算效率高。

缺点:

  • 容易陷入局部最优,可能忽略全局最优的解码路径。

2. 束搜索(Beam Search)

优点:

  • 能够在一定程度上避免局部最优,生成更合理的文本序列。
  • 通过调整束宽度(Beam Width),在生成质量和计算效率之间找到平衡。

缺点:

  • 计算量较大,随着束宽度的增加,计算复杂度也随之增加。
  • 仍有可能错过全局最优解。

3. 采样(Sampling)

优点:

  • 能够生成多样化的文本,适用于创造性文本生成任务。

缺点:

  • 不稳定,可能生成不合理的文本序列。
  • 随机性较高,难以保证文本质量。

4. 温度调节(Temperature Scaling)

优点:

  • 通过调节温度参数,能够控制生成文本的确定性和多样性。
  • 适用于需要平衡探索性和确定性的任务。

缺点:

  • 需要根据具体任务进行参数调节,可能需要多次实验。

高级解码技巧

1. 重复惩罚(Repetition Penalty)

在生成文本时,为了避免重复生成相同的词语,可以引入重复惩罚机制。在每一步解码时,降低已经生成过的词语的概率,从而减少重复现象。

def apply_repetition_penalty(logits, generated_ids, penalty=1.2):for token_id in set(generated_ids):logits[token_id] /= penaltyreturn logits

2. 阈值采样(Top-k 和 Top-p 采样)

Top-k 采样: 每一步只从概率最高的 k 个候选词中进行采样,从而限制候选词的数量。

Top-p 采样(Nucleus Sampling): 每一步只从累计概率达到 p 的候选词中进行采样,从而动态调整候选词的数量。

import torchdef top_k_sampling(logits, k=50):indices_to_remove = logits < torch.topk(logits, k)[0][..., -1, None]logits[indices_to_remove] = -float('Inf')return torch.multinomial(torch.softmax(logits, dim=-1), 1)def top_p_sampling(logits, p=0.9):sorted_logits, sorted_indices = torch.sort(logits, descending=True)cumulative_probs = torch.cumsum(torch.softmax(sorted_logits, dim=-1), dim=-1)sorted_indices_to_remove = cumulative_probs > psorted_indices_to_remove[..., 1:] = sorted_indices_to_remove[..., :-1].clone()sorted_indices_to_remove[..., 0] = 0indices_to_remove = sorted_indices[sorted_indices_to_remove]logits[indices_to_remove] = -float('Inf')return torch.multinomial(torch.softmax(logits, dim=-1), 1)

3. 长度控制

在某些应用中,控制生成文本的长度非常重要。可以通过设置最大和最小生成长度来控制生成过程。

def length_control_decode(model, inputs, max_length=50, min_length=10):decoded_text = []for _ in range(max_length):outputs = model(inputs)word_id = outputs.argmax(dim=-1).item()word = vocab.to_tokens(word_id)if len(decoded_text) >= min_length and word == '<eos>':breakdecoded_text.append(word)return ' '.join(decoded_text)

在这里插入图片描述

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • lse:一款专为渗透测试和CTF设计的Linux枚举工具
  • #systemverilog# 之 event region 和 timeslot 仿真调度(十)高层次视角看仿真调度事件的发生
  • linux协议栈之FDB表
  • 【Spring Boot 中的 `banner.txt` 和 `logback-spring.xml` 配置】
  • 安装caffe-CPU版本并进行训练
  • 谷粒商城实战笔记-52~53-商品服务-API-三级分类-新增-修改
  • Vuex看这一篇就够了
  • 奇瑞灯控,智照未来 | 经纬恒润AUTOSAR赋能智能车灯新纪元
  • 【Day1415】Bean管理、SpringBoot 原理、总结、Maven 高级
  • concrt140.dll修复丢失的解决办法?一键修复丢失concrt140.dll文件
  • 6、基于Fabirc 2.X 通用电子存证系统部署
  • 学习java第一百三十八天
  • 红人点集登录逆向+接口逆向:SHA256算法和Webpack反爬
  • 使用LSTM完成时间序列预测
  • 购物车案例(源码分享)
  • JS中 map, filter, some, every, forEach, for in, for of 用法总结
  • SegmentFault for Android 3.0 发布
  • 【前端学习】-粗谈选择器
  • axios请求、和返回数据拦截,统一请求报错提示_012
  • CentOS从零开始部署Nodejs项目
  • Flex布局到底解决了什么问题
  • gulp 教程
  • iOS 系统授权开发
  • SpringBoot 实战 (三) | 配置文件详解
  • Webpack 4x 之路 ( 四 )
  • 笨办法学C 练习34:动态数组
  • 分布式任务队列Celery
  • 复杂数据处理
  • 给新手的新浪微博 SDK 集成教程【一】
  • 官方新出的 Kotlin 扩展库 KTX,到底帮你干了什么?
  • 前端面试总结(at, md)
  • 使用Envoy 作Sidecar Proxy的微服务模式-4.Prometheus的指标收集
  • 微信小程序设置上一页数据
  • 物联网链路协议
  • 限制Java线程池运行线程以及等待线程数量的策略
  • 在 Chrome DevTools 中调试 JavaScript 入门
  • media数据库操作,可以进行增删改查,实现回收站,隐私照片功能 SharedPreferences存储地址:
  • 回归生活:清理微信公众号
  • ​sqlite3 --- SQLite 数据库 DB-API 2.0 接口模块​
  • ​浅谈 Linux 中的 core dump 分析方法
  • # windows 运行框输入mrt提示错误:Windows 找不到文件‘mrt‘。请确定文件名是否正确后,再试一次
  • #我与Java虚拟机的故事#连载06:收获颇多的经典之作
  • (003)SlickEdit Unity的补全
  • (160)时序收敛--->(10)时序收敛十
  • (k8s中)docker netty OOM问题记录
  • (ros//EnvironmentVariables)ros环境变量
  • (编译到47%失败)to be deleted
  • (独孤九剑)--文件系统
  • (二) 初入MySQL 【数据库管理】
  • (二)pulsar安装在独立的docker中,python测试
  • (分布式缓存)Redis分片集群
  • (附源码)spring boot基于Java的电影院售票与管理系统毕业设计 011449
  • (附源码)springboot 基于HTML5的个人网页的网站设计与实现 毕业设计 031623
  • (含笔试题)深度解析数据在内存中的存储
  • (三)elasticsearch 源码之启动流程分析