当前位置: 首页 > news >正文

notes for datawhale 2th summer camp NLP task1

//I wrote this note in obsidian and copied it here. The strange format in this note is due to lack of obsidian plugins.


tags:

  • AI-study
  • ML
    status: done

目标:跑通baseline,体验NLP模型解决问题的流程,基本了解赛题要求,理解赛题场景
难度:非常低
推荐步骤:

  1. 根据文档跑通提交并拿下第一个分数
  2. 了解赛题提交的格式
  3. 模型训练相关的数据格式
  4. 打卡第一个分数,尽量写笔记

‌​​⁠​​​​‌‍​​​​⁠⁠​​‬​⁠‬​​​‬‌​​​​‌​​‬‬​​​​​‍​‌Task1知识点文档 - 飞书云文档 (feishu.cn)

brief history of ML

机器翻译(Machine Translation,简称MT)是自然语言处理领域的一个重要分支,其目标是将一种语言的文本自动转换为另一种语言的文本

机器翻译方法:基于规则->基于统计->深度学习
规则驱动->数据驱动->智能驱动

基于规则的机器翻译(1950s-1980s):早期的机器翻译系统主要采用基于规则的方法,即利用语言学家编写的语法规则和词典进行翻译。这种方法需要对源语言和目标语言的语法和词汇有深入的理解,但其灵活性和适应性较差,难以处理复杂的语言结构和多义词问题

基于统计的机器翻译(1990s-2000s):随着计算机性能的提升和大规模平行语料库的出现,统计机器翻译开始兴起。这种方法通过分析大量双语文本,自动学习源语言和目标语言之间的对应关系,从而实现翻译。统计机器翻译在处理多义词和语言变异方面表现出更好的效果,但由于其依赖于大量训练数据,对于资源匮乏的语言支持不足。

基于神经网络机器翻译(2010s-present):神经网络方法在机器翻译任务上的应用可以追溯到上世纪八九十年代。但受限于当时的计算资源和数据规模的限制,神经网络方法的性能差强人意,故而其发展停滞了很多年。近年来,深度学习技术的快速发展推动了神经网络机器翻译(Neural Machine Translation,简称NMT)的兴起。NMT使用深度神经网络模型,如长短期记忆网络(LSTM)和 Transformer,能够自动学习源语言和目标语言之间的复杂映射关系,无需人工设计特征或规则。NMT在翻译质量、速度和适应性方面取得了显著进步,成为当前机器翻译领域的主流方法。

数据划分

在机器学习和深度学习项目中,数据集通常被划分为三个部分:训练集(Training Set)、开发集(Development Set,也常被称为验证集,Validation Set)和测试集(Test Set)

训练集,训练模型
开发集,防止模型过度拟合于训练集
测试集,模拟真实数据,检验效果

赛题解析

赛事背景

目前神经机器翻译技术已经取得了很大的突破,但在特定领域或行业中,由于机器翻译难以保证术语的一致性,导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果,可以通过术语词典进行纠正,避免了混淆或歧义,最大限度提高翻译质量。

赛事任务

基于术语词典干预的机器翻译挑战赛选择以英文为源语言,中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据,还提供英中对照的术语词典。参赛队伍需要基于提供的训练数据样本从多语言机器翻译模型的构建与训练,并基于测试集以及术语词典,提供最终的翻译结果

//RAG🤗

赛题数据

  • 训练集:双语数据 - 中英14万余双语句对
  • 开发集:英中1000双语句对
  • 测试集:英中1000双语句对
  • 术语词典:英中2226条

[!info] 🐵

  • **训练集(training set)**用于运行你的学习算法。
  • 开发集(development set)用于调整参数,选择特征,以及对学习算法作出其它决定。有时也称为留出交叉验证集(hold-out cross validation set)
  • **测试集(test set)**用于评估算法的性能,但不会据此改变学习算法或参数。

评估指标

对于参赛队伍提交的测试集翻译结果文件,采用自动评价指标 BLUE-4 进行评价,具体工具使用 sacrebleu开源版本

[!info] 📘
什么是 BLUE-4 ?

BLEU,全称为Bilingual Evaluation Understudy(双语评估替换),是一种对生成语句进行评估的指标。BLEU 评分是由Kishore Papineni等人2002年的论文《BLEU: a Method for Automatic Evaluation of Machine Translation》中提出的。

在机器翻译领域,BLEU(Bilingual Evaluation Understudy)是一种常用的自动评价指标,用于衡量计算机生成的翻译与一组参考译文之间的相似度。这个指标特别关注 n-grams(连续的n个词)的精确匹配,可以被认为是对翻译准确性和流利度的一种统计估计。计算BLUE分数时,首先会统计生成文本中n-grams的频率,然后将这些频率与参考文本中的n-grams进行比较。如果生成的翻译中包含的n-grams与参考译文中出现的相同,则认为是匹配的。最终的BLUE分数是一个介于0到1之间的数值,其中1表示与参考译文完美匹配,而0则表示完全没有匹配。

BLUE-4 特别指的是在计算时考虑四元组(即连续四个词)的匹配情况。

BLUE 评估指标的特点:

  • 优点:计算速度快、计算成本低、容易理解、与具体语言无关、和人类给的评估高度相关。
  • 缺点:不考虑语言表达(语法)上的准确性;测评精度会受常用词的干扰;短译句的测评精度有时会较高;没有考虑同义词或相似表达的情况,可能会导致合理翻译被否定。

除了翻译之外,BLEU评分结合深度学习方法可应用于其他的语言生成问题,例如:语言生成、图片标题生成、文本摘要、语音识别。

课后思考

以后就用魔塔吧,8GB笔记本撑不住啦
简单看了代码和数据,不是很懂
猜测,翻译过程,是不是每个词从词典中检索出几个选项,组合概率最大的为翻译结果?

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • JSqlParser 解析 sql
  • Linux介绍以及常用命令
  • html+js+css做的扫雷
  • 使用mybatis的statementHander拦截器监控表和字段并发送钉钉消息
  • Python面经
  • FlinkErr:org/apache/hadoop/hive/ql/parse/SemanticException
  • .Net Core 微服务之Consul(二)-集群搭建
  • Vue 接口用FormData() 提交数据
  • 如何使用 GPT?
  • 基于 jenkins 部署接口自动化测试项目!
  • 文件上传接口
  • Hive的基本操作(查询)
  • 盘古信息MOM系统:赋能企业打造高效数字化车间的关键
  • 【绘唐阿祖】Ai小说推文一键生成工具功能预览极速版
  • AI智能名片在Web 3.0技术栈中的应用与前景研究
  • Create React App 使用
  • iOS帅气加载动画、通知视图、红包助手、引导页、导航栏、朋友圈、小游戏等效果源码...
  • JS函数式编程 数组部分风格 ES6版
  • MYSQL 的 IF 函数
  • Netty 框架总结「ChannelHandler 及 EventLoop」
  • PHP CLI应用的调试原理
  • Rancher如何对接Ceph-RBD块存储
  • Vue2 SSR 的优化之旅
  • vue从入门到进阶:计算属性computed与侦听器watch(三)
  • Vue源码解析(二)Vue的双向绑定讲解及实现
  • 分享自己折腾多时的一套 vue 组件 --we-vue
  • 算法系列——算法入门之递归分而治之思想的实现
  • 一个JAVA程序员成长之路分享
  • 一些css基础学习笔记
  • 赢得Docker挑战最佳实践
  • 用jquery写贪吃蛇
  • 追踪解析 FutureTask 源码
  • ​DB-Engines 12月数据库排名: PostgreSQL有望获得「2020年度数据库」荣誉?
  • ​Java基础复习笔记 第16章:网络编程
  • ​如何在iOS手机上查看应用日志
  • #Datawhale AI夏令营第4期#多模态大模型复盘
  • #Linux(make工具和makefile文件以及makefile语法)
  • (2021|NIPS,扩散,无条件分数估计,条件分数估计)无分类器引导扩散
  • (27)4.8 习题课
  • (3)选择元素——(17)练习(Exercises)
  • (DenseNet)Densely Connected Convolutional Networks--Gao Huang
  • (vue)el-tabs选中最后一项后更新数据后无法展开
  • (十)c52学习之旅-定时器实验
  • (算法)区间调度问题
  • (转)IIS6 ASP 0251超过响应缓冲区限制错误的解决方法
  • (转)视频码率,帧率和分辨率的联系与区别
  • ***linux下安装xampp,XAMPP目录结构(阿里云安装xampp)
  • *Django中的Ajax 纯js的书写样式1
  • .NET CF命令行调试器MDbg入门(三) 进程控制
  • .NET COER+CONSUL微服务项目在CENTOS环境下的部署实践
  • .net core docker部署教程和细节问题
  • .net MySql
  • .NET/C# 使用 SpanT 为字符串处理提升性能
  • .NET/C#⾯试题汇总系列:⾯向对象
  • .NetCore+vue3上传图片 Multipart body length limit 16384 exceeded.