当前位置: 首页 > news >正文

python-Bert(谷歌非官方产品)模型基础笔记0.1.096

python-bert模型基础笔记0.1.015

    • TODOLIST
    • 官网中的微调样例代码
    • Bert模型的微调限制
    • Bert的适合的场景
    • Bert多语言和中文模型
    • Bert模型两大类
    • 官方建议模型
    • Bert模型中名字的含义
    • Bert模型包含的文件
    • Bert系列模型参数介绍
    • 微调与迁移学习区别
    • Bert微调的方式
    • Pre-training和Fine-tuning区别
    • 关于Fine-tuning需要的硬件资源
    • 模型后缀介绍
    • Bert微调代码
    • Bert的pytorch版本
    • 参考链接

2024年6月7日19:15:13----0.1.095
2024年6月7日19:32:17----0.1.096

TODOLIST

  1. 下游任务
  2. 小数据微调模型
  3. 增量训练

官网中的微调样例代码

  1. 句子分类的样例代码:run_classifier.py
  2. 完形填空的例子:run_squad.py
  3. 句子编码的例子:extract_features.py

Bert模型的微调限制

我们做的具体领域任务对网络的设计要求必然得和预训练任务是一致的,主要包含下面两种任务:
任务一:屏蔽语言模型(Masked LM)
任务二:相邻句子判断(Next Sentence Prediction)

Bert的适合的场景

裸跑都非常优秀,句子级别(例如,SST-2)、句子对级别(例如MultiNLI)、单词级别(例如NER)和跨度级别(例如SQuAD),一般有如下场景:

  1. 一种是 fine-tune(微调)方法,
  2. 一种是 feature extract(特征抽取)方法,就是直接获取预训练的BERT模型的输出作为特征,对预训练的BERT的模型参数不会有任何改动。

Bert多语言和中文模型

参考链接:https://github.com/google-research/bert/blob/master/multilingual.md

  1. 中文简繁体模型(BERT Chinese-only Model )
    BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters
  2. 其他非拉丁字母文本模型(BERT Multilingual Model )
    BERT-Base, Multilingual Cased (New, recommended): 104 languages, 12-layer, 768-hidden, 12-heads, 110M parameters
    BERT-Base, Multilingual Uncased (Orig, not recommended): 102 languages, 12-layer, 768-hidden, 12-heads, 110M parameters

Bert模型两大类

BERT-Base 和 BERT-Large

官方建议模型

  1. Uncased

相关文章:

  • 【react】react项目支持鼠标拖拽的边框改变元素宽度的组件
  • 纳什均衡:博弈论中的运作方式、示例以及囚徒困境
  • 如何将AndroidStudio和IDEA的包名改为分层级目录
  • python --监听鼠标事件
  • k8s——安全机制
  • 【机器学习】我们该如何评价GPT-4o?GPT-4o的技术能力分析以及前言探索
  • DevOps入门
  • Tomcat相关概述和部署
  • 力扣第417题测试程序
  • Java微服务实战:使用Spring Boot构建高效服务
  • kv视频如何转码mp4格式,kv转换mp4最简单方法
  • 填充每个节点的下一个右侧节点指针-力扣
  • Vuex3学习笔记
  • Linux fallocate工具用于预分配或释放文件空间的块
  • 应用解析 | 面向智能网联汽车的产教融合解决方案
  • Effective Java 笔记(一)
  • ES6之路之模块详解
  • EventListener原理
  • java2019面试题北京
  • JavaScript 一些 DOM 的知识点
  • node和express搭建代理服务器(源码)
  • orm2 中文文档 3.1 模型属性
  • Rancher-k8s加速安装文档
  • tensorflow学习笔记3——MNIST应用篇
  • webpack+react项目初体验——记录我的webpack环境配置
  • 阿里云爬虫风险管理产品商业化,为云端流量保驾护航
  • 安装python包到指定虚拟环境
  • 个人博客开发系列:评论功能之GitHub账号OAuth授权
  • 关于for循环的简单归纳
  • 记录:CentOS7.2配置LNMP环境记录
  • 前端面试题总结
  • 如何将自己的网站分享到QQ空间,微信,微博等等
  • 设计模式 开闭原则
  • 试着探索高并发下的系统架构面貌
  • 新手搭建网站的主要流程
  • 找一份好的前端工作,起点很重要
  • 主流的CSS水平和垂直居中技术大全
  • Redis4.x新特性 -- 萌萌的MEMORY DOCTOR
  • ​人工智能之父图灵诞辰纪念日,一起来看最受读者欢迎的AI技术好书
  • ​直流电和交流电有什么区别为什么这个时候又要变成直流电呢?交流转换到直流(整流器)直流变交流(逆变器)​
  • #【QT 5 调试软件后,发布相关:软件生成exe文件 + 文件打包】
  • #鸿蒙生态创新中心#揭幕仪式在深圳湾科技生态园举行
  • (1)(1.9) MSP (version 4.2)
  • (51单片机)第五章-A/D和D/A工作原理-A/D
  • (Python第六天)文件处理
  • (Redis使用系列) Springboot 整合Redisson 实现分布式锁 七
  • (Redis使用系列) SpringBoot 中对应2.0.x版本的Redis配置 一
  • (Redis使用系列) SpringBoot中Redis的RedisConfig 二
  • (ZT)薛涌:谈贫说富
  • (附源码)spring boot校园拼车微信小程序 毕业设计 091617
  • (附源码)springboot 个人网页的网站 毕业设计031623
  • (四)鸿鹄云架构一服务注册中心
  • .java 指数平滑_转载:二次指数平滑法求预测值的Java代码
  • .NET Core 项目指定SDK版本
  • .Net Core 中间件验签