当前位置: 首页 > news >正文

中文Mistral模型介绍(Chinese-Mistral)——中文大语言模型

中文Mistral简介

Chinese-Mistral由清华大学地学系地球空间信息科学实验室开发。
该模型基于Mistral发布的Mistral-7B-v0.1训练得到。首先进行中文词表扩充,然后采用实验室提出的PREPARED训练框架(under review)在中英双语语料上进行增量预训练。
实验结果表明,本模型的中文能力高于其他中文mistral-7B模型,且中文编码效率高于其他同等词表大小的模型。
下载地址:https://huggingface.co/itpossible/Chinese-Mistral-7B-v0.1
如果无法科学上网,可通过镜像下载https://hf-mirror.com/itpossible/Chinese-Mistral-7B-v0.1

训练语料及清洗

语料采样于WuDao、WanJuan、Dolma等高质量开源数据集。我们仔细检查了这些数据集,发现可以进一步提高数据质量。我们采用KenLM计算文档的PPL、启发式算法、定义过滤规则等方法进一步清洗语料,最终保留了90%的语料。

词表扩充

采用BPE算法(Sentencepiece实现)扩充中文词表,将mistral的词表由32000扩充至63776。我们随机从WuDao中抽取了多个文档,这些文档包括67,013,857个单词。多个模型的词表性能对比如下表。
结果显示,Chinese-Mistral的编码效率最高。
在这里插入图片描述

中文与英文通用能力比较

采用C-Eval(用于评测中文能力)、C-MMLU(用于评测中文能力)、MMLU(用于评测英文能力)的测试集进行评测。
在这里插入图片描述
与openbuddy社区开源的中文mistral在统一的实验环境中进行对比,显示Chinese-Mistral中英文能力均优于Openbuddy-mistral-7b-v13-base。
在这里插入图片描述

模型推理

import torch
from transformers import AutoModelForCausalLM, AutoTokenizerdevice = torch.device("cuda:0") if torch.cuda.is_available() else torch.device("cpu")model_path = "itpossible/Chinese-Mistral-7B-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, device_map=device)text = "在一场大雨后,我"
inputs = tokenizer(text, return_tensors="pt").to(device)outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Chinese-Mistral平替——JiuZhou九州大语言模型

JiuZhou将Chinese-Mistral作为基座模型,在大规模地球科学领域语料上进行增量预训练。由于地球科学是交叉性非常强的学科,因此其通用能力得到进一步的提升。
C-Eval排行榜显示,九州的中文能力超越了开源社区开发的Chinese-Alpaca-Plus-13B,逼近chatglm2-6B。
JiuZhou基座模型下载地址:https://huggingface.co/itpossible/JiuZhou-base

相关文章:

  • 嵌入式软件面试---编程基础篇
  • 深入理解npm常用命令
  • 【c语言】自定义类型:枚举类型【详解】
  • Flutter与iOS和Android原生页面交互
  • 技术详解 | 黑客如何通过PDF文件分发恶意软件
  • 基于java的电影院售票网站
  • ajax的优缺点有哪些?
  • 每日一题:用c语言中指针实现除2操作
  • Centos7安装Docker与Docker-compose【图文教程】
  • Flutter iOS上架指南
  • 【JAVAEE学习】探究Java中多线程的使用和重点及考点
  • Python语言例题集(010)
  • 苍穹外卖07(缓存菜品,SpringCache,缓存套餐,添加购物车菜品和套餐多下单,查看购物车,清除购物车,删除购物车中一个商品)
  • vue 数据埋点
  • Node.js入门
  • 《Java编程思想》读书笔记-对象导论
  • 230. Kth Smallest Element in a BST
  • AzureCon上微软宣布了哪些容器相关的重磅消息
  • CAP 一致性协议及应用解析
  • iOS动画编程-View动画[ 1 ] 基础View动画
  • iOS小技巧之UIImagePickerController实现头像选择
  • JavaScript设计模式系列一:工厂模式
  • JavaWeb(学习笔记二)
  • java第三方包学习之lombok
  • leetcode388. Longest Absolute File Path
  • React as a UI Runtime(五、列表)
  • ucore操作系统实验笔记 - 重新理解中断
  • vue:响应原理
  • vue的全局变量和全局拦截请求器
  • 创建一种深思熟虑的文化
  • 浮现式设计
  • 计算机在识别图像时“看到”了什么?
  • 浅谈Kotlin实战篇之自定义View图片圆角简单应用(一)
  • 区块链分支循环
  • 项目实战-Api的解决方案
  • 小程序开发中的那些坑
  • 因为阿里,他们成了“杭漂”
  • 用jQuery怎么做到前后端分离
  • 【运维趟坑回忆录 开篇】初入初创, 一脸懵
  • 400多位云计算专家和开发者,加入了同一个组织 ...
  • # 计算机视觉入门
  • # 再次尝试 连接失败_无线WiFi无法连接到网络怎么办【解决方法】
  • #define与typedef区别
  • #QT(串口助手-界面)
  • #vue3 实现前端下载excel文件模板功能
  • (¥1011)-(一千零一拾一元整)输出
  • (23)Linux的软硬连接
  • (9)STL算法之逆转旋转
  • (c语言)strcpy函数用法
  • (done) ROC曲线 和 AUC值 分别是什么?
  • (Matlab)使用竞争神经网络实现数据聚类
  • (PyTorch)TCN和RNN/LSTM/GRU结合实现时间序列预测
  • (附源码)php投票系统 毕业设计 121500
  • (全部习题答案)研究生英语读写教程基础级教师用书PDF|| 研究生英语读写教程提高级教师用书PDF
  • (十七)Flask之大型项目目录结构示例【二扣蓝图】