当前位置: 首页 > news >正文

哈工大中文mistral介绍(Chinese-Mixtral-8x7B)

Chinese-Mixtral-8x7B基于Mistral发布的模型Mixtral-8x7B进行了中文扩词表增量预训练。扩充后的词表显著提高了模型对中文的编解码效率,并通过大规模开源语料对扩词表模型进行增量预训练,使模型具备了强大的中文生成和理解能力。
开源地址见https://github.com/HIT-SCIR/Chinese-Mixtral-8x7B。
该项目开源了模型权重和扩词表增量预训练代码。
该使用QLoRA进行训练,LoRA权重与合并权重后的模型分别开源。
使用Flash Attention 2加速推理代码如下:

import torch
from transformers import AutoModelForCausalLM, AutoTokenizermodel_id = "HIT-SCIR/Chinese-Mixtral-8x7B"
tokenizer = AutoTokenizer.from_pretrained(model_id)model = AutoModelForCausalLM.from_pretrained(model_id, attn_implementation="flash_attention_2", torch_dtype=torch.bfloat16, device_map="auto")text = "我的名字是"
inputs = tokenizer(text, return_tensors="pt").to(0)outputs = model.generate(**inputs, max_new_tokens=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

模型性能如下:

在这里插入图片描述
模型生成效果:

在这里插入图片描述

中文编码效率:
在这里插入图片描述
参考https://github.com/HIT-SCIR/Chinese-Mixtral-8x7B

相关文章:

  • Redis实现滑动窗口限流
  • 微服务之qiankun主项目+子项目搭建
  • C++:封装
  • Pyglet综合应用|推箱子游戏之关卡图片载入内存
  • JMETER与它的组件们
  • 【C++】树形关联式容器set、multiset、map和multimap的介绍与使用
  • DAY12_VUE基本用法详细版
  • 深度学习--神经网络基础
  • 数仓项目6.0(二)数仓
  • 【Linux C | 网络编程】gethostbyname 函数详解及C语言例子
  • 人工智能与网络安全
  • Android 监听网络状态变化
  • POST参数里加号+变成空格的问题处理
  • C++内存管理【new 和 delete 关键字】笔记
  • 【Leetcode】938. 二叉搜索树的范围和
  • 2018以太坊智能合约编程语言solidity的最佳IDEs
  • CSS 三角实现
  • go append函数以及写入
  • Hibernate最全面试题
  • IE报vuex requires a Promise polyfill in this browser问题解决
  • Java 23种设计模式 之单例模式 7种实现方式
  • Java-详解HashMap
  • java中的hashCode
  • Python中eval与exec的使用及区别
  • React-flux杂记
  • Spring核心 Bean的高级装配
  • vue-cli3搭建项目
  • windows下如何用phpstorm同步测试服务器
  • 安卓应用性能调试和优化经验分享
  • 从零搭建Koa2 Server
  • 第13期 DApp 榜单 :来,吃我这波安利
  • 前嗅ForeSpider采集配置界面介绍
  • 使用common-codec进行md5加密
  • UI设计初学者应该如何入门?
  • zabbix3.2监控linux磁盘IO
  • 分布式关系型数据库服务 DRDS 支持显示的 Prepare 及逻辑库锁功能等多项能力 ...
  • 交换综合实验一
  • 我们雇佣了一只大猴子...
  • ​io --- 处理流的核心工具​
  • ​一帧图像的Android之旅 :应用的首个绘制请求
  • !$boo在php中什么意思,php前戏
  • (04)Hive的相关概念——order by 、sort by、distribute by 、cluster by
  • (图)IntelliTrace Tools 跟踪云端程序
  • (一)UDP基本编程步骤
  • (译) 函数式 JS #1:简介
  • (转) ns2/nam与nam实现相关的文件
  • (转)ABI是什么
  • (转)程序员疫苗:代码注入
  • ..thread“main“ com.fasterxml.jackson.databind.JsonMappingException: Jackson version is too old 2.3.1
  • .aanva
  • .NET 回调、接口回调、 委托
  • .NET 跨平台图形库 SkiaSharp 基础应用
  • .NET 事件模型教程(二)
  • .net 验证控件和javaScript的冲突问题
  • .NET/ASP.NETMVC 深入剖析 Model元数据、HtmlHelper、自定义模板、模板的装饰者模式(二)...