当前位置: 首页 > news >正文

【记录】大模型|Windows 下 Hugging Face 上的模型的通用极简调用方式之一

这篇文是参考了这篇,然后后来自己试着搭了一下,记录的全部过程:【翻译】Ollama|如何在 Ollama 中运行 Hugging Face 中的模型_ollama 导入 huggingface-CSDN 博客
另外还参考了这篇:无所不谈,百无禁忌,Win11 本地部署无内容审查中文大语言模型 CausalLM-14B - 知乎

文章目录

    • 步骤 1:下载 GGUF 格式模型
      • 1 示例
      • 2 如何查找 GGUF 模型
    • 步骤 2:部署
      • 1 安装 Visual Studio installer 的 C++ 桌面开发组件
      • 2 安装 cmake
      • 3 安装 CUDA(一般显卡都装了驱动,不过可能没装nvcc这些命令工具,nvcc没装就再装装)
      • 4 下载llama.cpp
      • 5 解压llama-b3772-bin-win-cuda-cu12.2.0-x64.zip
      • 6 运行指令
    • 步骤3:展示

步骤 1:下载 GGUF 格式模型

这个格式才是量化版本,不用自己编译了。

具体内存或显存的要求你们可以自己考虑,我的电脑独显 3060 6G 的 14B 的量化模型没啥问题。

1 示例

  1. https://huggingface.co/TheBloke/CausalLM-14B-GGUF
    在这里插入图片描述
  2. https://huggingface.co/hfl/chinese-llama-2-13b-gguf/tree/main
    在这里插入图片描述

2 如何查找 GGUF 模型

  1. 一般情况你在链接后面加-gguf就有量化版本了;
  2. 找不到的话可以去 Github 的 README 里搜 GGUF 关键词,比如下图:
    在这里插入图片描述

步骤 2:部署

1 安装 Visual Studio installer 的 C++ 桌面开发组件

Visual Studio 2022 IDE - 适用于软件开发人员的编程工具
在这里插入图片描述

2 安装 cmake

https://cmake.org/download/

3 安装 CUDA(一般显卡都装了驱动,不过可能没装nvcc这些命令工具,nvcc没装就再装装)

https://developer.nvidia.com/cuda-downloads

4 下载llama.cpp

https://github.com/ggerganov/llama.cpp/releases,选自己的版本,我下载的是llama-b3772-bin-win-cuda-cu12.2.0-x64.zip。
在这里插入图片描述

5 解压llama-b3772-bin-win-cuda-cu12.2.0-x64.zip

进入目录,在这个目录下打开命令行工具,创建一个目录models,把gguf模型放进去(你也可以选择用绝对路径,一个意思)。
在这里插入图片描述

6 运行指令

.\llama-cli.exe -m models/causallm_14b.Q4_0.gguf -p "You are a helpful assistant" -cnv(改成你自己的模型名字)

步骤3:展示

在命令行去运行:

在这里插入图片描述

会运行得到这种东西:
在这里插入图片描述

运行的时候还能加上一些额外的参数,比如这样:.\llama-cli.exe -m models/causallm_14b.Q4_0.gguf -p "You are a helpful assistant" -cnv --chat-template llama2,这时指令模板就会发生变化,如下所示:

在这里插入图片描述

好了。

本账号所有文章均为原创,欢迎转载,请注明文章出处:https://shandianchengzi.blog.csdn.net/article/details/142438818。百度和各类采集站皆不可信,搜索请谨慎鉴别。技术类文章一般都有时效性,本人习惯不定期对自己的博文进行修正和更新,因此请访问出处以查看本文的最新版本。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • react + antDesignPro 企业微信扫码登录
  • Java 之反射机制详解
  • MySQL中的LIMIT与ORDER BY关键字详解
  • go/函数
  • 从IPC摄像机读取视频帧解码并转化为YUV数据到转化为Bitmap
  • DeepSeek 2.5本地部署的实战教程
  • 7--SpringBoot-后端开发、原理详解(面试高频提问点)
  • Web后端开发技术:RESTful 架构详解
  • 如何在GitHub上Clone项目:一步步指南
  • js 深入理解类-class
  • 存储系统概述
  • 移动端如何实现智能语音交互
  • Java免税商品优选商城:Spring Boot实战
  • 【在Linux世界中追寻伟大的One Piece】IP分片和组装的具体过程
  • Linux:syslog文件删掉 不能自动创建
  • [译]Python中的类属性与实例属性的区别
  • 【面试系列】之二:关于js原型
  • Angular js 常用指令ng-if、ng-class、ng-option、ng-value、ng-click是如何使用的?
  • angular组件开发
  • Druid 在有赞的实践
  • gulp 教程
  • JavaScript-Array类型
  • Java读取Properties文件的六种方法
  • java中的hashCode
  • Selenium实战教程系列(二)---元素定位
  • vue2.0项目引入element-ui
  • vue学习系列(二)vue-cli
  • 大整数乘法-表格法
  • 深入浏览器事件循环的本质
  • C# - 为值类型重定义相等性
  • MPAndroidChart 教程:Y轴 YAxis
  • 蚂蚁金服CTO程立:真正的技术革命才刚刚开始
  • #Datawhale AI夏令营第4期#AIGC方向 文生图 Task2
  • $ is not function   和JQUERY 命名 冲突的解说 Jquer问题 (
  • $.extend({},旧的,新的);合并对象,后面的覆盖前面的
  • (2024)docker-compose实战 (9)部署多项目环境(LAMP+react+vue+redis+mysql+nginx)
  • (HAL库版)freeRTOS移植STMF103
  • (二开)Flink 修改源码拓展 SQL 语法
  • (二十三)Flask之高频面试点
  • (分类)KNN算法- 参数调优
  • (附源码)spring boot儿童教育管理系统 毕业设计 281442
  • (附源码)springboot助农电商系统 毕业设计 081919
  • (一)基于IDEA的JAVA基础10
  • (原創) 如何動態建立二維陣列(多維陣列)? (.NET) (C#)
  • (轉貼) 資訊相關科系畢業的學生,未來會是什麼樣子?(Misc)
  • .NET 4 并行(多核)“.NET研究”编程系列之二 从Task开始
  • .NET 8 跨平台高性能边缘采集网关
  • .net dataexcel winform控件 更新 日志
  • .net的socket示例
  • .NET中winform传递参数至Url并获得返回值或文件
  • .net中生成excel后调整宽度
  • ??eclipse的安装配置问题!??
  • [ CTF ] WriteUp- 2022年第三届“网鼎杯”网络安全大赛(朱雀组)
  • [ Linux Audio 篇 ] 音频开发入门基础知识
  • [ 环境搭建篇 ] 安装 java 环境并配置环境变量(附 JDK1.8 安装包)