当前位置：首页 > news >正文

采用Ollama运行本地大模型

news 来源：原创 2024/9/20 5:43:40

Ollama

Ollama，羊驼，快速的在本地电脑上运行大模型，只需要下载一个应用包即可，通过简单的安装指令，可以让用户执行一条命令就在本地运行开源大型语言模型，无需安装额外的环境依赖和编译等操作。支持Linux、Windows、Macos。

Ollama 将模型权重、配置和数据捆绑到一个包中，定义成 Modelfile。它优化了设置和配置细节，包括 GPU 使用情况。

优势

使用极其方便。一键安装应用，一键获取模型，一键启动模型服务并进行对话。
轻量级。代码简洁，运行时占用资源少。
可扩展。
可和其他框架进行整合。

本文以Windows系统为例，其他系统类似。

建议8G显存，16G+内存，固态硬盘，容量越大越好，需存储模型。

案例

下载

下载地址

安装

双击后，一直下一步直到安装完成即可。

模型的选择

在官网，点击models，按照 most popular进行排序，或者点击模型进行搜索。国内比较好的模型，如glm4和qwen系列均可选择
在这里插入图片描述

注意：模型对内存和显卡有要求，根据电脑的实际配置选取模型。一般情况下，模型的大小小于显存的大小运行比较流程，运行速度比较快，硬盘最好是固态，机械硬盘也可以，CPU要求不是很高。
比如，8G显存32G内存的配置，可以流程运行9B左右的模型，但运行大于32B以上的模型就比较吃力，推理速度很慢。

运行

打开cmd，输入ollama run {模型名称}，如，运行glm4-9b，则执行

ollama run glm4:9b

如果之前没有下载该模型，那么系统会首先下载模型，下载后运行，其中下载速度还是很快的，下载至99%到100%速度较慢。
在这里插入图片描述

效果

问答

在这里插入图片描述

逻辑运算

最近比较火的测试大模型的题目，glm效果不错，qwen错了。
在这里插入图片描述

在这里插入图片描述

资源占用

CPU和GPU分别在推理的时候使用，在加载模型的时候，会将资源提前加载到内存中。在推理的时候，显存使用率较高，如果模型较大，则推理速度较慢。8G显存在运行9B模型的时候，非常丝滑，在运行14B模型的时候，类似打字机一样，比较慢。

常用命令

获取模型
ollama pull llama3
运行模型
ollama run  llama3
移除模型
ollama rm llama3
多模态
What's in this image? /Users/jmorgan/Desktop/smile.png
显示模型信息
ollama show llama3
罗列已安装模型
ollama list
后端运行服务
ollama serve

下节整合WebUI。