当前位置: 首页 > news >正文

采用Ollama运行本地大模型

Ollama

Ollama, 羊驼,快速的在本地电脑上运行大模型,只需要下载一个应用包即可,通过简单的安装指令,可以让用户执行一条命令就在本地运行开源大型语言模型,无需安装额外的环境依赖和编译等操作。支持Linux、Windows、Macos。

Ollama 将模型权重、配置和数据捆绑到一个包中,定义成 Modelfile。它优化了设置和配置细节,包括 GPU 使用情况。

优势

  1. 使用极其方便。一键安装应用,一键获取模型,一键启动模型服务并进行对话。
  2. 轻量级。代码简洁,运行时占用资源少。
  3. 可扩展。
  4. 可和其他框架进行整合。

本文以Windows系统为例,其他系统类似。

建议8G显存,16G+内存,固态硬盘,容量越大越好,需存储模型。

案例

下载

下载地址

安装

双击后,一直下一步直到安装完成即可。

模型的选择

在官网,点击models,按照 most popular进行排序,或者点击模型进行搜索。国内比较好的模型,如glm4和qwen系列均可选择
在这里插入图片描述

注意:模型对内存和显卡有要求,根据电脑的实际配置选取模型。一般情况下,模型的大小小于显存的大小运行比较流程,运行速度比较快,硬盘最好是固态,机械硬盘也可以,CPU要求不是很高。
比如,8G显存32G内存的配置,可以流程运行9B左右的模型,但运行大于32B以上的模型就比较吃力,推理速度很慢。

运行

打开cmd,输入ollama run {模型名称},如,运行glm4-9b,则执行

ollama run glm4:9b

如果之前没有下载该模型,那么系统会首先下载模型,下载后运行,其中下载速度还是很快的,下载至99%到100%速度较慢。
在这里插入图片描述

效果

问答

在这里插入图片描述

逻辑运算

最近比较火的测试大模型的题目,glm效果不错,qwen错了。
在这里插入图片描述

在这里插入图片描述

资源占用

CPU和GPU分别在推理的时候使用,在加载模型的时候,会将资源提前加载到内存中。在推理的时候,显存使用率较高,如果模型较大,则推理速度较慢。8G显存在运行9B模型的时候,非常丝滑,在运行14B模型的时候,类似打字机一样,比较慢。

常用命令

获取模型
ollama pull llama3
运行模型
ollama run  llama3
移除模型
ollama rm llama3
多模态
What's in this image? /Users/jmorgan/Desktop/smile.png
显示模型信息
ollama show llama3
罗列已安装模型
ollama list
后端运行服务
ollama serve

下节整合WebUI。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 速盾:ddos高防ip哪里好用?
  • Spark的动态资源分配算法
  • idea如何让包结构分层
  • 【开源项目】H265码流格式解析
  • 黑龙江网络安全等级保护测评策略概述
  • [Redis]典型应用——缓存
  • C++相关概念和易错语法(23)(set、仿函数的应用、pair、multiset)
  • 深度学习落地实战:人流量监测
  • 记录vivado自带IP iBert眼图近端回环
  • C基础函数——内存分配(未完)
  • 多线程.下
  • 昇思25天学习打卡营第29天 | 基于MindSpore通过GPT实现情感分类
  • Stable Diffusion 使用详解(1)---- 提示词及相关参数
  • 提交(git-add git-commit git-push)
  • 第十课:telnet(远程登入)
  • 【许晓笛】 EOS 智能合约案例解析(3)
  • Javascript设计模式学习之Observer(观察者)模式
  • Meteor的表单提交:Form
  • October CMS - 快速入门 9 Images And Galleries
  • Spring-boot 启动时碰到的错误
  • thinkphp5.1 easywechat4 微信第三方开放平台
  • 初识 webpack
  • 分布式事物理论与实践
  • 官方新出的 Kotlin 扩展库 KTX,到底帮你干了什么?
  • 设计模式走一遍---观察者模式
  • 无服务器化是企业 IT 架构的未来吗?
  • 新年再起“裁员潮”,“钢铁侠”马斯克要一举裁掉SpaceX 600余名员工 ...
  • ​Base64转换成图片,android studio build乱码,找不到okio.ByteString接腾讯人脸识别
  • ​iOS实时查看App运行日志
  • ‌分布式计算技术与复杂算法优化:‌现代数据处理的基石
  • #HarmonyOS:基础语法
  • #微信小程序:微信小程序常见的配置传值
  • #我与Java虚拟机的故事#连载02:“小蓝”陪伴的日日夜夜
  • (2)nginx 安装、启停
  • (4)事件处理——(7)简单事件(Simple events)
  • (CVPRW,2024)可学习的提示:遥感领域小样本语义分割
  • (Forward) Music Player: From UI Proposal to Code
  • (k8s中)docker netty OOM问题记录
  • (Mirage系列之二)VMware Horizon Mirage的经典用户用例及真实案例分析
  • (多级缓存)多级缓存
  • (附源码)springboot家庭装修管理系统 毕业设计 613205
  • (附源码)ssm失物招领系统 毕业设计 182317
  • (函数)颠倒字符串顺序(C语言)
  • (没学懂,待填坑)【动态规划】数位动态规划
  • (免费领源码)Java#Springboot#mysql农产品销售管理系统47627-计算机毕业设计项目选题推荐
  • (十八)Flink CEP 详解
  • (十七)devops持续集成开发——使用jenkins流水线pipeline方式发布一个微服务项目
  • (四十一)大数据实战——spark的yarn模式生产环境部署
  • (一)appium-desktop定位元素原理
  • (源码分析)springsecurity认证授权
  • (转)memcache、redis缓存
  • (转)编辑寄语:因为爱心,所以美丽
  • (转载)微软数据挖掘算法:Microsoft 时序算法(5)
  • (轉)JSON.stringify 语法实例讲解
  • ***详解账号泄露:全球约1亿用户已泄露