当前位置: 首页 > news >正文

【AI大模型】这可能是最简单的本地大模型工具,无须部署,一键使用

目录

前言

LM-Studio​编辑

那么问题来了,为什么我要在本地部署大模型?

隐私性:

定制性:

成本和体验的优化:

工具功能特点和使用方式介绍:

首页提供搜索功能和一些模型的推荐

模型下载管理:

聊天界面:​编辑

模型偏好设置

使用速度体验:


前言

不需要配置环境,不需要部署,不需要自己找模型。小白也可以打开即用的本地大模型使用工具来了,下面就谈一谈我的使用感受和心得:

LM-Studio

那么问题来了,为什么我要在本地部署大模型?

个人使用下来,最吸引我的有这三点:

  1. 隐私性

网络大模型你的输入都是要上传的云端的,也就是你的隐私肯定会被大模型服务商所获得,这也是为什么那么多公司内部禁止使用网络大模型的原因。而且由于安全和审核机制,你所需要的或者发送的敏感的内容会被屏蔽。但是本地部署,数据完全由自己掌握。

  1. 定制性

目前大部分免费使用的大模型都是通用模型,就那几种,虽然可以通过提示词约束,但是内容生成大部分时候只是差强人意。本地部署,你将拥有整个开源世界的微调模型,医疗,法律,学术,动漫,感情,你即使不去定制自己的模型,也将拥有专业的各领域专家来帮你解决你能想到的大部分问题。更不必说定制自己的专属模型的可能性。

  1. 成本和体验的优化

首先承认大部分开源模型的上限是没有闭源模型高的,但是很多时候闭源模型的响应感受会受到网络,当前访问人数的限制。除非你愿意开会员,即使你愿意开会员,目前除了gpt-4o。大部门模型的响应是一个字一个字往外蹦的,尤其某些厂商做的恶心限制,离开网页就停止输出(某一言)如果你本地有一个还行的显卡,你会感受到原来大模型回答原来可以很迅速。

工具功能特点和使用方式介绍:

下载即exe,安装后即可使用,本体不到500m(提供mac和linux版本)

首页提供搜索功能和一些模型的推荐

你可以直接搜索并下载开源世界的大模型(目前看基本上huggingface,需要梯子)并下载使用,推荐模型会给出介绍。如他的来源是什么,他是多少参数的大模型,什么功能,是否经过量化处理,本地运行至少需求多少内存,占用多少硬盘空间。

模型下载管理:

注意!无论设置什么目录,模型目录必须有如下层级结构,否则会找不到模型:

聊天界面:

模型偏好设置

在聊天界面右上角有个设置功能,可以帮助我们更好的个性化使用,我会给出一些比较常用的参数设置解释

  1. 模型初始化角色配置

Preset 可以选择不同模型的初始化设置,你也可以设置自定义的模型使用配置,包括不限于,系统角色初始化提示词(system prompt),回答的随机程度,系统使用内存和显存的占比等。

  1. 模型回答内容控制:

设置模型记忆上下文长度(content length),采样温度(temperature)介于 0 和 1 之间。较高的值(如 0.7)将使输出更加随机,而较低的值(如 0.2)将使其更加集中和确定性,最大生成内容长度(tokens to generate),默认-1由大模型决定生成长度。

  1. 模型内容质量控制

Top k : 模型回复时所考虑的回复质量占总体回复的质量比例,总体来说比例越高,回答的质量越高,效果也越单一。

Repeat penalty: 模型重复惩罚,越高模型回答的内容重复性越低

CPU threads: 占用线程。经过尝试,增加占用线程对模型响应速度有少量提升,效果不明显。

  1. 显存内存使用占比:

没什么可说的,显存能撑住的情况下,拉到最大,内存的速度比显存慢多了。

使用速度体验:

2060 8g 显卡,7B Q4量化模型(基于llama3 微调的中文模型)。生成token速度为31t/s左右(比大部分网络模型响应快一倍左右),感受还是很不错的,如果完全不使用显存只使用内存,速度约5t/s 只能说能用。

kimi效果:

这个软件可以直接搜索官网mstudio.ai下载。

无法下载模型的小伙伴我也在我的公众号中打包了,我所使用的中文llama3模型(Llama3-8B-Chinese-Chat-q4_0-v2_1,和原始英文模型下载(Meta-Llama-3-8B-Instruct-Q4_K_M)已经软件的整合包下载。

后台回复 LmStudio 即可 !每天还有更多教程和AI资讯分享!

——因为热爱的AI漫谈社

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Controlnet作者放出新的大招 IC-Light,可以操控图像生成时的光照,对内容主体重新打光生成符合新背景环境光照的图片
  • XH连接器>KH-XH-5A-Z
  • 【全部更新完毕】2024电工杯A题数学建模详细思路代码文章分享
  • 【C++高阶(一)】继承
  • plt多子图设置
  • 如何使用Python中的生成器
  • C:技术面试总结
  • C# 实现腾讯云 IM 常用 REST API 之会话管理
  • Rust:WIndows 环境下交叉编译 Linux 平台程序
  • UIKit之猜图器Demo
  • aws msk加密方式和问控制连接方式
  • Sql语句DQL操作 查询操作单表 多表 子表(嵌套)
  • html入门
  • ATmega328P加硬件看门狗MAX824L看门狗
  • Oracle23ai新特性case when子句增加多条件判断
  • 《深入 React 技术栈》
  • 【Amaple教程】5. 插件
  • AWS实战 - 利用IAM对S3做访问控制
  • canvas 高仿 Apple Watch 表盘
  • emacs初体验
  • ES6语法详解(一)
  • HTML中设置input等文本框为不可操作
  • HTTP中的ETag在移动客户端的应用
  • leetcode-27. Remove Element
  • MQ框架的比较
  • React 快速上手 - 06 容器组件、展示组件、操作组件
  • React-redux的原理以及使用
  • Redux 中间件分析
  • TypeScript实现数据结构(一)栈,队列,链表
  • vue从创建到完整的饿了么(18)购物车详细信息的展示与删除
  • 阿里云购买磁盘后挂载
  • 笨办法学C 练习34:动态数组
  • 回顾2016
  • 如何胜任知名企业的商业数据分析师?
  • 使用Tinker来调试Laravel应用程序的数据以及使用Tinker一些总结
  • 思维导图—你不知道的JavaScript中卷
  • 小李飞刀:SQL题目刷起来!
  • 在weex里面使用chart图表
  • postgresql行列转换函数
  • python最赚钱的4个方向,你最心动的是哪个?
  • 阿里云API、SDK和CLI应用实践方案
  • 第二十章:异步和文件I/O.(二十三)
  • 国内开源镜像站点
  • ​io --- 处理流的核心工具​
  • ​LeetCode解法汇总2182. 构造限制重复的字符串
  • ​人工智能之父图灵诞辰纪念日,一起来看最受读者欢迎的AI技术好书
  • # 飞书APP集成平台-数字化落地
  • #define MODIFY_REG(REG, CLEARMASK, SETMASK)
  • #微信小程序(布局、渲染层基础知识)
  • (175)FPGA门控时钟技术
  • (51单片机)第五章-A/D和D/A工作原理-A/D
  • (poj1.2.1)1970(筛选法模拟)
  • (zz)子曾经曰过:先有司,赦小过,举贤才
  • (力扣)1314.矩阵区域和
  • (数位dp) 算法竞赛入门到进阶 书本题集