当前位置: 首页 > news >正文

AI大模型对话(上下文)缓存能力

互联网应用中,为了提高数据获取的即时性,产生了各种分布式缓存组件,比如Redis、Memcached等等。

大模型时代,除非是免费模型,否则每次对话都会花费金钱来进行对话,对话是不是也可以参照缓存的做法来提高命中率,即时响应提高需求呢。

近日,月之暗面提出了上下文缓存的概念。

Context Caching (上下文缓存)是一种高效的数据管理技术,它允许系统预先存储那些可能会被频繁请求的大量数据或信息。这样,当您再次请求相同信息时,系统可以直接从缓存中快速提供,而无需重新计算或从原始数据源中检索,从而节省时间和资源。

不过定价还是比较贵的,按时长计算。特别是对于智能客户场景,用户提问的问题总归是趋于收敛的,所以可以节省不少资金花费。

在这里插入图片描述
同样,使用分布式缓存的做法,一样可以完成对话缓存,每次提问先经过模型比对,因为有语义理解能力,即便不是同一句话,但意思相同,一样可以认为是命中,命中后就可以直接从缓存中取出数据来响应用户。

Context Caching 特别适合于用频繁请求,重复引用大量初始上下文的情况,通过重用已缓存的内容,可以显著提高效率并降低费用。因为这个功能具有强烈的业务属性,我们下面简单列举一些合适的业务场景:

  1. 提供大量预设内容的 QA Bot,例如 Kimi API 小助手。
  2. 针对固定的文档集合的频繁查询,例如上市公司信息披露问答工具。
  3. 对静态代码库或知识库的周期性分析,例如各类 Copilot Agent。
  4. 瞬时流量巨大的爆款 AI 应用,例如哄哄模拟器,LLM Riddles。
  5. 交互规则复杂的 Agent 类应用,例如什么值得买 Kimi+ 等。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 计算机网络-IP组播基础
  • 业界数据架构的演变
  • Linux 系统管理4——账号管理
  • MySQL篇-SQL优化实战
  • vulnhub--IMF
  • 【AI原理解析】—支持向量机原理
  • requests 发送一个 json 格式的 post 请求
  • Node.js实现一个文章生成器
  • YOLOv8改进 | 注意力机制 | 结合静态和动态上下文信息的注意力机制
  • 2024年6月份找工作和面试总结
  • RabbitMQ 更改服务端口号
  • 力扣1895.最大的幻方
  • 51单片机嵌入式开发:3、STC89C52操作8八段式数码管原理
  • NativeMemoryTracking查看java内存信息
  • udp发送数据如果超过1个mtu时,抓包所遇到的问题记录说明
  • php的引用
  • Angular 响应式表单 基础例子
  • angular组件开发
  • IDEA常用插件整理
  • Java-详解HashMap
  • LeetCode刷题——29. Divide Two Integers(Part 1靠自己)
  • linux安装openssl、swoole等扩展的具体步骤
  • maven工程打包jar以及java jar命令的classpath使用
  • mysql_config not found
  • MySQL主从复制读写分离及奇怪的问题
  • Nginx 通过 Lua + Redis 实现动态封禁 IP
  • node和express搭建代理服务器(源码)
  • Sublime text 3 3103 注册码
  • 诡异!React stopPropagation失灵
  • 京东美团研发面经
  • 经典排序算法及其 Java 实现
  • 腾讯视频格式如何转换成mp4 将下载的qlv文件转换成mp4的方法
  • 自动记录MySQL慢查询快照脚本
  • 看到一个关于网页设计的文章分享过来!大家看看!
  • “十年磨一剑”--有赞的HBase平台实践和应用之路 ...
  • ‌移动管家手机智能控制汽车系统
  • # Redis 入门到精通(七)-- redis 删除策略
  • #Datawhale X 李宏毅苹果书 AI夏令营#3.13.2局部极小值与鞍点批量和动量
  • (1)Jupyter Notebook 下载及安装
  • (BFS)hdoj2377-Bus Pass
  • (过滤器)Filter和(监听器)listener
  • (机器学习的矩阵)(向量、矩阵与多元线性回归)
  • (四)JPA - JQPL 实现增删改查
  • (算法)大数的进制转换
  • (一)RocketMQ初步认识
  • (已更新)关于Visual Studio 2019安装时VS installer无法下载文件,进度条为0,显示网络有问题的解决办法
  • (转) Android中ViewStub组件使用
  • . NET自动找可写目录
  • ./和../以及/和~之间的区别
  • .NET 4 并行(多核)“.NET研究”编程系列之二 从Task开始
  • .Net Core中Quartz的使用方法
  • ?
  • [2016.7.test1] T2 偷天换日 [codevs 1163 访问艺术馆(类似)]
  • [CUDA手搓]从零开始用C++ CUDA搭建一个卷积神经网络(LeNet),了解神经网络各个层背后算法原理
  • [ffmpeg] av_opt_set 解析