当前位置: 首页 > news >正文

AI大模型企业应用实战(14)-langchain的Embedding

1 安装依赖

! pip install --upgrade langchain
! pip install --upgrade openai==0.27.8
! pip install -U langchain-openai
! pip show openai
! pip show langchain
! pip show langchain-openai

2 Embed_documents

# 1. 导入所需的库
from langchain_openai import OpenAIEmbeddings# 创建 OpenAI 文本嵌入模型实例
e_model = OpenAIEmbeddings()# 将给定的文本列表嵌入到向量空间中
ebeddings = e_model.embed_documents(["你好","你好啊","你叫什么名字?","我叫王大锤","很高兴认识你大锤",]
)# 打印嵌入结果
print(ebeddings)

使用了 langchain_openai 库中的 OpenAIEmbeddings 类,将文本转换为向量表示:

  1. 导入所需的库
  2. 创建一个 OpenAIEmbeddings 实例,用于将文本转换为向量表示
  3. 定义一个包含五个中文句子的列表
  4. 使用 embed_documents 方法将给定的文本列表嵌入到向量空间中,并将结果存储在 ebeddings 变量中
  5. 打印嵌入结果

3 embed_query

embedded_query = e_model.embed_query("这段对话中提到了什么名字?")
embedded_query[:5]

4 嵌入向量缓存

!pip install -U langchain-community
# 导入所需的库
from langchain.embeddings import CacheBackedEmbeddings
from langchain.storage import LocalFileStore
from langchain.document_loaders import TextLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain_openai import OpenAIEmbeddings# 初始化 OpenAI 的嵌入模型
u_embeddings = OpenAIEmbeddings()# 创建一个本地文件存储对象,用于缓存嵌入向量
fs = LocalFileStore("./cache/")# 从字节存储中创建一个缓存嵌入对象
cached_embeddings = CacheBackedEmbeddings.from_bytes_store(u_embeddings,fs,namespace=u_embeddings.model,
)# 列出缓存文件存储中的所有键
list(fs.yield_keys())

5 加载文档,切分文档

将切分文档向量化,并存储在缓存中

# 加载文档,使用 TextLoader 从文件中加载文本内容
raw_documents = TextLoader("letter.txt").load()# 创建一个字符级别的文本分割器,用于将文档切分为固定大小的块
text_splitter = CharacterTextSplitter(chunk_size=620, chunk_overlap=0)# 使用文本分割器将原始文档切分为多个小段(chunks)
documents = text_splitter.split_documents(raw_documents)
  1. 使用 TextLoader 类从文件中加载了名为 "letter.txt" 的文档
  2. 然后,创建了一个 CharacterTextSplitter 对象,该对象用于将文档切分为固定大小的块(chunk),这里设置为每个块包含 620 个字符,且相邻块之间没有重叠
  3. 最后,使用 split_documents 方法将原始文档切分为多个小段,并将结果存储在 documents 列表中
! pip install faiss-cup
from langchain.vectorstores import  FAISS
%timeit -r  1 -n 1 db= FAISS.from_documents(documents,cached_embeddings)
#查看缓存中的键
list(fs.yield_keys())

关注我,紧跟本系列专栏文章,咱们下篇再续!

作者简介:魔都架构师,多家大厂后端一线研发经验,在分布式系统设计、数据平台架构和AI应用开发等领域都有丰富实践经验。

各大技术社区头部专家博主。具有丰富的引领团队经验,深厚业务架构和解决方案的积累。

负责:

  • 中央/分销预订系统性能优化

  • 活动&券等营销中台建设

  • 交易平台及数据中台等架构和开发设计

  • 车联网核心平台-物联网连接平台、大数据平台架构设计及优化

  • LLM应用开发

    目前主攻降低软件复杂性设计、构建高可用系统方向。

参考:

  • 编程严选网

    本文由博客一文多发平台 OpenWrite 发布!

相关文章:

  • Qt异常处理
  • 软件测试过程中用接口怎么将web系统的多页数据展示在1页
  • 罗盘时钟lua迷你世界
  • Parallels Desktop 19 for mac破解版安装激活使用指南
  • ArcgisEngine 释放内存案例
  • React 中的 ErrorBoundary
  • 数据分析:置换检验Permutation Test
  • 【JavaEE】Spring Web MVC详解
  • 【ajax核心05】宏任务与微任务
  • 【计算机网络】已解决:“‘ping‘ 不是内部或外部命令,也不是可运行的程序或批处理文件”报错
  • 2-14 基于matlab的GA优化算法优化车间调度问题
  • PMBOK® 第六版 管理项目知识
  • 如何使用Dockerfile创建容器映像
  • 解决WebStorm中不显示npm任务面板
  • JetBrains IDEA 新旧UI切换
  • $translatePartialLoader加载失败及解决方式
  • 【跃迁之路】【669天】程序员高效学习方法论探索系列(实验阶段426-2018.12.13)...
  • gcc介绍及安装
  • iOS动画编程-View动画[ 1 ] 基础View动画
  • Java知识点总结(JavaIO-打印流)
  • Leetcode 27 Remove Element
  • Mybatis初体验
  • Python中eval与exec的使用及区别
  • Spark学习笔记之相关记录
  • Spring技术内幕笔记(2):Spring MVC 与 Web
  • 初识MongoDB分片
  • 搭建gitbook 和 访问权限认证
  • 那些年我们用过的显示性能指标
  • 如何在 Tornado 中实现 Middleware
  • 深度解析利用ES6进行Promise封装总结
  • 通过git安装npm私有模块
  • 原生js练习题---第五课
  • 自制字幕遮挡器
  • 你对linux中grep命令知道多少?
  • 摩拜创始人胡玮炜也彻底离开了,共享单车行业还有未来吗? ...
  • ​浅谈 Linux 中的 core dump 分析方法
  • (01)ORB-SLAM2源码无死角解析-(66) BA优化(g2o)→闭环线程:Optimizer::GlobalBundleAdjustemnt→全局优化
  • (04)Hive的相关概念——order by 、sort by、distribute by 、cluster by
  • (2)空速传感器
  • (2024最新)CentOS 7上在线安装MySQL 5.7|喂饭级教程
  • (33)STM32——485实验笔记
  • (Redis使用系列) SpirngBoot中关于Redis的值的各种方式的存储与取出 三
  • (切换多语言)vantUI+vue-i18n进行国际化配置及新增没有的语言包
  • (三)Kafka 监控之 Streams 监控(Streams Monitoring)和其他
  • (转)全文检索技术学习(三)——Lucene支持中文分词
  • . Flume面试题
  • .gitignore文件—git忽略文件
  • .Net CF下精确的计时器
  • .Net Core webapi RestFul 统一接口数据返回格式
  • .NetCore发布到IIS
  • .NET是什么
  • .Net下C#针对Excel开发控件汇总(ClosedXML,EPPlus,NPOI)
  • /tmp目录下出现system-private文件夹解决方法
  • /usr/bin/perl:bad interpreter:No such file or directory 的解决办法
  • @AutoConfigurationPackage的使用