当前位置：首页 > news >正文

构建LangChain应用程序的示例代码：14、使用LangChain、GPT和Activeloop的Deep Lake来处理代码库

news 来源：原创 2024/9/30 12:35:19

使用LangChain、GPT和Activeloop的Deep Lake来处理代码库

在本教程中

我们将使用Langchain + Activeloop的Deep Lake与GPT一起分析LangChain本身的代码库。

设计

准备数据：

使用langchain_community.document_loaders.TextLoader上传所有Python项目文件。我们将称这些文件为文档。
使用langchain_text_splitters.CharacterTextSplitter将所有文档拆分为块。
使用langchain.embeddings.openai.OpenAIEmbeddings和langchain_community.vectorstores.DeepLake将块嵌入并上传到DeepLake。

问答：

构建一个由langchain.chat_models.ChatOpenAI和langchain.chains.ConversationalRetrievalChain组成的链。
准备问题。
运行链以获取答案。

实现

集成准备

我们需要为外部服务设置密钥并安装必要的Python库。

!python3 -m pip install --upgrade langchain deeplake openai

设置OpenAI嵌入、Deep Lake多模态向量存储API并进行身份验证。

有关Deep Lake的完整文档，请访问 Activeloop文档和 API参考。

import os
from getpass import getpassos.environ["OPENAI_API_KEY"] = getpass("请输入OpenAI密钥")

如果您想创建自己的数据集并发布，请对Deep Lake进行身份验证。您可以在 Activeloop平台上获取API密钥。

activeloop_token = getpass("Activeloop Token:")
os.environ["ACTIVELOOP_TOKEN"] = activeloop_token

准备数据

加载所有仓库文件。这里我们假设此笔记本是作为langchain fork的一部分下载的，并且我们处理的是langchain repo的Python文件。

from langchain_community.document_loaders import TextLoaderroot_dir = "../../../../../libs"
docs = []for dirpath, dirnames, filenames in os.walk(root_dir):for file in filenames:if file.endswith(".py") and "*venv/" not in dirpath:try:loader = TextLoader(os.path.join(dirpath, file), encoding="utf-8")docs.extend(loader.load_and_split())except Exception:passprint(f"文档数量：{len(docs)}")

然后，将文件分块。

from langchain_text_splitters import CharacterTextSplittertext_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
texts = text_splitter.split_documents(docs)
print(f"块的数量：{len(texts)}")

然后嵌入块并上传到DeepLake。

这可能需要几分钟时间。

from langchain_openai import OpenAIEmbeddingsembeddings = OpenAIEmbeddings()

from langchain_community.vectorstores import DeepLakeusername = ""db = DeepLake.from_documents(texts, embeddings, dataset_path=f"hub://{username}/langchain-code", overwrite=True
)

可选：您也可以使用Deep Lake的托管张量数据库作为托管服务，并在那里运行查询。

from langchain_community.vectorstores import DeepLakedb = DeepLake.from_documents(texts, embeddings, dataset_path=f"hub://{username}/langchain-code", runtime={"tensor_db": True}
)

问答

首先加载数据集，构建检索器，然后构建对话链。

db = DeepLake(dataset_path=f"hub://{username}/langchain-code",read_only=True,embedding=embeddings,
)

retriever = db.as_retriever()
retriever.search_kwargs["distance_metric"] = "cos"
retriever.search_kwargs["fetch_k"] = 20
retriever.search_kwargs["maximal_marginal_relevance"] = True
retriever.search_kwargs["k"] = 20

您也可以使用Deep Lake过滤器指定用户定义的函数。

def filter(x):# 基于源代码过滤if "something" in x["text"].data()["value"]:return False# 打开下面的自定义过滤
retriever.search_kwargs['filter'] = filter

from langchain.chains import ConversationalRetrievalChain
from langchain_openai import ChatOpenAImodel = ChatOpenAI(model_name="gpt-3.5-turbo-0613"
)qa = ConversationalRetrievalChain.from_llm(model, retriever=retriever)

questions = ["类层次结构是什么？","哪些类是从Chain类派生的？","LangChain有哪些类型的检索器？",
]chat_history = []
qa_dict = {}for question in questions:result = qa({"question": question, "chat_history": chat_history})chat_history.append((question, result["answer"]))qa_dict[question] = result["answer"]print(f"-> 问题：{question} \n")print(f"答案：{result['answer']} \n")

print(qa_dict)

print(qa_dict["类层次结构是什么？"])
print(qa_dict["哪些类是从Chain类派生的？"])
print(qa_dict["LangChain有哪些类型的检索器？"])

总结

本教程介绍了如何结合使用LangChain、GPT和Deep Lake来分析和理解代码库。通过上传Python项目文件，将其拆分为块，并使用OpenAI的嵌入技术上传到Deep Lake，我们构建了一个问答系统，能够对代码库进行深入分析并回答问题。这个过程不仅展示了代码分析的自动化能力，还体现了AI技术在提升开发效率和代码质量方面的潜力。