当前位置：首页 > news >正文

【大模型专栏—实战篇】基于RAG从0到1搭建AI科研知识库

news 来源：原创 2024/9/20 13:36:10

在这里插入图片描述

大模型专栏介绍

😊你好，我是小航，一个正在变秃、变强的文艺倾年。

🔔本文为大模型专栏子篇，大模型专栏将持续更新，主要讲解大模型从入门到实战打怪升级。如有兴趣，欢迎您的阅读。

💡适合人群：本科生、研究生、大模型爱好者，期待与你一同探索、学习、进步，一起卷起来叭！

🔗篇章一：本篇主要讲解Python基础、数据分析三件套、机器学习、深度学习、CUDA等基础知识、学习使用AutoDL炼丹
🔗篇章二：本篇主要讲解基本的科研知识、认识数据和显卡、语言模型如RNN、LSTM、Attention、Transformer、Bert、T5、GPT、BLOOM、LLama、Baichuan、ChatGLM等系列、强化学习教程、大模型基础知识及微调等
🔗篇章三：本篇主要讲解智能对话、大模型基础实战如Ollama、Agent、QLoar、Deepspeed、RAG、Mobile Agent等、大模型领域前沿论文总结及创新点汇总

介绍

背景：大型语言模型（LLM）存在一些固有的局限性，如“模型幻觉问题”、“时效性问题”和“数据安全问题”。
介绍：RAG 是检索增强生成（Retrieval Augmented Generation ）的简称，它为大语言模型 (LLMs) 提供了从数据源检索信息的能力，并以此为基础生成回答。
- 步骤1：问题理解，准确把握用户的意图。
- 步骤2：知识检索，从知识库中相关的知识检索。【难点，用户提问可能以多种方式表达，而知识库的信息来源可能是多样的，包括PDF、PPT、Neo4j等格式。】
- 步骤3：答案生成，将检索结果与问题。
优点：
- 提高准确性和相关性。
- 改善时效性，使模型适应当前事件和知识。
- 降低生成错误风险，依赖检索系统提供的准确信息。

以下是RAG输出到大型语言模型的典型模板：

你是一个{task}方面的专家，请结合给定的资料，并回答最终的问题。请如实回答，如果问题在资料中找不到答案，请回答不知道。问题：{question}资料：
- {information1}
- {information2}
- {information3}

其中，{task}代表任务的领域或主题，{question}是最终要回答的问题，而{information1}、{information2}等则是提供给模型的外部知识库中的具体信息。

分类

参考论文：Retrieval-Augmented Generation for Large Language Models: A Survey

RAG可以根据技术复杂度，分为三种：

Naive RAG：Naive RAG是RAG技术的最基本形式，也被称为经典RAG。包括索引、检索、生成三个基本步骤。索引阶段将文档库分割成短的Chunk，并构建向量索引。检索阶段根据问题和Chunks的相似度检索相关文档片段。生成阶段以检索到的上下文为条件，生成问题的回答。
Advanced RAG：Advanced RAG在Naive RAG的基础上进行优化和增强。包含额外处理步骤，分别在数据索引、检索前和检索后进行。包括更精细的数据清洗、设计文档结构和添加元数据，以提升文本一致性、准确性和检索效率。在检索前使用问题的重写、路由和扩充等方式对齐问题和文档块之间的语义差异。在检索后通过重排序避免“Lost in the Middle”现象，或通过上下文筛选与压缩缩短窗口长度。
Modular RAG：Modular RAG引入更多具体功能模块，例如查询搜索引擎、融合多个回答等。技术上融合了检索与微调、强化学习等。流程上对RAG模块进行设计和编排，出现多种不同RAG模式。提供更大灵活性，系统可以根据应用需求选择合适的功能模块组合。模块化RAG的引入使得系统更自由、灵活，适应不同场景和需求。

RAG和SFT对比：

特性	RAG技术	SFT模型微调
知识更新	实时更新检索库，适合动态数据，无需频繁重训	存储静态信息，更新知识需要重新训练
外部知识	高效利用外部资源，适合各类数据库	可对齐外部知识，但对动态数据源不够灵活
数据处理	数据处理需求低	需构建高质量数据集，数据限制可能影响性能
模型定制化	专注于信息检索和整合，定制化程度低	可定制行为，风格及领域知识
可解释性	答案可追溯，解释性高	解释性相对低
计算资源	需要支持检索的计算资源，维护外部数据源	需要训练数据集和微调资源
延迟要求	数据检索可能增加延迟	微调后的模型反应更快
减少幻觉	基于实际数据，幻觉减少	通过特定域训练可减少幻觉，但仍然有限
道德和隐私	处理外部文本数据时需要考虑隐私和道德问题	训练数据的敏感内容可能引发隐私问题

实战 - 搭建 RAG Demo

预备

1.开通免费试用阿里云PAI—DSW

链接：https://free.aliyun.com/?searchKey=PAI

开通PAI-DSW 试用，可获得 5000算力时！有效期3个月！

在这里插入图片描述
2.在魔搭社区进行授权

链接：https://www.modelscope.cn/my/mynotebook/authorization

在这里插入图片描述

创建实例：
这里一定要选择支持资源包抵扣的服务器

创建实例后打开，能看到这个界面就成功啦！

在这里插入图片描述

索引

新建bge-small-zh-v1.5-download.py，用于向量模型下载：

# 向量模型下载
from modelscope import snapshot_download
model_dir = snapshot_download("AI-ModelScope/bge-small-zh-v1.5", cache_dir='.')

/usr/local/lib/python3.10/site-packages/tqdm/auto.py:21: TqdmWarning: IProgress not found. Please update jupyter and ipywidgets. See https://ipywidgets.readthedocs.io/en/stable/user_install.htmlfrom .autonotebook import tqdm as notebook_tqdm
Downloading: 100%|██████████| 190/190 [00:00<00:00, 328B/s]
Downloading: 100%|██████████| 776/776 [00:00<00:00, 1.48kB/s]
Downloading: 100%|██████████| 124/124 [00:00<00:00, 266B/s]
Downloading: 100%|██████████| 47.0/47.0 [00:00<00:00, 92.2B/s]
Downloading: 100%|██████████| 91.4M/91.4M [00:00<00:00, 120MB/s] 
Downloading: 100%|██████████| 349/349 [00:00<00:00, 715B/s]
Downloading: 100%|██████████| 91.4M/91.4M [00:00<00:00, 123MB/s] 
Downloading: 100%|██████████| 27.5k/27.5k [00:00<00:00, 54.9kB/s]
Downloading: 100%|██████████| 52.0/52.0 [00:00<00:00, 65.0B/s]
Downloading: 100%|██████████| 125/125 [00:00<00:00, 253B/s]
Downloading: 100%|██████████| 429k/429k [00:00<00:00, 703kB/s]
Downloading: 100%|██████████| 367/367 [00:00<00:00, 759B/s]
Downloading: 100%|██████████| 107k/107k [00:00<00:00, 220kB/s]

封装向量模型类 EmbeddingModel：

from typing import List
from transformers import AutoTokenizer, AutoModel
import torch# 定义向量模型类
class EmbeddingModel:"""用于加载预训练的模型并计算文本的嵌入向量的类。"""def __init__(self, path: str) -> None:"""初始化方法，加载预训练的分词器和模型。:param path: 预训练模型的路径。"""# 加载预训练的分词器self.tokenizer = AutoTokenizer.from_pretrained(path)# 加载预训练的模型，并将其移动到GPU上self.model = AutoModel.from_pretrained(path).cuda()print(f'Loading EmbeddingModel from {path}.')# 为了充分发挥GPU矩阵计算的优势，输入和输出都是一个 List，即多条文本和他们的向量表示。def get_embeddings(self, texts: List[str]) -> List[List[float]]:"""计算文本列表的嵌入向量。:param texts: 要计算嵌入向量的文本列表。:return: 嵌入向量的列表。"""# 使用分词器对文本进行编码encoded_input = self.tokenizer(texts, padding=True, truncation=True, return_tensors='pt')# 将编码后的输入数据移动到GPU上encoded_input = {k: v.cuda() for k, v in encoded_input.items()}# 不计算梯度，以提高计算效率with torch.no_grad():# 将编码后的输入传递给模型，获取模型输出model_output = self.model(**encoded_input)# 获取句子的嵌入向量，这里假设模型输出的第一个元素包含嵌入信息sentence_embeddings = model_output[0][:, 0]# 归一化嵌入向量sentence_embeddings = torch.nn.functional.normalize(sentence_embeddings, p=2, dim=1)# 将嵌入向量转换为列表格式并返回return sentence_embeddings.tolist()

测试：

print("> Create embedding model...")
embed_model_path = './AI-ModelScope/bge-small-zh-v1___5'
embed_model = EmbeddingModel(embed_model_path)"""
> Create embedding model...
Loading EmbeddingModel from ./AI-ModelScope/bge-small-zh-v1___5.
"""

检索

编写一个知识库文档knowledge.txt：

广州大学（Guangzhou University），简称广大（GU），是由广东省广州市人民政府举办的全日制普通高等学校，实行省市共建、以市为主的办学体制，是国家“111计划”建设高校、广东省和广州市高水平大学重点建设高校。广州大学的办学历史可以追溯到1927年创办的私立广州大学；1951年并入华南联合大学；1983年筹备复办，1984年定名为广州大学；2000年7月，经教育部批准，与广州教育学院（1953年创办）、广州师范学院（1958年创办）、华南建设学院西院（1984年创办）、广州高等师范专科学校（1985年创办）合并组建成立新的广州大学。
郑州机械研究所有限公司（以下简称郑机所）的前身机械科学研究院1956年始建于北京，是原机械工业部直属一类综合研究院所，现隶属于国资委中国机械科学研究总院集团有限公司。郑机所伴随着共和国的成长一路走来，应运而生于首都，碧玉年华献中原。多次搬迁，驻地从北京经漯河再到郑州；数易其名，由机械科学研究院到漯河机械研究所再到郑州机械研究所，现为郑州机械研究所有限公司。1956～1958年应运而生：依据全国人大一届二次会议的提议和第一机械工业部的决策，1956年3月6日，第一机械工业部发文《（56）机技研究第66号》，通知“机械科学实验研究院”（后改名为“机械科学研究院”）在北京成立。1959～1968年首次创业：承担国家重大科研项目与开发任务，以及行业发展规划以及标准制定等工作，如“九大设备”的若干关键技术等。1969～1972年搬迁河南：1969年按照“战备疏散”的要求，机械科学研究院主体迁建河南漯河，成立“漯河机械研究所”；1972年因发展需要，改迁河南郑州，成立郑州机械研究所。1973～1998年二次创业：先后隶属于国家机械工业委员会、机械电子工业部、机械工业部；1981年4月罗干由铸造室主任升任副所长，同年经国务院批准具备硕士学位授予权；1985年“葛洲坝二、三江工程及其水电机组项目”荣获国家科技进步特等奖。1999～2016年发展壮大：1999年转企改制，隶属于国资委中国机械科学研究总院；2008年被河南省首批认定为“高新技术企业”；2011年获批组建新型钎焊材料与技术国家重点实验室；2014年被工信部认定为“国家技术创新示范企业”；历经十多年开发出填补国内外空白的大型齿轮齿条试验装备，完成了对三峡升船机齿条42.2万次应力循环次数的疲劳寿命试验测试；营业收入从几千万发展到近6亿；2017年至今协同发展：2017年经公司制改制，更名为郑州机械研究所有限公司，一以贯之地坚持党对国有企业的领导，充分发挥党委把方向、管大局、保落实的领导作用；一以贯之地建立现代企业制度，持续推进改革改制，努力实现以高质量党建引领郑机所高质量发展。 
非洲野犬，属于食肉目犬科非洲野犬属哺乳动物。 又称四趾猎狗或非洲猎犬； 其腿长身短、体形细长；身上有鲜艳的黑棕色、黄色和白色斑块；吻通常黑色，头部中间有一黑带，颈背有一块浅黄色斑；尾基呈浅黄色，中段呈黑色，末端为白色，因此又有“杂色狼”之称。 非洲野犬分布于非洲东部、中部、南部和西南部一带。 栖息于开阔的热带疏林草原或稠密的森林附近，有时也到高山地区活动。其结群生活，没有固定的地盘，一般在一个较大的范围内逗留时间较长。非洲野犬性情凶猛，以各种羚羊、斑马、啮齿类等为食。奔跑速度仅次于猎； 雌犬妊娠期为69-73天，一窝十只仔，哺乳期持续6-12个星期。 其寿命11年。 非洲野犬正处在灭绝边缘，自然界中仅存两三千只。 非洲野犬被列入《世界自然保护联盟濒危物种红色名录》中，为濒危（EN）保护等级。 ",非洲野犬共有42颗牙齿（具体分布为：i=3/3；c=1/1；p=4/4；m=2/3x2），前臼齿比相对比其他犬科动物要大，因此可以磨碎大量的骨头，这一点很像鬣狗。 主要生活在非洲的干燥草原和半荒漠地带，活跃于草原、稀树草原和开阔的干燥灌木丛，甚至包括撒哈拉沙漠南部一些多山的地带。非洲野犬从来不到密林中活动。

定义一个向量库索引类 VectorStoreIndex

# 定义向量库索引类
class VectorStoreIndex:"""用于创建向量库索引，计算文本之间的相似度并进行查询的类。"""def __init__(self, document_path: str, embed_model: EmbeddingModel) -> None:"""初始化方法，从文件中加载文档并计算它们的嵌入向量。:param document_path: 包含文档的文件路径。:param embed_model: 用于生成文档嵌入向量的模型实例。"""self.documents = []  # 存储文档文本的列表# 从文件中读取文档并添加到文档列表中for line in open(document_path, 'r', encoding='utf-8'):line = line.strip()self.documents.append(line)# 存储嵌入模型的引用self.embed_model = embed_model# 为所有文档计算嵌入向量self.vectors = self.embed_model.get_embeddings(self.documents)# 打印加载文档的数量和文件路径print(f'Loading {len(self.documents)} documents for {document_path}.')def get_similarity(self, vector1: List[float], vector2: List[float]) -> float:"""计算两个向量之间的余弦相似度。:param vector1: 第一个向量。:param vector2: 第二个向量。:return: 两个向量之间的余弦相似度。"""# 计算两个向量的点积dot_product = np.dot(vector1, vector2)# 计算两个向量的模magnitude = np.linalg.norm(vector1) * np.linalg.norm(vector2)# 如果模为0，返回0以避免除以0的错误if not magnitude:return 0# 返回归一化的点积作为余弦相似度return dot_product / magnitudedef query(self, question: str, k: int = 1) -> List[str]:"""根据问题查询最相似的文档。:param question: 查询的问题文本。:param k: 返回最相似文档的数量，默认为1。:return: 最相似的文档列表。"""# 为问题文本计算嵌入向量question_vector = self.embed_model.get_embeddings([question])[0]# 计算问题向量与所有文档向量的相似度result = np.array([self.get_similarity(question_vector, vector) for vector in self.vectors])# 获取最相似的k个文档的索引return np.array(self.documents)[result.argsort()[-k:][::-1]].tolist()

测试：

print("> Create index...")
doecment_path = './knowledge.txt'
index = VectorStoreIndex(doecment_path, embed_model)question = '介绍一下广州大学'
print('> Question:', question)
context = index.query(question)
print('> Context:', context)

如果知识库很大，需要将知识库切分成多个batch，然后分批次送入向量模型。这里，因为我们的知识库比较小，所以就直接传到了get_embeddings() 函数。

返回结果：

在这里插入图片描述
我们传入用户问题介绍一下广州大学，可以看到，准确地返回了知识库中的第一条知识。

生成

编写Yuan2-2B-Mars-hf-download.py，下载大模型Yuan2-2B-Mars-hf：

# 源大模型下载
from modelscope import snapshot_download
model_dir = snapshot_download('IEITYuan/Yuan2-2B-Mars-hf', cache_dir='.')

定义一个大语言模型类 LLM：

# 导入必要的库
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch# 定义大语言模型类
class LLM:"""用于加载和使用Yuan2.0大型语言模型的类。"""def __init__(self, model_path: str) -> None:"""初始化方法，加载预训练的分词器和模型。:param model_path: 预训练模型的路径。"""print("Creat tokenizer...")  # 打印创建分词器的信息# 加载预训练的分词器，设置不自动添加结束和开始标记self.tokenizer = AutoTokenizer.from_pretrained(model_path, add_eos_token=False, add_bos_token=False, eos_token='<eod>')# 向分词器添加特殊标记self.tokenizer.add_tokens(['<sep>', '<pad>', '<mask>', '<predict>', '<FIM_SUFFIX>', '<FIM_PREFIX>', '<FIM_MIDDLE>','<commit_before>', '<commit_msg>', '<commit_after>', '<jupyter_start>', '<jupyter_text>','<jupyter_code>', '<jupyter_output>', '<empty_output>'], special_tokens=True)print("Creat model...")  # 打印创建模型的信息# 加载预训练的因果语言模型，并将其设置为半精度浮点数以提高计算效率self.model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch.bfloat16, trust_remote_code=True).cuda()# 打印加载模型的信息print(f'Loading Yuan2.0 model from {model_path}.')def generate(self, question: str, context: List[str]):"""根据问题和上下文生成回答。:param question:  用户提问，是一个str。:param context: 检索到的上下文信息，是一个List，默认是[]，代表没有使用RAG。"""# 如果提供了上下文，构建提示信息if context:prompt = f'背景：{" ".join(context)}\n问题：{question}\n请基于背景，回答问题。'else:prompt = question# 在提示信息后添加分隔符prompt += "<sep>"# 使用分词器将提示信息转换为模型输入的格式inputs = self.tokenizer(prompt, return_tensors="pt")["input_ids"].cuda()# 使用模型生成文本outputs = self.model.generate(inputs, do_sample=False, max_length=1024)# 解码生成的文本output = self.tokenizer.decode(outputs[0])# 打印生成的文本，只显示分隔符之后的部分print(output.split("<sep>")[-1])

测试：

print("> Create Yuan2.0 LLM...")
model_path = './IEITYuan/Yuan2-2B-Mars-hf'
llm = LLM(model_path)print('> Without RAG:')
llm.generate(question, [])
print('> With RAG:')
llm.generate(question, context)

在这里插入图片描述

打包

编写requirements.txt：

transformers
torch
numpy

编写安装脚本：pip_install.sh

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple -r requirements.txt

新建main.py

from common import constants
from generation.llm import LLM
from indexing.embedding import EmbeddingModel
from retrieval.vector import VectorStoreIndexdef main():print("> Create embedding model...")embed_model_path = constants.EMBED_MODEL_PATHembed_model = EmbeddingModel(embed_model_path)print("> Create index...")document_path = constants.DOCUMENT_PATHindex = VectorStoreIndex(document_path, embed_model)question = '介绍一下广州大学'print('> Question:', question)context = index.query(question)print('> Context:', context)print("> Create Yuan2.0 LLM...")model_path = constants.MODEL_PATHllm = LLM(model_path)print('> Without RAG:')llm.generate(question, [])print('> With RAG:')llm.generate(question, context)if __name__ == '__main__':main()

在这里插入图片描述

部署

将代码部署到Github：https://github.com/itxaiohanglover/rag_demo

然后进入终端，导入写好的代码：

在这里插入图片描述

下载模型：

python setup.py

启动代码：

python main.py

在这里插入图片描述

实战 - AI科研助手

在这里插入图片描述

项目主要包含一个Streamlit开发的客户端，以及一个部署好的浪潮源大模型的服务端。

客户端接收到用户上传的PDF后，发送到服务端。服务端首先完成PDF内容解析，然后拼接摘要Prompt并输入源大模型，得到模型输出结果后，返回给客户端并展示给用户。
如果用户接下来进行提问，客户端将用户请求发送到服务端，服务端进行Embedding和Faiss检索，然后将检索到的chunks与用户请求拼接成Prompt并输入到源大模型，得到模型输出结果后，返回给客户端进行结构化，然后展示给用户。

项目结构

在这里插入图片描述
主模块：main.py

# 导入必要的库和模块
from langchain_community.document_loaders import PyPDFLoader  # 用于加载PDF文件的加载器
from common import constants  # 导入常量配置
import streamlit as st  # 导入Streamlit库，用于构建Web界面from llm.yuan2_llm import Yuan2_LLM  # 导入自定义的大型语言模型类
from langchain_huggingface import HuggingFaceEmbeddings  # 导入HuggingFace嵌入模型
# 导入提示模板类
from prompts.chatbot_template import ChatBot
from prompts.summarizer_template import Summarizer# 定义模型路径
model_path = constants.MODEL_PATH  # 从常量配置中获取模型路径# 定义向量模型路径
embedding_model_path = constants.EMBED_MODEL_PATH  # 从常量配置中获取向量模型路径# 定义一个函数，用于获取llm和embeddings
@st.cache_resource  # 使用Streamlit的缓存装饰器来缓存函数的结果
def get_models():llm = Yuan2_LLM(model_path)  # 创建Yuan2_LLM实例# 定义模型和编码的参数model_kwargs = {'device': 'cuda'}encode_kwargs = {'normalize_embeddings': True}  # 设置为True以计算余弦相似度embeddings = HuggingFaceEmbeddings(model_name=embedding_model_path,  # 向量模型的名称或路径model_kwargs=model_kwargs,  # 模型参数encode_kwargs=encode_kwargs,  # 编码参数)return llm, embeddings  # 返回创建的LLM和嵌入模型实例def main():# 创建一个标题st.title('💬 Yuan2.0 AI科研助手')  # 设置Streamlit应用的标题# 获取llm和embeddingsllm, embeddings = get_models()  # 调用get_models函数获取模型实例# 初始化summarizersummarizer = Summarizer(llm)  # 创建Summarizer实例用于生成文本摘要# 初始化ChatBotchatbot = ChatBot(llm, embeddings)  # 创建ChatBot实例用于回答问题# 上传pdfuploaded_file = st.file_uploader("Upload your PDF", type='pdf')  # 创建文件上传器，允许用户上传PDF文件if uploaded_file:# 加载上传PDF的内容file_content = uploaded_file.read()  # 读取上传的文件内容# 写入临时文件temp_file_path = "temp.pdf"  # 定义临时文件路径with open(temp_file_path, "wb") as temp_file:temp_file.write(file_content)  # 将文件内容写入临时文件# 加载临时文件中的内容loader = PyPDFLoader(temp_file_path)  # 创建PDF加载器实例docs = loader.load()  # 使用加载器加载文档内容st.chat_message("assistant").write(f"正在生成论文概括，请稍候...")  # 在Streamlit界面上显示消息# 生成概括summary = summarizer.summarize(docs)  # 调用summarizer的summarize方法生成摘要# 在聊天界面上显示模型的输出st.chat_message("assistant").write(summary)  # 显示生成的摘要# 接收用户问题if query := st.text_input("Ask questions about your PDF file"):  # 创建文本输入框，允许用户输入问题# 检索 + 生成回复chunks, response = chatbot.run(docs, query)  # 调用chatbot的run方法进行检索和生成回答# 在聊天界面上显示模型的输出st.chat_message("assistant").write(f"正在检索相关信息，请稍候...")  # 显示检索信息的消息st.chat_message("assistant").write(chunks)  # 显示检索到的文档片段st.chat_message("assistant").write(f"正在生成回复，请稍候...")  # 显示生成回答的消息st.chat_message("assistant").write(response)  # 显示生成的回答if __name__ == '__main__':main()  # 如果是主程序，则调用main函数运行应用

提示词模块：

chatbot_template.py

from langchain_core.prompts import PromptTemplate
from langchain_text_splitters import RecursiveCharacterTextSplitter  # 导入文本分割器
from langchain.chains.question_answering import load_qa_chain  # 导入load_qa_chain，用于加载问答链
from langchain_community.vectorstores import FAISS
# 定义聊天机器人模板
chatbot_template = '''
假设你是一个AI科研助手，请基于背景，简要回答问题。背景：
{context}问题：
{question}
'''.strip()# 定义ChatBot类
class ChatBot:"""ChatBot类用于处理用户提问，并基于文档内容生成回答。"""def __init__(self, llm, embeddings):self.prompt = PromptTemplate(input_variables=["text"],template=chatbot_template)  # 定义聊天机器人提示模板self.chain = load_qa_chain(llm=llm, chain_type="stuff", prompt=self.prompt)  # 加载问答链self.embeddings = embeddings  # 嵌入模型，用于文档向量化# 加载文本分割器，用于将长文本切分成小块self.text_splitter = RecursiveCharacterTextSplitter(chunk_size=450,chunk_overlap=10,length_function=len)def run(self, docs, query):"""处理用户提问，生成回答。:param docs: 文档列表，每个文档包含page_content属性:param query: 用户的提问:return: 检索到的文档片段和生成的回答"""# 读取所有文档内容text = ''.join([doc.page_content for doc in docs])# 使用文本分割器切分成chunksall_chunks = self.text_splitter.split_text(text=text)# 将文本chunks转换为向量并存储VectorStore = FAISS.from_texts(all_chunks, embedding=self.embeddings)# 检索与提问最相似的chunkschunks = VectorStore.similarity_search(query=query, k=1)# 使用问答链生成回答response = self.chain.run(input_documents=chunks, question=query)return chunks, response  # 返回检索到的文档片段和生成的回答

summarizer_template.py

# 导入必要的库和模块
from langchain.chains.llm import LLMChain  # 导入LLMChain，用于构建基于LLM的生成链
from langchain_core.prompts import PromptTemplate  # 导入PromptTemplate，用于构建提示模板# 定义摘要模板
summarizer_template = """
假设你是一个AI科研助手，请用一段话概括下面文章的主要内容，200字左右。{text}
"""# 定义Summarizer类
class Summarizer:"""Summarizer类用于将长文本内容压缩成简短的摘要。"""def __init__(self, llm):self.llm = llm  # LLM实例，用于生成文本self.prompt = PromptTemplate(input_variables=["text"],template=summarizer_template)  # 定义摘要提示模板self.chain = LLMChain(llm=self.llm, prompt=self.prompt)  # 创建LLMChain实例，用于生成摘要def summarize(self, docs):"""从文档中生成摘要。:param docs: 文档列表，其中每个文档包含page_content属性:return: 生成的摘要文本"""# 从第一页中获取摘要内容，假设摘要位于'ABSTRACT'和'KEY WORDS'之间content = docs[0].page_content.split('ABSTRACT')[1].split('KEY WORDS')[0]summary = self.chain.run(content)  # 使用LLMChain生成摘要return summary  # 返回生成的摘要

源大模型模块：
yuan2_llm.py

# 导入必要的库
from typing import List, Optional, Any
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch# 导入常量配置
from common import constants# 导入LLM基类
from langchain.llms.base import LLM
from langchain.callbacks.manager import CallbackManagerForLLMRun# 定义模型路径
model_path = constants.MODEL_PATH# 定义模型数据类型
torch_dtype = torch.bfloat16# 定义源大模型类
class Yuan2_LLM(LLM):"""YUAN2_LLM类用于加载和使用预训练的大型语言模型。它继承自langchain的LLM基类，并实现了自己的_call方法来生成文本。"""# 类变量，用于存储分词器和模型实例tokenizer: AutoTokenizer = Nonemodel: AutoModelForCausalLM = Nonedef __init__(self, model_path: str):super().__init__()# 加载预训练的分词器和模型print("Creating tokenizer...")self.tokenizer = AutoTokenizer.from_pretrained(model_path, add_eos_token=False, add_bos_token=False,eos_token='<eod>')# 添加特殊标记self.tokenizer.add_tokens(['<sep>', '<pad>', '<mask>', '<predict>', '<FIM_SUFFIX>', '<FIM_PREFIX>', '<FIM_MIDDLE>', '<commit_before>','<commit_msg>', '<commit_after>', '<jupyter_start>', '<jupyter_text>', '<jupyter_code>','<jupyter_output>', '<empty_output>'], special_tokens=True)print("Creating model...")self.model = AutoModelForCausalLM.from_pretrained(model_path, torch_dtype=torch_dtype,trust_remote_code=True).cuda()def _call(self,prompt: str,stop: Optional[List[str]] = None,run_manager: Optional[CallbackManagerForLLMRun] = None,**kwargs: Any,) -> str:"""生成文本的方法，根据输入的prompt生成响应。:param prompt: 输入的文本提示:param stop: 停止生成的标记列表:param run_manager: 运行管理器，用于监控和管理生成过程:param kwargs: 其他可选参数:return: 生成的文本响应"""prompt = prompt.strip()prompt += "<sep>"inputs = self.tokenizer(prompt, return_tensors="pt")["input_ids"].cuda()outputs = self.model.generate(inputs, do_sample=False, max_length=4096)output = self.tokenizer.decode(outputs[0])response = output.split("<sep>")[-1].split("<eod>")[0]return response@propertydef _llm_type(self) -> str:"""返回模型的类型标识。:return: 模型类型字符串"""return "Yuan2_LLM"

运行效果

bash run.sh

启动脚本：run.sh

streamlit run main.py --server.address 127.0.0.1 --server.port 6006

论文概括：
在这里插入图片描述

What kind of attention architecture is LFA?

在这里插入图片描述

📌 [ 笔者 ]   文艺倾年
📃 [ 更新 ]   2024.9.15
❌ [ 勘误 ]   /* 暂无 */
📜 [ 声明 ]   由于作者水平有限，本文有错误和不准确之处在所难免，本人也很想知道这些错误，恳望读者批评指正！

在这里插入图片描述

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

原型模式：克隆对象的艺术

如何训练机器学习力场

绑定变量对于SQL性能的影响

九、外观模式

android BLE 蓝牙的连接（二）

turbo译码算法MAX, MAX_SCALE and MAX_STAR的比较

算法打卡：第九章动态规划part13

【python爬虫】之scrapy框架介绍

绕过CDN查找真实IP方法

Spring Cloud集成Eurake

重学SpringBoot3-SpringApplicationRunListener

【MPC】无人机模型预测控制复现Data-Driven MPC for Quadrotors项目（Part 1）

【docker npm】npm 私库

关于HarmonyOS的学习

SQL注入(数据库)简介

avalon2.2的VM生成过程

centos安装java运行环境jdk+tomcat

EOS是什么

express + mock 让前后台并行开发

HTTP传输编码增加了传输量，只为解决这一个问题 | 实用 HTTP

Java知识点总结（JavaIO-打印流）

Laravel5.4 Queues队列学习

MySQL用户中的%到底包不包括localhost?

MySQL主从复制读写分离及奇怪的问题

PHP变量

React 快速上手 - 07 前端路由 react-router

SwizzleMethod 黑魔法

创建一个Struts2项目maven 方式

给初学者：JavaScript 中数组操作注意点

海量大数据大屏分析展示一步到位：DataWorks数据服务+MaxCompute Lightning对接DataV最佳实践...

离散点最小（凸）包围边界查找

区块链技术特点之去中心化特性

使用SAX解析XML

-- 数据结构顺序表 --Java

网络应用优化——时延与带宽

线上 python http server profile 实践

写代码的正确姿势

原创：新手布局福音！微信小程序使用flex的一些基础样式属性（一）

TPG领衔财团投资轻奢珠宝品牌APM Monaco

数据库巡检项

Java基础复习笔记第16章：网络编程

（19）夹钳(用于送货)

(delphi11最新学习资料) Object Pascal 学习笔记---第8章第2节（共同的基类）

(el-Transfer)操作(不使用 ts)：Element-plus 中 Select 组件动态设置 options 值需求的解决过程

（Java实习生）每日10道面试题打卡——JavaWeb篇

(第30天)二叉树阶段总结

（附源码）ssm户外用品商城毕业设计 112346

(附源码)计算机毕业设计SSM疫情下的学生出入管理系统

（四十一）大数据实战——spark的yarn模式生产环境部署

(五)IO流之ByteArrayInput/OutputStream

（一）Mocha源码阅读: 项目结构及命令行启动

(原创)攻击方式学习之(4) - 拒绝服务(DOS/DDOS/DRDOS)

(原創) 如何將struct塞進vector? (C/C++) (STL)

.NET 4.0中的泛型协变和反变

.NET 使用配置文件

【大模型专栏—实战篇】基于RAG从0到1搭建AI科研知识库

目录

介绍

分类

实战 - 搭建 RAG Demo

预备

索引

检索

生成

打包

部署

实战 - AI科研助手

项目结构

运行效果

相关文章：