当前位置: 首页 > news >正文

构建高效NLP管道:PydanticOutputParser与Langchain的结合

PydanticOutputParser 是一个用于解析语言模型输出的实用工具,它允许用户指定一个 Pydantic 模型,并查询语言模型以生成符合该模型的 JSON 输出。这个工具特别有用,因为它可以帮助开发者确保从语言模型获得的结构化数据符合预期的格式,从而简化了数据处理和集成的过程。

使用 PydanticOutputParser 之前,你需要定义一个 Pydantic 模型,这个模型将作为数据的结构模板。Pydantic 的 BaseModel 类似于 Python 的数据类,但它提供了实际的类型检查和数据转换功能。你可以在模型中定义字段,并使用 Field 函数添加额外的元数据,如字段描述。此外,你还可以使用 validator 装饰器来添加自定义验证逻辑,确保数据的正确性。

例如,如果你想要解析一个关于笑话的数据结构,你可以创建一个包含 setup(笑话的铺垫)和 punchline(笑话的结尾)字段的 Pydantic 模型。然后,你可以使用 PydanticOutputParser 来指导语言模型生成符合这个模型的输出。

在实际应用中,你可以将 PydanticOutputParser 与语言模型和其他工具(如 PromptTemplate)结合使用,构建一个完整的数据处理流程。这样,你不仅可以获得结构化的数据输出,还可以通过模板化的方式控制语言模型的输入,使其更加灵活和强大。

总的来说,PydanticOutputParser 是一个强大的工具,它结合了 Pydantic 的数据模型能力和语言模型的生成能力,为开发者提供了一种高效的方式来处理和解析结构化数据。

from typing import Listfrom langchain.output_parsers import PydanticOutputParser
from langchain.prompts import ChatPromptTemplate
from langchain.schema import HumanMessage
from langchain_core.pydantic_v1 import BaseModel, Field
from langchain_openai import ChatOpenAIclass BookInfo(BaseModel):book_name: str = Field(description="书籍的名字")author_name: str = Field(description="书籍的作者")genres: List[str] = Field(description="书籍的体裁")output_parser = PydanticOutputParser(pydantic_object=BookInfo)  #BookInfo
# 查看输出解析器的内容,会被输出成json格式
print(output_parser.get_format_instructions())prompt = ChatPromptTemplate.from_messages([("system", "{parser_instructions} 你输出的结果请使用中文。"),("human", "请你帮我从书籍的概述中,提取书名、作者,以及书籍的体裁。书籍概述会被三个#符号包围。\n###{book_introduction}###")
])book_introduction = """
《朝花夕拾》原名《旧事重提》,是现代文学家鲁迅的散文集,收录鲁迅于1926年创作的10篇回忆性散文, [1]1928年由北京未名社出版,现编入《鲁迅全集》第2卷。
此文集作为“回忆的记事”,多侧面地反映了作者鲁迅青少年时期的生活,形象地反映了他的性格和志趣的形成经过。前七篇反映他童年时代在绍兴的家庭和私塾中的生活情景,后三篇叙述他从家乡到南京,又到日本留学,然后回国教书的经历;揭露了半殖民地半封建社会种种丑恶的不合理现象,同时反映了有抱负的青年知识分子在旧中国茫茫黑夜中,不畏艰险,寻找光明的困难历程,以及抒发了作者对往日亲友、师长的怀念之情 [2]。
文集以记事为主,饱含着浓烈的抒情气息,往往又夹以议论,做到了抒情、叙事和议论融为一体,优美和谐,朴实感人。作品富有诗情画意,又不时穿插着幽默和讽喻;形象生动,格调明朗,有强烈的感染力。
"""model = ChatOpenAI(model="gpt-3.5-turbo",openai_api_key="sk-BuQK7SGbqCZP2i2z7fF267AeD0004eF095AbC78d2f79E019",openai_api_base="https://api.aigc369.com/v1")
final_prompt = prompt.invoke({"book_introduction": book_introduction,"parser_instructions": output_parser.get_format_instructions()})
response = model.invoke(final_prompt)
print(response.content)
result = output_parser.invoke(response)
print(result)

PydanticOutputParser 被用来创建一个输出解析器,该解析器将根据 BookInfo 模型来解析语言模型的输出。get_format_instructions() 方法返回一个字符串,这个字符串描述了语言模型输出应该如何格式化以匹配 BookInfo 模型。

{"book_name": "书籍的名字","author_name": "书籍的作者","genres": "书籍的体裁"
}

代码能够成功执行,result预期的输出可能如下:

# 这是语言模型的原始响应,具体内容取决于模型的生成结果
{
    "book_name": "朝花夕拾",
    "author_name": "鲁迅",
    "genres": "散文集"
}
# 这是解析后的结果,它将是一个 BookInfo 模型的实例
BookInfo(book_name='朝花夕拾', author_name='鲁迅', genres=['散文集'])

这样输出了JSON数据方便对接数据的二期处理。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 机器学习课程学习周报九
  • 【文档合集】软件类常用文档整理大全,软件工程,软件项目管理,技术标书方案,模
  • 【系统规划与管理师】【案例分析】【课后习题】第九章 IT服务营销
  • 数据库架构演变过程
  • vagrant 创建虚拟机
  • 使用notepad++将shell脚本转为UNIX格式方法(主要差别在换行符)
  • SpringBoot集成google登陆快速入门Demo
  • 运放篇——理想运放与实际运放
  • Docker 安装与配置 Docker Registry 指南
  • Linux——文件系统层次结构,绝对路径
  • 膨胀罐的安装注意事项
  • torch.unbind()拆分张量练习过程
  • 基础算法--递推算法[信奥一本通]
  • 基于x86 平台opencv的图像采集和seetaface6的图像质量评估功能
  • Chromium编译指南2024 - Android篇:安装并运行(九)
  • [微信小程序] 使用ES6特性Class后出现编译异常
  • __proto__ 和 prototype的关系
  • 【css3】浏览器内核及其兼容性
  • 【跃迁之路】【735天】程序员高效学习方法论探索系列(实验阶段492-2019.2.25)...
  • Android组件 - 收藏集 - 掘金
  • hadoop入门学习教程--DKHadoop完整安装步骤
  • JAVA SE 6 GC调优笔记
  • Javascript弹出层-初探
  • markdown编辑器简评
  • MySQL QA
  • Netty+SpringBoot+FastDFS+Html5实现聊天App(六)
  • niucms就是以城市为分割单位,在上面 小区/乡村/同城论坛+58+团购
  • PHP的Ev教程三(Periodic watcher)
  • SegmentFault 2015 Top Rank
  • springboot_database项目介绍
  • STAR法则
  • vue-loader 源码解析系列之 selector
  • vue-router 实现分析
  • Wamp集成环境 添加PHP的新版本
  • 从输入URL到页面加载发生了什么
  • 来,膜拜下android roadmap,强大的执行力
  • 七牛云 DV OV EV SSL 证书上线,限时折扣低至 6.75 折!
  • 前端路由实现-history
  • 三栏布局总结
  • 我有几个粽子,和一个故事
  • - 语言经验 - 《c++的高性能内存管理库tcmalloc和jemalloc》
  • ​ ​Redis(五)主从复制:主从模式介绍、配置、拓扑(一主一从结构、一主多从结构、树形主从结构)、原理(复制过程、​​​​​​​数据同步psync)、总结
  • ​力扣解法汇总946-验证栈序列
  • # 利刃出鞘_Tomcat 核心原理解析(二)
  • #70结构体案例1(导师,学生,成绩)
  • #基础#使用Jupyter进行Notebook的转换 .ipynb文件导出为.md文件
  • %@ page import=%的用法
  • (04)Hive的相关概念——order by 、sort by、distribute by 、cluster by
  • (2)nginx 安装、启停
  • (java)关于Thread的挂起和恢复
  • (Python第六天)文件处理
  • (更新)A股上市公司华证ESG评级得分稳健性校验ESG得分年均值中位数(2009-2023年.12)
  • (深入.Net平台的软件系统分层开发).第一章.上机练习.20170424
  • (十八)Flink CEP 详解
  • (四)Tiki-taka算法(TTA)求解无人机三维路径规划研究(MATLAB)