当前位置: 首页 > news >正文

『大模型笔记』基于LLM生成真实世界数据的合成问答数据!

基于LLM生成真实世界数据的合成问答数据!

文章目录

  • 一. 基于LLM生成真实世界数据的合成问答数据!
    • 1. 概述(Overview)
    • 2. 场景(Scenario)
      • 2.1. 概述
        • 2.1.1. 第1阶段:构建种子数据集(Stage 1. Constructing a seed dataset)
        • 2.1.2. 第2阶段:数据增强(可选)(Data Augmentation (Optional))
      • 2.2. 客户应用示例(Customer application examples)
  • 二. 第1阶段:构建种子数据集
    • 2.1. PDF
    • 2.2. CSV
  • 三. 第二阶段. 数据扩充(可选)
    • 3.1. [Evolve-Instruct(进化指令)](evolve-instruct/README.md)
    • 3.2. [GLAN (广义指令调优)](glan-instruct/README.md)
  • 四. 参考文献

本动手实验旨在通过演示如何从复杂的非结构化数据中创建或增强问答数据集,以缓解一些难题,基于真实场景假设。该示例旨在为开发人员和数据科学家以及相关领域的从业者提供分步指南,以便他们在一些指导下进行尝试。

一. 基于LLM生成真实世界数据的合成问答数据!

1. 概述(Overview)

对于大语言模型(LLM)或小型语言模型(SLM)的微调、RAG或评估,通常需要从真实世界的原始数据中生成问答格式的数据。然而,当需要从头创建数据集而非使用现成的数据集时,您将面临诸多挑战。

本次动手实验旨在通过展示 如何从复杂的非结构化数据中创建或增强问答数据集来减轻部分工作负担,并假设这是一个真实的场景。该示例旨在为开发者和数据科学家以及相关领域的从业者提供逐步指导,使他们在稍许帮助下也能尝试完成。

2. 场景(Scenario)

2.1. 概述

我们旨在通过微调或RAG来提高模型的性能,提供高质量的数据集。然而,没有预先存在的数据集;我们只有 PDF、CSV和TXT 等格式的未处理原始数据。这些原始数据包括

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Apache,Tomcat,Nginx有什么关系?
  • 《SQL 中计算地理坐标两点间距离的魔法》
  • 目录与文件相关的命令
  • Spring Boot全局异常
  • SQL server 同环比计算模板
  • HDU动态规划——1114.Piggy-Bank,1121.Complete the Sequence,1158.Employment Planning
  • 音视频开发继续学习
  • 【Python】线性规划模型(笔记)
  • 编译aws并访问minio
  • Spring boot 使用 jSerialComm 对串口使用发送信息并接收
  • 【香菇带你学Mysql】Linux下Mysql8使用二进制安装包安装教程【建议收藏】
  • 案例分享—国外深色UI界面设计赏析
  • 使用 C++ 实现简单的插件系统
  • 程序员的最爱,FRP实现无公网IP的内网穿透,搭建远程服务:http、ssh、samba,基于最新FRP0.59.0版本
  • 【网络协议】网络劫持 - ARP/DNS欺骗篇
  • [ 一起学React系列 -- 8 ] React中的文件上传
  • 【347天】每日项目总结系列085(2018.01.18)
  • Angular js 常用指令ng-if、ng-class、ng-option、ng-value、ng-click是如何使用的?
  • Angular6错误 Service: No provider for Renderer2
  • C++类的相互关联
  • Go 语言编译器的 //go: 详解
  • Linux Process Manage
  • 关于 Cirru Editor 存储格式
  • 解决jsp引用其他项目时出现的 cannot be resolved to a type错误
  • 马上搞懂 GeoJSON
  • 容器服务kubernetes弹性伸缩高级用法
  • 十年未变!安全,谁之责?(下)
  • 为什么要用IPython/Jupyter?
  • Prometheus VS InfluxDB
  • 好程序员web前端教程分享CSS不同元素margin的计算 ...
  • ​第20课 在Android Native开发中加入新的C++类
  • ​软考-高级-信息系统项目管理师教程 第四版【第19章-配置与变更管理-思维导图】​
  • # C++之functional库用法整理
  • #includecmath
  • (23)Linux的软硬连接
  • (TipsTricks)用客户端模板精简JavaScript代码
  • (更新)A股上市公司华证ESG评级得分稳健性校验ESG得分年均值中位数(2009-2023年.12)
  • (每日一问)计算机网络:浏览器输入一个地址到跳出网页这个过程中发生了哪些事情?(废话少说版)
  • (删)Java线程同步实现一:synchronzied和wait()/notify()
  • (一)使用Mybatis实现在student数据库中插入一个学生信息
  • (转)jdk与jre的区别
  • (转)我也是一只IT小小鸟
  • (轉)JSON.stringify 语法实例讲解
  • (轉貼)《OOD启思录》:61条面向对象设计的经验原则 (OO)
  • .gitattributes 文件
  • .Net Attribute详解(上)-Attribute本质以及一个简单示例
  • .NET 的静态构造函数是否线程安全?答案是肯定的!
  • .net 简单实现MD5
  • .NET 中什么样的类是可使用 await 异步等待的?
  • .NET/C# 推荐一个我设计的缓存类型(适合缓存反射等耗性能的操作,附用法)
  • .NET开源纪元:穿越封闭的迷雾,拥抱开放的星辰
  • .NET中 MVC 工厂模式浅析
  • .vimrc php,修改home目录下的.vimrc文件,vim配置php高亮显示
  • @ConditionalOnProperty注解使用说明
  • [ vulhub漏洞复现篇 ] struts2远程代码执行漏洞 S2-005 (CVE-2010-1870)