当前位置: 首页 > news >正文

中文大数据训练的数据集

在训练中文大模型时,选择合适的数据集至关重要。以下是一些常用于中文大数据训练的数据集:

1. 新闻数据集

新闻数据集通常涵盖广泛的领域,包括时事、财经、体育、科技等,具有实时性和高质量的特点。

  • SogouCA:搜狗公司提供的新闻数据集,包含从2008年到2012年的大量新闻文本。
  • THUCNews:清华大学提供的一个包含743,000篇中文新闻的语料库,分为14个类别,如体育、娱乐、家居等。

2. 社交媒体数据集

社交媒体数据集包含用户生成内容,语言富有多样性和口语化。

  • Weibo数据集:包含大量来自新浪微博的用户发布的短文本,涵盖各种话题和情感。
  • Douban评论数据集:包含来自豆瓣的用户评论,涵盖电影、书籍、音乐等。

3. 百科数据集

百科数据集通常是高质量的结构化文本,适合用于知识图谱和信息抽取任务。

  • Wikipedia中文数据集:维基百科的中文部分,包含大量高质量的结构化文本。可以使用WikiExtractor等工具提取。
  • Baike数据集:百度百科的中文数据,包含大量高质量的条目。

4. 问答与对话数据集

这些数据集包含大量的问答和对话,对自然语言理解和生成任务非常有用。

  • XNLI:跨语言自然语言推理数据集,包含中文在内的15种语言,可用于跨语言理解和翻译任务。
  • LCQMC:一个中文问句匹配数据集,由百度提供,包含近26万个问句对。

5. 中文维基语料

来自中文维基百科的语料,具有高质量和广泛的知识覆盖面。

  • WikiQA:一个面向问题回答任务的数据集,包含从维基百科中提取的问答对。

6. 公开语料库

各大科研机构和公司发布的公开语料库,广泛应用于学术研究和工业应用中。

  • 百度中文语音数据集:百度发布的中文语音数据集,可用于训练语音识别和自然语言处理模型。
  • THU OpenChineseCorpus:清华大学发布的一个包含多种文本数据的公开语料库。

7. 机器翻译数据集

这些数据集包含大规模的平行语料,对机器翻译模型的训练非常有帮助。

  • LDC Chinese-English Data:语言数据联盟(LDC)发布的中英双语平行语料,广泛应用于机器翻译研究。
  • WMT Translation Data:WMT竞赛提供的大规模中英翻译数据集。

8. 情感分析数据集

这些数据集包含标注了情感倾向的文本,适用于情感分析和情感分类任务。

  • ChnSentiCorp:一个由酒店评论、书评和其他评论组成的中文情感分析数据集。
  • Weibo情感分析数据集:来自新浪微博的用户评论,标注了情感倾向。

9. 法律和医疗数据集

这些领域的数据集有助于构建法律认知和医疗诊断等专业系统。

  • Chinese AI and Law Challenge Dataset:用于法律文本理解的公开数据集。
  • MedQA:一个包含医疗问答对的数据集,用于医疗对话系统的训练。

示例:从中文维基百科提取数据

以下是一个示例脚本,展示如何使用Python从中文维基百科提取语料:

import requests
import jsondef fetch_wikipedia_data():url = 'https://zh.wikipedia.org/w/api.php'params = {'action': 'query','format': 'json','list': 'random','rnlimit': 10,'rnnamespace': 0}response = requests.get(url, params=params)data = response.json()for item in data['query']['random']:page_id = item['id']title = item['title']print(f'Fetching content for page: {title}')params = {'action': 'query','format': 'json','prop': 'extracts','explaintext': True,'pageids': page_id}response = requests.get(url, params=params)page_data = response.json()content = page_data['query']['pages'][str(page_id)]['extract']print(f'Content: {content[:100]}...')if __name__ == "__main__":fetch_wikipedia_data()

以下是一些常用的中文数据集及其获取地址:

1. SogouCA

描述:搜狗公司提供的新闻数据集,包括从2008年到2012年的大量新闻文本。

地址:SogouCA

2. THUCNews

描述:清华大学提供的一个包含743,000篇中文新闻语料的库,分为14个类别,如体育、娱乐、家居等。

地址:THUCNews

3. Weibo数据集

描述:包含大量来自新浪微博的用户发布的短文本,涵盖各种话题和情感。适用于情感分析等任务。

地址:Weibo数据集 (2017年发布)

4. Douban评论数据集

描述:包含来自豆瓣的用户评论,涵盖电影、书籍、音乐等,适合用于情感分析和推荐系统研究。

地址:Douban评论数据集

5. Wikipedia中文数据集

描述:维基百科的中文部分,包含大量高质量的结构化文本。可以使用WikiExtractor等工具提取。

地址:Wikipedia Dumps

6. Baike数据集

描述:百度百科的中文数据,包含大量高质量的条目,适用于知识图谱和信息抽取任务。

地址:数据集自行获取方法详见百度百科开发者文档

7. XNLI

描述:跨语言自然语言推理数据集,包含中文在内的15种语言,可用于跨语言理解和翻译任务。

地址:XNLI (Cognitive Computation Group)

8. LCQMC

描述:一个中文问句匹配数据集,由百度提供,包含近26万个问句对,适用于自然语言理解和问答系统研究。

地址:LCQMC 数据集

9. THU OpenChineseCorpus

描述:清华大学发布的一个包含多种文本数据的公开语料库,适用于多种NLP任务。

地址:THU OpenChineseCorpus

10. ChnSentiCorp

描述:一个由酒店评论、书评和其他评论组成的中文情感分析数据集。

地址:ChnSentiCorp

11. MedQA

描述:一个包含医疗问答对的数据集,用于医疗对话系统的训练。

地址:MedQA (DuQA公开数据)

12. LDC Chinese-English Data

描述:语言数据联盟(LDC)发布的中英双语平行语料,适用于机器翻译研究。

地址:LDC 中文-英文学术平行语料 (需要订阅服务)

13. WMT Translation Data

描述:WMT竞赛提供的大规模中英翻译数据集。

地址:WMT 竞赛数据集

示例:获取Wikipedia Dumps的数据

以下是从Wikipedia Dumps下载中文数据集的简单步骤:

  1. 访问Wikipedia Dumps的页面:Wikipedia Dumps
  2. 选择最新的dump日期文件夹,例如20230601/
  3. 下载其中的zhwiki-20230601-pages-articles-multistream.xml.bz2文件,这个文件包含了中文维基百科的所有页面。

总结

上述数据集涵盖了广泛的领域,包括新闻、社交媒体、评论、百科问答、机器翻译等。不同的数据集针对不同的NLP任务,可以根据需要选择适合的数据集进行模型训练。在选择适合的高质量数据集是训练中文大模型的关键。上述列举的资源涵盖了多个领域和应用场景,可以根据具体需求对数据进行二次处理和清洗,以提高训练效果。在获取和使用这些数据集时,也要注意遵守相关的数据使用政策和版权规定。

相关文章:

  • C# OpenCvSharp Mat操作-创建Mat-构造函数
  • 什么是中断?STM32F407中断处理
  • 【Android面试八股文】讲一讲String、StringBuffer和StringBuilder在进行字符串操作时候的效率
  • 基于dagger平台实现资源位的接口自动化
  • 力扣hot100:75. 颜色分类(双指针)
  • 数据中台-知识图谱平台
  • Windows系统下使用gvim配置LaTeX快速书写环境
  • idea 启动tomcat后总是弹出框显示cannot open url.please check this url is correct
  • 精准定位,智慧提纯:高级数据提取策略
  • MySQL基础——SQL语句
  • 混淆矩阵-召回率、精确率、准确率
  • 【iOS】UI学习——cell的复用及自定义cell
  • 提升学术研究效率与质量的关键
  • 2024050802-重学 Java 设计模式《实战模板模式》
  • Shell脚本从入门到实战
  • [译] 怎样写一个基础的编译器
  • 【402天】跃迁之路——程序员高效学习方法论探索系列(实验阶段159-2018.03.14)...
  • 【EOS】Cleos基础
  • 【翻译】Mashape是如何管理15000个API和微服务的(三)
  • exports和module.exports
  • java8 Stream Pipelines 浅析
  • linux安装openssl、swoole等扩展的具体步骤
  • Stream流与Lambda表达式(三) 静态工厂类Collectors
  • supervisor 永不挂掉的进程 安装以及使用
  • TiDB 源码阅读系列文章(十)Chunk 和执行框架简介
  • TypeScript迭代器
  • ⭐ Unity 开发bug —— 打包后shader失效或者bug (我这里用Shader做两张图片的合并发现了问题)
  • Vim Clutch | 面向脚踏板编程……
  • 聚类分析——Kmeans
  • 配置 PM2 实现代码自动发布
  • 如何利用MongoDB打造TOP榜小程序
  • 双管齐下,VMware的容器新战略
  • 我这样减少了26.5M Java内存!
  • 一文看透浏览器架构
  • 与 ConTeXt MkIV 官方文档的接驳
  • 正则表达式小结
  • k8s使用glusterfs实现动态持久化存储
  • 摩拜创始人胡玮炜也彻底离开了,共享单车行业还有未来吗? ...
  • # 飞书APP集成平台-数字化落地
  • #[Composer学习笔记]Part1:安装composer并通过composer创建一个项目
  • #WEB前端(HTML属性)
  • #我与Java虚拟机的故事#连载07:我放弃了对JVM的进一步学习
  • (160)时序收敛--->(10)时序收敛十
  • (20)目标检测算法之YOLOv5计算预选框、详解anchor计算
  • (3)选择元素——(14)接触DOM元素(Accessing DOM elements)
  • (react踩过的坑)Antd Select(设置了labelInValue)在FormItem中initialValue的问题
  • (阿里巴巴 dubbo,有数据库,可执行 )dubbo zookeeper spring demo
  • (七)glDrawArry绘制
  • (四)js前端开发中设计模式之工厂方法模式
  • (转)LINQ之路
  • (转)linux下的时间函数使用
  • .dwp和.webpart的区别
  • .net framework 4.8 开发windows系统服务
  • .NET Framework 服务实现监控可观测性最佳实践
  • .net refrector