当前位置: 首页 > news >正文

鹏城AI靶场助力大规模高质量中文语料数据集安全开放

数据作为数字经济的核心生产要素,只有将各地区各个领域间数据要素流通交易起来,才能够充分释放数据要素价值。

鹏城实验室率先开放大规模高质量中文语料数据集(鹏程·盘古语料数据集-1.1TB高质量中文语料数据、一带一路多语言语料数据集-1TB高质量多语言语料数据),研究人员可在鹏城AI靶场上安全使用数据,但无法带走数据。若用户不愿上传自身数据到鹏城AI靶场,可通过鹏城众智协同计算平台AISynergy使用本地语料数据与鹏城AI靶场数据进行联合训练或微调。

 鹏城AI靶场是基于方滨兴院士提出的“数据不动程序动、数据可用不可见、分享价值不分享数据、保留所有权释放使用权”隐私保护新理念,由鹏城实验室新型网络部平台所研发的数据要素流通交易新型基础设施平台

鹏城AI靶场提出了一个模型加工场的方法,其基本思想是要构造一个可信的执行环境,这个可信的执行环境不完全等同于传统的可信执行环境TEE。传统的可信执行环境是强调计算环境可信,不会被攻击。鹏城AI靶场把一些人为的因素放在里面,把社会工程因素放在里面,以构建一个安全可控的区域。这个安全可控包括人员可控,能落实责任制。如在政府部门或者国企里构造一个安全可控区域,再通过“数据不动程序动”“数据可用不可见”的方法来保证隐私。

在鹏城AI靶场架构中,数据拥有方需要把数据放到模型加工场里,数据所有者可以决定数据是否能够被平台所使用。

 

鹏城实验室网络智能部高效能云计算所团队与鹏城AI靶场团队联合研制了具有大规模语料数据安全保护功能的鹏城众智AI协同计算平台AISynergy 2.0版,可完成跨多个计算集群的协同计算作业,实现基于中国算力网(C2NET)的全新计算范式和数据隐私安全分布式业务场景,如跨域大模型协同训练与微调、多中心模型聚合、多中心联邦学习等。以下是典型应用场景介绍:

典型场景1:

AI靶场上开放语料数据,用户可直接使用或上传数据到AI靶场完成联合训练场景

研究团队从Common Crawl、电子书、百科全书、新闻等广泛的资源中收集了大量的原始数据。

在此基础上,对数据进行多重过滤和清洗,确保处理后的数据具有高质量和多样性。经过复杂的预处理,得到大规模高质量中文语料数据集,这些语料数据集经过预处理后具有重要数据价值,但由于很难保证其中没有涉及敏感或安全隐私的数据内容,直接开放具有较大风险。

通过AI靶场,研究人员可安全使用这些语料数据,但无法带走数据,实现数据不流出,充分发挥语料数据价值,助推自然语言处理等基础研究的协作快速发展。

请参考示例:

【如何上传您自己的语料到靶场,与盘古部分语料进行联合训练?】 

【多语言mPanGu,单机、多卡+单方、多方数据协同训练场景】

典型场景2:

AI靶场上语料数据与第三方本地自有数据开展协同计算场景

若研究人员有自有语料数据,但不愿将自有数据上传至AI靶场,可以通过协同计算的方式进行训练。研究人员在AI靶场和本地分别进行模型训练,通过协同计算平台AISynergy,可完成跨多个智算中心的协同计算作业,实现多中心数据价值利用最大化及协同计算应用赋能新范式。

请参考示例:

【如何不上传您自己的语料数据,使用您本地的计算环境与鹏城AI靶场进行远程联网协同训练?】

 AI靶场通过调试环境与运行环境分离体系架构以及仿真数据生成、隐私保护前提下的调试等创新技术,确保数据所有权和使用权分离,可以让更多的数据提供方敢于将其数据安全托管,让更多的数据使用方能够充分挖掘真实场景真实数据。

目前AI靶场依托以鹏城云脑为枢纽节点的中国算力网提供的强大算力资源,通过构建可信数据空间,以张榜打靶方式将数据安全开放,进而筛选具有核心竞争力的AI团队, 实现数据应用集智创新。

AI靶场目前已有力支撑了“2022年猛犸杯国际组学数据创新大赛”“昂楷杯第一届数据安全竞赛”“广东省网络安全协会数据挖掘大赛”、“深圳企业高质量发展评价指标体系”、 “腾景AI经济预测”等多个重要领域的数据安全开放。

鹏城AI靶场icon-default.png?t=M7J4https://datai.pcl.ac.cn/

大规模高质量中文语料数据集安全开放开源社区icon-default.png?t=M7J4https://git.openi.org.cn/PCL-Platform.Intelligence/AISynergy/src/branch/V2.0.0

相关文章:

  • 安装node, 配置npm全局安装位置,安装Vue.
  • 神经网络理论及应用答案,神经网络理论名词解释
  • 国产香氛品牌别样的生意经
  • Java-基于SSM的健身后台管理系统
  • 【CCIE 实验】BGP 13条选路原则实验
  • 购买发票自动化软件(或者文档管理系统)需要注意的问题
  • 磁盘被未知资源耗尽lsof -n|grep deleted
  • 图观 | 快速评估图数据库何时适合使用?
  • Redis主从集群
  • 瑞吉外卖git
  • NAS媒体库资源归集整理工具nas-tools
  • ECCV 2022 | MVDG:一种用于域泛化的统一多视图框架
  • Gin源码之gin.Engine结构体及其方法
  • 神经系统ct与mri影像解读,神经系统影像学检查
  • 使用NFS做K8S的静态供应
  • CEF与代理
  • codis proxy处理流程
  • docker-consul
  • emacs初体验
  • iOS编译提示和导航提示
  • Java 23种设计模式 之单例模式 7种实现方式
  • JavaScript 奇技淫巧
  • Javascript弹出层-初探
  • leetcode386. Lexicographical Numbers
  • MQ框架的比较
  • MySQL Access denied for user 'root'@'localhost' 解决方法
  • react 代码优化(一) ——事件处理
  • uni-app项目数字滚动
  • vagrant 添加本地 box 安装 laravel homestead
  • VuePress 静态网站生成
  • 关于extract.autodesk.io的一些说明
  • 警报:线上事故之CountDownLatch的威力
  • 使用putty远程连接linux
  • 数组大概知多少
  • 我感觉这是史上最牛的防sql注入方法类
  • 验证码识别技术——15分钟带你突破各种复杂不定长验证码
  • 正则学习笔记
  • 走向全栈之MongoDB的使用
  • ​Linux Ubuntu环境下使用docker构建spark运行环境(超级详细)
  • # Python csv、xlsx、json、二进制(MP3) 文件读写基本使用
  • $L^p$ 调和函数恒为零
  • $var=htmlencode(“‘);alert(‘2“); 的个人理解
  • (4)logging(日志模块)
  • (ZT)北大教授朱青生给学生的一封信:大学,更是一个科学的保证
  • (备忘)Java Map 遍历
  • (附源码)基于ssm的模具配件账单管理系统 毕业设计 081848
  • (每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理 第13章 项目资源管理(七)
  • (牛客腾讯思维编程题)编码编码分组打印下标(java 版本+ C版本)
  • (四)汇编语言——简单程序
  • (四)模仿学习-完成后台管理页面查询
  • (学习日记)2024.03.25:UCOSIII第二十二节:系统启动流程详解
  • *_zh_CN.properties 国际化资源文件 struts 防乱码等
  • .net core webapi 大文件上传到wwwroot文件夹
  • .net Stream篇(六)
  • .net 验证控件和javaScript的冲突问题