当前位置: 首页 > news >正文

在 Hub 上使用 Presidio 进行自动 PII 检测实验

在 Hub 上使用 Presidio 进行自动 PII 检测实验

我们在 Hugging Face Hub 上托管的机器学习(ML)数据集中发现了一个引人关注的现象:包含个人未经记录的私密信息。这一现象为机器学习从业者带来了一些特殊挑战。

在本篇博客中,我们将深入探讨含有一种称为个人识别信息(PII)的私密信息的各类数据集,分析这些数据集存在的问题,并介绍我们在数据集 Hub 上正在测试的一个新功能,旨在帮助应对这些挑战。

包含个人识别信息(PII)的数据集类型

我们注意到包含个人识别信息(PII)的数据集主要有两种类型:

  1. 标注的PII数据集:例如由 Ai4Privacy 提供的 PII-Masking-300k,这类数据集专门用于训练PII检测模型。这些模型用于检测和掩盖PII,可以帮助进行在线内容审核或提供匿名化的数据库。
  2. 预训练数据集:这些通常是大规模的数据集,往往有数TB大小,通常通过网络爬虫获得。尽管这些数据集一般会过滤掉某些类型的PII,但由于数据量庞大和PII检测模型的不完善,仍可能有少量敏感信息遗漏。

机器学习数据集中的个人识别信息(PII)面临的挑战

机器学习数据集中存在的个人识别信息(PII)会为从业者带来几个挑战。首先,它引发

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 3154. 到达第 K 级台阶的方案数(24.8.20)
  • C++ | Leetcode C++题解之第343题整数拆分
  • 学分绩点预警系统设计与实现(源码+lw+部署文档+讲解等)
  • Java--SpringBoot工厂模式
  • R 语言学习教程,从入门到精通,R 数据重塑(15)
  • 设计模式在芯片验证中的应用——状态
  • VS Code开发C#(.NET)之快速入门
  • 大数据技术——实战项目:广告数仓(第八部分)FineBI实战
  • C语言 ——— 学习并使用malloc和free函数
  • OSI七层网络模型 /TCP/IP五层模型以及封装分用的详细讲解
  • 最近网友问晚上失眠的问题
  • 【vue3|第22期】Vite + Vue3:vite配置文件
  • 重磅!2023中国高校计算机大赛-人工智能创意赛结果出炉
  • 声明式事务及编程式事务
  • 数据在内存中的存储(了解大小端字节序浮点数在内存中存储)详细~
  • ES学习笔记(12)--Symbol
  • IIS 10 PHP CGI 设置 PHP_INI_SCAN_DIR
  • JS进阶 - JS 、JS-Web-API与DOM、BOM
  • Lucene解析 - 基本概念
  • React-Native - 收藏集 - 掘金
  • springboot_database项目介绍
  • SQL 难点解决:记录的引用
  • Sublime Text 2/3 绑定Eclipse快捷键
  • vue-cli在webpack的配置文件探究
  • zookeeper系列(七)实战分布式命名服务
  • 安装python包到指定虚拟环境
  • 不发不行!Netty集成文字图片聊天室外加TCP/IP软硬件通信
  • 猫头鹰的深夜翻译:Java 2D Graphics, 简单的仿射变换
  • 你不可错过的前端面试题(一)
  • 前端代码风格自动化系列(二)之Commitlint
  • 一些css基础学习笔记
  • 应用生命周期终极 DevOps 工具包
  • 优化 Vue 项目编译文件大小
  • 好程序员大数据教程Hadoop全分布安装(非HA)
  • ​LeetCode解法汇总2182. 构造限制重复的字符串
  • ​软考-高级-信息系统项目管理师教程 第四版【第23章-组织通用管理-思维导图】​
  • # Java NIO(一)FileChannel
  • #C++ 智能指针 std::unique_ptr 、std::shared_ptr 和 std::weak_ptr
  • #Ubuntu(修改root信息)
  • (2)nginx 安装、启停
  • (BAT向)Java岗常问高频面试汇总:MyBatis 微服务 Spring 分布式 MySQL等(1)
  • (C++二叉树05) 合并二叉树 二叉搜索树中的搜索 验证二叉搜索树
  • (webRTC、RecordRTC):navigator.mediaDevices undefined
  • (超详细)语音信号处理之特征提取
  • (二)fiber的基本认识
  • (免费领源码)Python#MySQL图书馆管理系统071718-计算机毕业设计项目选题推荐
  • (欧拉)openEuler系统添加网卡文件配置流程、(欧拉)openEuler系统手动配置ipv6地址流程、(欧拉)openEuler系统网络管理说明
  • (三)c52学习之旅-点亮LED灯
  • (三)Honghu Cloud云架构一定时调度平台
  • (四)stm32之通信协议
  • (算法)硬币问题
  • (原創) 如何動態建立二維陣列(多維陣列)? (.NET) (C#)
  • (转)大道至简,职场上做人做事做管理
  • .babyk勒索病毒解析:恶意更新如何威胁您的数据安全
  • .mp4格式的视频为何不能通过video标签在chrome浏览器中播放?