当前位置: 首页 > news >正文

主动学习和贝叶斯优化 - smartly collect data

1.small data做机器学习

复杂的模型容易出现过拟合。

随机森林、xgoost等适用于较小data。

线性回归适用于更少的data。

But 在化学这种方面只能做实验获取data,并且人工标注耗费时间。所以想寻找一个能获取最少label的data的方法。

2.Active Learning 主动学习 - 拿到的是最小数据集

 源码

 核心内容:通过选择更有效的数据,用更少的data实现更好的acc。

比如c的data就比b的data更有效,更接近真实的分界线。

    

流程图:uncertainty的理解是关键。

三、手搓代码

思路:

1)首先在未标记的数据集中选取少量样本进行标注,构成训练集;

2)选取训练模型,使用少量标注样本的训练集对模型进行训练,此时模型的性能不高;

3)使用训练好的模型预测未标注的样本;

4)定义查询策略,根据策略返回未标注样本的优先级评分,选择出的需要标注的数据,进行人工标注;

5)将新选择的数据加入到训练集中更新训练集,使用更新后的训练集来训练模型;

6)判断模型是否达到停止准则?若未达到停止标准,则继续利用查询策略选择需要被标记的样本并进行人工标注,循环第4-5-6步,直到达到停止标准(这个准则可以是迭代次数,也可以是准确率等指标达到设定值例如模型精度超过99%),表示模型已训练好可以应用。

策略包括:

1· Least Confident:看到上上图可以理解,LC会通过当前的model计算整个X_pool中最靠近分界线的data,也就是分为两类概率相同/接近的data,即最uncertainty的就是最先选择的。然后把选好的data组成一个data set,就构成了需要最少label的数据集。所以只要是能度量uncertainty的模型都能用这个AL的方法。

    

2· Query-by-committee:用之前data训练出多个不同model,然后互相找出意见最不一样的点,作为uncertainty的度量。

四、贝叶斯优化

已经train完了,用于大模型调整超参数,即神经网络这种黑盒模型 无法数学表达出参数。比网格搜索和随机搜索更高效。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 2024外滩大会:机器人汽车飞机都来了
  • MIT License:全面解析与商用指南
  • C++---string类常见接口
  • MySQL 8.0.24 表 ‘/tmp/#sql1_f519f_7‘ 已满
  • Linux常见操作指令
  • VScode:前端开发中的常用快捷键和技巧
  • Comsol 点激励条件下薄板声辐射响应
  • C#游戏服务器开发框架设计与架构详解
  • [数据集][目标检测]机油泄漏检测数据集VOC+YOLO格式43张1类别
  • 论文翻译:arxiv-2024 Benchmarking Benchmark Leakage in Large Language Models
  • 那些你不知道的3个comfyui小技巧,分享给大家!
  • JAVA实习生(月薪3K-5K)应该具备哪些知识、能力
  • 计算机网络 ---如何寻找目标计算机
  • 膨胀腐蚀操作opencv dilate膨胀白膨胀,erode腐蚀是黑吃白。主要针对二值图
  • 0.3 学习Stm32经历过的磨难
  • HTTP 简介
  • Java,console输出实时的转向GUI textbox
  • Java知识点总结(JDBC-连接步骤及CRUD)
  • Python实现BT种子转化为磁力链接【实战】
  • vue-router 实现分析
  • 得到一个数组中任意X个元素的所有组合 即C(n,m)
  • 码农张的Bug人生 - 见面之礼
  • 排序(1):冒泡排序
  • 手写双向链表LinkedList的几个常用功能
  • Oracle Portal 11g Diagnostics using Remote Diagnostic Agent (RDA) [ID 1059805.
  • MiKTeX could not find the script engine ‘perl.exe‘ which is required to execute ‘latexmk‘.
  • const的用法,特别是用在函数前面与后面的区别
  • ​马来语翻译中文去哪比较好?
  • ​数据链路层——流量控制可靠传输机制 ​
  • (152)时序收敛--->(02)时序收敛二
  • (2024.6.23)最新版MAVEN的安装和配置教程(超详细)
  • (Python) SOAP Web Service (HTTP POST)
  • (八)Flask之app.route装饰器函数的参数
  • (独孤九剑)--文件系统
  • (二)hibernate配置管理
  • (二)windows配置JDK环境
  • (六)c52学习之旅-独立按键
  • (三)centos7案例实战—vmware虚拟机硬盘挂载与卸载
  • (十)DDRC架构组成、效率Efficiency及功能实现
  • (转)Android学习系列(31)--App自动化之使用Ant编译项目多渠道打包
  • (转贴)用VML开发工作流设计器 UCML.NET工作流管理系统
  • ./configure,make,make install的作用(转)
  • .gitignore文件—git忽略文件
  • .mp4格式的视频为何不能通过video标签在chrome浏览器中播放?
  • .NET MAUI Sqlite程序应用-数据库配置(一)
  • .NET 指南:抽象化实现的基类
  • .net8.0与halcon编程环境构建
  • .NET导入Excel数据
  • .net访问oracle数据库性能问题
  • @Tag和@Operation标签失效问题。SpringDoc 2.2.0(OpenApi 3)和Spring Boot 3.1.1集成
  • @Transactional类内部访问失效原因详解
  • [ vulhub漏洞复现篇 ] Hadoop-yarn-RPC 未授权访问漏洞复现
  • [ 攻防演练演示篇 ] 利用通达OA 文件上传漏洞上传webshell获取主机权限
  • [51nod1610]路径计数
  • [⑧ADRV902x]: Digital Pre-Distortion (DPD)学习笔记