当前位置: 首页 > news >正文

【AI基础】数据获取与整理、打标、增强方法、增强库imgaug

文章目录

  • 常见的数据集网站
  • 爬虫工具使用
    • 搜索引起图片爬虫
    • 视频网站爬虫
  • 数据整理
    • 数据检查和清洗
    • 数据去重
    • 数据集划分
  • 数据标注
    • 数据标注工具 label studio
  • 数据增强
    • 什么是数据增强
    • 单样本数据增强
    • 多样本数据增强
    • 样本生成方法
    • 数据增强imgaug
      • imgaug 操作
      • imgaug 使用

常见的数据集网站

*imagenet

  • hugging face

  • 自己采集与标注

  • 网络爬虫

爬虫工具使用

搜索引起图片爬虫

image-downloader
安装,然后根据关键词检索
在这里插入图片描述
在这里插入图片描述

视频网站爬虫

工具: iawia lux
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

数据整理

数据检查和清洗

  • 去除不好的损坏的图片: 损坏图片/ 动图/异常尺寸图片

  • 去除停用词和特殊符号
    在这里插入图片描述

  • 归一化

  • 内容纠错
    在这里插入图片描述

数据去重

重复数据
相似数据

数据集划分

训练集

  • 数据集难度划分

在这里插入图片描述
在这里插入图片描述

数据标注

数据标注工具 label studio

语音、文本、图片、视频等都可以进行标注
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 导出时会让选择是什么类别的 coco / yolo /…

数据增强

什么是数据增强

数据增广或者数据增扩
作用: 降低数据采集成本 降低过拟合风险降低
方法: 单样本、多样本、样本生成
在这里插入图片描述

单样本数据增强

几何变换: 翻转 、裁剪与缩放、仿射与透射变换
添加噪声 : 随机噪声、 coaesrDropout 、频域噪声
添加模糊、平滑
颜色扰动,改变颜色、亮度、对比度等
锐化 颜色反转
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

多样本数据增强

在这里插入图片描述

  • mixup :对图像和标签都进行线性插值

在这里插入图片描述

  • cutmix
    直接复制粘贴,作用: 增强样本的数量缓解类别不平衡
    在这里插入图片描述
  • mosiac : 多个样本拼接
    在这里插入图片描述

样本生成方法

当下两大主流生成模型:

  • 生成对抗网络
  • 扩散模型
    在这里插入图片描述

数据增强imgaug

ii

imgaug 操作

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
(添加噪声、压缩)
在这里插入图片描述
(删除像素点 删除通道)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

imgaug 使用

在这里插入图片描述
在这里插入图片描述

#coding:utf8
import numpy as np
import imgaug as ia
import imgaug.augmenters as iaaia.seed(1)## 创建矩阵(16, 64, 64, 3).
images = np.array([ia.quokka(size=(64, 64)) for _ in range(16)],  # quokka :小老鼠dtype=np.uint8
)seq = iaa.Sequential([iaa.Fliplr(0.5), ## 以0.5的概率进行水平翻转horizontal flipsiaa.Crop(percent=(0, 0.1)), ## 随机裁剪random crops## 对50%的图片进行高斯模糊,标准差参数取值0~0.5.iaa.Sometimes(0.5,iaa.GaussianBlur(sigma=(0, 0.5))),## 对50%的通道添加高斯噪声iaa.AdditiveGaussianNoise(loc=0, scale=(0.0, 0.05*255), per_channel=0.5),
], random_order=True) ## 以上所有操作,使用随机顺序images_aug = seq(images=images) ## 应用操作增强
grid_image = ia.draw_grid(images_aug,4)import imageio
imageio.imwrite("example.jpg", grid_image)

在这里插入图片描述

相关文章:

  • 【Linux】初识Linux和Linux环境配置
  • uniapp一些问题解决
  • 【国产中颖】SH79F9202U单片机驱动LCD段码液晶学习笔记
  • 第13章 层次式架构设计理论与实践
  • vs2013使用qt Linguist以及tr不生效问题
  • 用易查分制作研学活动报名,支持在线签名,一键导出报名统计表格!
  • java调用远程接口下载文件
  • 深度学习——卷积神经网络
  • 实战解析:爬取音乐每日推荐歌单并自动分享
  • TextFormField onSave 和onChange
  • 43-3 应急响应 - WebShell查杀工具
  • 三十、openlayers官网示例解析Double click, Drag and Zoom——第二次点击鼠标拖拽缩放地图效果、取消地图双击放大事件
  • Java中的super关键字详解
  • 探秘AI艺术:揭开Midjourney绘画的神秘面纱
  • excel表格里怎样不删除0,又不显示0呢?
  • 【comparator, comparable】小总结
  • 【MySQL经典案例分析】 Waiting for table metadata lock
  • 30天自制操作系统-2
  • Angular 响应式表单之下拉框
  • bearychat的java client
  • Docker: 容器互访的三种方式
  • HTTP中的ETag在移动客户端的应用
  • javascript 哈希表
  • JavaScript设计模式之工厂模式
  • LeetCode刷题——29. Divide Two Integers(Part 1靠自己)
  • Linux CTF 逆向入门
  • Linux gpio口使用方法
  • mysql 数据库四种事务隔离级别
  • nodejs:开发并发布一个nodejs包
  • React+TypeScript入门
  • Vue2 SSR 的优化之旅
  • vue-loader 源码解析系列之 selector
  • Vue小说阅读器(仿追书神器)
  • 持续集成与持续部署宝典Part 2:创建持续集成流水线
  • 每个JavaScript开发人员应阅读的书【1】 - JavaScript: The Good Parts
  • 使用Tinker来调试Laravel应用程序的数据以及使用Tinker一些总结
  • 学习HTTP相关知识笔记
  • 你对linux中grep命令知道多少?
  • ​​​​​​​ubuntu16.04 fastreid训练过程
  • ​linux启动进程的方式
  • ​直流电和交流电有什么区别为什么这个时候又要变成直流电呢?交流转换到直流(整流器)直流变交流(逆变器)​
  • #{}和${}的区别是什么 -- java面试
  • #鸿蒙生态创新中心#揭幕仪式在深圳湾科技生态园举行
  • (11)MATLAB PCA+SVM 人脸识别
  • (175)FPGA门控时钟技术
  • (2022 CVPR) Unbiased Teacher v2
  • (3)STL算法之搜索
  • (android 地图实战开发)3 在地图上显示当前位置和自定义银行位置
  • (第30天)二叉树阶段总结
  • (七)Knockout 创建自定义绑定
  • (实战)静默dbca安装创建数据库 --参数说明+举例
  • (一)使用IDEA创建Maven项目和Maven使用入门(配图详解)
  • ****** 二十三 ******、软设笔记【数据库】-数据操作-常用关系操作、关系运算
  • .Mobi域名介绍
  • .Net Core与存储过程(一)