当前位置: 首页 > news >正文

计算机视觉8 图像增广

图像增广(image augmentation)是通过对训练图像进行一系列随机改变,从而产生相似但又不同的训练样本的技术。

图像增广有以下两个主要作用:

  1. 扩大训练数据集的规模;
  2. 随机改变训练样本可以降低模型对某些属性的依赖,从而提高模型的泛化能力。

例如,通过不同方式裁剪图像,使感兴趣的物体出现在不同位置,可以减轻模型对物体出现位置的依赖性;调整亮度、色彩等因素能降低模型对色彩的敏感度。

一些常见的图像增广方法包括:

  1. 翻转:如左右翻转(通过torchvision.transforms.RandomHorizontalFliptf.image.random_flip_left_right实现)和上下翻转(通过torchvision.transforms.RandomVerticalFliptf.image.random_flip_up_down实现),通常不会改变对象的类别。
  2. 随机裁剪:随机裁剪一个面积为原始面积一定比例(如10%到100%)的区域,该区域的宽高比也在一定范围内随机取值(如0.5到2),然后将该区域的宽度和高度缩放到指定像素(如200像素)。例如,使用torchvision.transforms.RandomResizedCroptf.image.random_crop
  3. 亮度变化:将图像的亮度随机调整为原图亮度的一定比例范围(如50%到150%),可通过torchvision.transforms.ColorJitter中的brightness参数或tf.image.random_brightness实现。
  4. 色调变化:随机更改图像的色调,如使用torchvision.transforms.ColorJitter中的hue参数或tf.image.random_hue
  5. 颜色变化:还可以同时随机更改图像的亮度、对比度、饱和度和色调,创建torchvision.transforms.ColorJitter实例并设置相应参数即可。
  6. 组合多种方法:可以使用torchvision.transforms.Compose将多个图像增广方法组合起来应用到图像上。

在实践中,通常仅在训练样本上进行图像增广,而在预测过程中不使用随机操作的图像增广,以获得确切的结果。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • VScode:前端项目中yarn包的安装和使用
  • 上位机图像处理和嵌入式模块部署(香橙派AI Pro开发板试用)
  • Windows FFmpeg 开发环境搭建
  • 将iPad 作为Windows电脑副屏的几种方法(二)
  • 《从C/C++到Java入门指南》- 15. Arrays.sort() JDK接口的使用
  • cmake configure_package_config_file指令详解
  • 【Django】网上蛋糕商城后台-商品管理
  • Linux C++ 058-设计模式之解释器模式
  • Perl 语言的特点
  • MyBatis中的优点和缺点?
  • Linux开发板上拷贝文件
  • ES6 数组的扩展(十六)
  • Python面试宝典第15题:岛屿数量
  • CentOS6minimal安装nginx-1.26.1.tar.gz 笔记240718
  • 使用Docker 实现 MySQL 循环复制(三)
  • JS基础篇--通过JS生成由字母与数字组合的随机字符串
  • Magento 1.x 中文订单打印乱码
  • Netty源码解析1-Buffer
  • PAT A1092
  • PHP CLI应用的调试原理
  • Python连接Oracle
  • seaborn 安装成功 + ImportError: DLL load failed: 找不到指定的模块 问题解决
  • springMvc学习笔记(2)
  • 分布式事物理论与实践
  • 前端每日实战:61# 视频演示如何用纯 CSS 创作一只咖啡壶
  • 实现简单的正则表达式引擎
  • 微信公众号开发小记——5.python微信红包
  • 因为阿里,他们成了“杭漂”
  • 《码出高效》学习笔记与书中错误记录
  • ​软考-高级-系统架构设计师教程(清华第2版)【第1章-绪论-思维导图】​
  • #### go map 底层结构 ####
  • #NOIP 2014# day.1 T2 联合权值
  • #QT(智能家居界面-界面切换)
  • #基础#使用Jupyter进行Notebook的转换 .ipynb文件导出为.md文件
  • #每天一道面试题# 什么是MySQL的回表查询
  • (¥1011)-(一千零一拾一元整)输出
  • (1)无线电失控保护(二)
  • (12)Hive调优——count distinct去重优化
  • (2)关于RabbitMq 的 Topic Exchange 主题交换机
  • (42)STM32——LCD显示屏实验笔记
  • (ISPRS,2023)深度语义-视觉对齐用于zero-shot遥感图像场景分类
  • (八)Flask之app.route装饰器函数的参数
  • (创新)基于VMD-CNN-BiLSTM的电力负荷预测—代码+数据
  • (亲测有效)解决windows11无法使用1500000波特率的问题
  • (十)DDRC架构组成、效率Efficiency及功能实现
  • (十六)视图变换 正交投影 透视投影
  • (学习总结16)C++模版2
  • (转)winform之ListView
  • (转)负载均衡,回话保持,cookie
  • (转)树状数组
  • .net mvc actionresult 返回字符串_.NET架构师知识普及
  • .NET 设计模式初探
  • .net 使用$.ajax实现从前台调用后台方法(包含静态方法和非静态方法调用)
  • .Net 中Partitioner static与dynamic的性能对比
  • .NET/C# 在 64 位进程中读取 32 位进程重定向后的注册表