当前位置: 首页 > news >正文

新一代视频AI服务,阿里云智能视觉重磅发布

3月27日下午,第51期阿里云产品发布会-智能视觉产品隆重发布,本次产品发布会首次面向全网用户深入的解读了智能视觉的前世今生。

行业背景

随着人工智能的技术不断成熟,AI逐渐在各行业内落地。在新零售领域,我们通过物体识别判断货品位置和数量;甚至在养猪场,用AI技术检测养猪的位置及数量等等。然而除了一些非常成熟的基础感知层AI能力如人脸识别、OCR等可以直接应用,实际上绝大部分场景都需要用业务标注数据来进行单独训练的,所以定制化的需求越来越多。每个定制化的模型,都是需要算法工程师通过大量的自身业务标注数据,经过不断的演算、测试、训练,来搭建深度神经网络模型。而实际上传统企业想要自建训练模型又将面临着专业人才十分稀缺、开发落地周期冗长等等困境。

如此一来,如何以最低的成本实现AI技术落地变成了行业急需解决的问题。

新一代视频AI服务——智能视觉

近期,阿里云发布智能视觉产品,帮助零机器学习背景、零算法基础的企业或者开发者们,实现高质量定制化模型训练的快速落地,具备图像分类、物体检测、直播识别等AI能力,可有效应用于视频监控、互联网短视频内容识别归类、新零售物件统计、工业质检等场景。

有了智能视觉,即使零算法基础的开发者,都可以进行页面化一键式训练和预测。通过上传少量业务数据,快速训练定制化模型,最快10分钟完成训练和部署。

请输入图片描述

智能视觉整体的产品架构是:用户通过对象存储OSS导入或本地上传图片训练集,对图像及图像内物体进行标签管理,实现一键训练(目前已经支持图像分类和物体检测),标注好之后一键生成迭代,生成业务定制专属模型,并可以通过迭代来不断完善模型的准召率、精准度,最终以API的形式将模型训练能力快速输出应用于业务之中,同时支持对图片、视频、直播流、监控流等多种格式的预测。

请输入图片描述

智能视觉技术原理

市场上大部分AI的服务是基于图片进行处理,在面对视频的时候,通常把视频按照固定的时间间隔采样出来,批量截取画面并进行结果汇聚。这样对视频的处理方式普遍存在时效性差、稳定差、复杂性高、信息丢失等问题。

基于阿里云视频云团队多年音视频编解码、媒体处理相关技术经验,智能视觉构建全新的面向视频架构:把视频作为第一类对象(First-Class Object)来看待。把视频解码、时间域分析、智能汇聚、音频处理等引入到系统里面来,把视频处理和AI计算有机结合,以面向视频的方式,在视频处理的同时完成AI计算,精简的流程能够大幅度缩短处理时间,从时间维度提升分析效果,并能简化业务架构,让用户聚焦在核心业务的发展上。为用户提供高效稳定、简单易用、功能丰富的视频AI服务。

请输入图片描述

点击阅读阿里云高级技术专家周源:《面向视频的全新AI架构 ——智能视觉技术全解》全文

智能视觉产品优势

一、少量样本,更高精度

在深度学习层面,在其他条件相同的情况下,数据越多训练效果是越好的。这就产生了一个问题,更好的效果一定需要更多的数据,这需要花费大量的人力去标注。

智能视觉采用数据增广策略,增加数据的多样性,加强模型泛化能力,对图像进行旋转、斜切、仿射变换、对比度调整、色度变化、水平镜像等变换,增加数据量,同时保持增广数据的真实性,实现了少量数据情况下效果增强10-15%的训练效果,同时有效降低标注数据的人力和时间成本。

二、迁移学习,训练高效

智能视觉运用迁移学习的技术,根据自然图像中的基础边缘、色块、纹理的规律来归纳物体特征,并且通过在浅层网络中复用这些基础特征,来减少标注数据,能以更快的时间、更高的质量生成业务场景相关数据,大幅度减少数据需求,进一步减少计算量,达到缩短新模型训练时间的效果。大概规模在100张的图片,生成模型只需要10分钟。

三、全面模型效果评估,快速迭代

基于阿里云视频云团队多年丰富的视频处理经验,针对用户训练的模型给出专业的、全面的效果评估,同时用户也可以选择自己上传图片、直播、监控等视频流输入进行校验,如果觉得准确率不够高的话,还可以再次上传数据进行再一次训练,实现快速迭代。

四、全界面化操作,降低人力和时间成本

有了智能视觉,就意味着原本需要众多专业AI和算法工程师才能搭建好的AI模型,现在在控制台上通过简单的点击和上传图片,甚至完全不需要代码,就可以完成了,整个过程操作简单,从数据、模型到接口,一站式服务,全界面化管理,可以节省大量的人力成本和时间成本,实现快速落地。

如何接入智能视觉

在发布会中,智能视觉的产品经理袁华良为网友演示了从零开始搭建一个训练模型的整个过程。

第一步,在阿里云官网智能视觉产品详情页快速了解产品信息,申请开通,审批通过后登录控制台,按照指引完成开通。

请输入图片描述

第二步,首次登陆,点击马上创建模型。

请输入图片描述

第三步,添加模型,上传图片,在图片中进行标注。为了让训练的数据更接近真实效果,建议一个模型至少有2个分类,每个分类的图片不少于15张。上传完成后,点击一键训练即可。

请输入图片描述

第四步,训练结果返回后,可以看控制台中看到准确率、召回率、mAP等数据。当训练结果评估或者校验结果不理想的时候,可以将新图片加入训练集,重新进行标注,进行再一次训练与模型迭代。

请输入图片描述

目前控制台支持本地导入数据,API接口也支持从OSS、直播流、监控流的数据导入,点击查看具体的接入文档详情。

应用场景

智能视觉可应用在视频监控领域,根据监控画面中的内容,判断是否为出现违规现象,如出现车辆,打斗等;同时可以应用在互联网短视频领域,基于图像对内容识别归类,进行精准推送,提升用户的点击率和观看体验;在新零售领域,智能视觉可以检测实体店货架中的货品摆放位置及数量统计,减少巡检工作量。同时,在工业质检、农业养殖、医疗诊断等场景也可以有很好的应用。

请输入图片描述

目前智能视觉在阿里云官网开放公测,用户可以在线提交信息,进行免费试用的申请。我们欢迎各产业的伙伴们与阿里云共建视频领域的AI应用。

阿里云视频云团队具有多年音视频编解码、媒体处理经验,基于人工智能、深度学习技术,通过视频多模态内容理解、结构化分析处理,推出视频审核、视频DNA、视频智能生产、智能视觉等能力,并且与点播、直播、短视频、CDN内容分发、边缘计算组合形成一站式智能视频服务。欢迎大家登陆官网视网膜了解视频AI产品家族。

请输入图片描述

原文链接:https://yq.aliyun.com/articles/695507

转载于:https://blog.51cto.com/13927391/2372999

相关文章:

  • 从代码看 asp.net 处理过程
  • CentOS 7 Shell脚本编程第十二讲 case语句
  • 酷不酷,就来看我家的车库!李彦宏说“我们的无人车刚换了大车库”
  • python:使用Fabric自动化你的任务
  • 用Swift写输入日期计算天数的Demo
  • 快看漫画大数据平台的模型思维与用户增长实践
  • ViewPager 详解(五)-----使用Fragment实现ViewPager滑动
  • Spring boot 微服务核心组件集 mica v1.0.1 发布
  • Oracle导出表(即DMP文件)的两种方法
  • EVE-NG简单入门介绍
  • Sqlite数据库中索引的使用、索引的优缺点[转]
  • [NOI2012]迷失游乐园
  • WinPhone学习笔记(四)——磁贴
  • 第六周作业
  • NLPIR(北理工张华平版中文分词系统)的SDK(C++)调用方法
  • javascript从右向左截取指定位数字符的3种方法
  • JS基础之数据类型、对象、原型、原型链、继承
  • log4j2输出到kafka
  • macOS 中 shell 创建文件夹及文件并 VS Code 打开
  • Spark in action on Kubernetes - Playground搭建与架构浅析
  • Vue.js 移动端适配之 vw 解决方案
  • 搭建gitbook 和 访问权限认证
  • 关于 Linux 进程的 UID、EUID、GID 和 EGID
  • 关于extract.autodesk.io的一些说明
  • 基于Mobx的多页面小程序的全局共享状态管理实践
  • 提升用户体验的利器——使用Vue-Occupy实现占位效果
  • 小程序开发中的那些坑
  • 异常机制详解
  • AI又要和人类“对打”,Deepmind宣布《星战Ⅱ》即将开始 ...
  • 不要一棍子打翻所有黑盒模型,其实可以让它们发挥作用 ...
  • (差分)胡桃爱原石
  • (十八)三元表达式和列表解析
  • (一)kafka实战——kafka源码编译启动
  • **PHP分步表单提交思路(分页表单提交)
  • .bat批处理(十一):替换字符串中包含百分号%的子串
  • .net core 6 集成 elasticsearch 并 使用分词器
  • .Net Core/.Net6/.Net8 ,启动配置/Program.cs 配置
  • .net 程序发生了一个不可捕获的异常
  • .NET/C# 解压 Zip 文件时出现异常:System.IO.InvalidDataException: 找不到中央目录结尾记录。
  • [ Linux Audio 篇 ] 音频开发入门基础知识
  • [.NET]桃源网络硬盘 v7.4
  • [].slice.call()将类数组转化为真正的数组
  • [AIGC 大数据基础]hive浅谈
  • [ANT] 项目中应用ANT
  • [AR]Vumark(下一代条形码)
  • [BetterExplained]书写是为了更好的思考(转载)
  • [bzoj4010][HNOI2015]菜肴制作_贪心_拓扑排序
  • [C++]unordered系列关联式容器
  • [C++]二叉搜索树
  • [C进阶] 数据在内存中的存储——浮点型篇
  • [ffmpeg] 定制滤波器
  • [Java][Android][Process] ProcessBuilder与Runtime差别
  • [LeetCode]—Copy List with Random Pointer 深度复制带“任意指针”的链表
  • [LeetCode]Reverse Linked List II
  • [LeetCode周赛复盘] 第 312 场周赛20220925