当前位置：首页 > news >正文

multimodel ocr dataset

news 来源：原创 2024/9/20 21:29:12

InternLM-XComposer2-4KHD

InternLM-XComposer2-4KHD=
a light-weight Vision Encoder OpenAI ViT-Large/14+Large Language Model InternLM2-7B,

这篇论文采用的是一种动态分辨率的输入；
全图有一个global view,resize到336*336；
然后把图片resize再padding到336的整数倍划分成patch;
然后为了保留图片的2D信息，每一行结束的时候有个\n的分隔符，不同view之间有个sp分割符
在这里插入图片描述

在这里插入图片描述
We keep the ViT resolution as 336 × 336 and increase the input resolution with more patches. For the Dynamic Image Partition strategy, we use ‘HD-25’ for the pertaining

以下是一些预训练的策略：
实际pretrain的时候是HD-25,每4个token会concat和MLP成为一个token；
再finetune阶段是混合的策略，对于需要高分辨率的任务，比如说图表，就采用的分辨率HD55,，有一些是origin_size_{HD30,还有一些是HD25};
在这里插入图片描述

在这里插入图片描述

In terms of other OCR-related tasks, the
performance gain attributable to increased resolution is relatively minor.
在其他任务上，提升分辨率带来的收益比较小，但是对于ocr任务而言，提升分辨率带来的收益比较大；

全局试图的影响非常大：
在这里插入图片描述

在这里插入图片描述
当固定token数目的时候，是否使用换行符\n影响不大，但是tokens数目非常动态的时候，不使用换行符会导致性能降低；

在这里插入图片描述

InternVL-2.0的ocr数据集构建

https://internvl.github.io/blog/2024-07-02-InternVL-2.0/

![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/5bd5fd44bc5d447e82ecb5ba8f3438ec.png

How Far Are We to GPT-4V?

Closing the Gap to Commercial Multimodal Models with Open-Source Suites
在这里插入图片描述
训练ocr任务的时候会把visiual encoder和mlp都打开；

在这里插入图片描述

Blip3

在这里插入图片描述

blip3训练的时候没有带上框，论文里面说可以训练下带上框的潜力；
200M的标注中有些包含框，有些没有包含框：

预训练数据越多，评测效果越好；
在这里插入图片描述
不同backbone的选择对于ocr任务的影响比较大；

使用不同的visual tokens数目带来的影响差别不大；

不同分辨率输入的结果：

相关文章：

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

密码学基础---椭圆曲线一文打尽

鸿蒙开发入门day10-组件导航

Python办公自动化：使用openpyxl 创建与保存 Excel 工作簿

MATLAB 手动实现投影密度法分割建筑物立面（73）

Chart.js：内容、优点及使用方法

常见的排序算法汇总（详解篇）

稚晖君发布5款全能人形机器人，开源创新，全能应用

单体应用spring Task和分布式调度

CDN劫持总结

MK米客方德推出新一代工业级SD NAND——更长寿命、更高速度、更优功耗

白骑士的C#教学实战项目篇 4.1 控制台应用程序

凹凸纹理概念

定长滑动窗口算法

【SQL】科目种类

10个创意提示：让你的内容焕然一新！

【跃迁之路】【477天】刻意练习系列236（2018.05.28）

angular组件开发

C++回声服务器_9-epoll边缘触发模式版本服务器

CoolViewPager:即刻刷新,自定义边缘效果颜色,双向自动循环,内置垂直切换效果,想要的都在这里...

Date型的使用

ES10 特性的完整指南

express + mock 让前后台并行开发

Go 语言编译器的 //go: 详解

Javascripit类型转换比较那点事儿，双等号（==）

java第三方包学习之lombok

Koa2 之文件上传下载

log4j2输出到kafka

MySQL用户中的%到底包不包括localhost?

quasar-framework cnodejs社区

ubuntu 下nginx安装并支持https协议

诡异！React stopPropagation失灵

机器学习 vs. 深度学习

解决iview多表头动态更改列元素发生的错误

树莓派 - 使用须知

正则表达式小结

Play Store发现SimBad恶意软件，1.5亿Android用户成受害者 ...

iOS实时查看App运行日志

# 利刃出鞘_Tomcat 核心原理解析（八）-- Tomcat 集群

###STL(标准模板库)

#APPINVENTOR学习记录

#如何使用 Qt 5.6 在 Android 上启用 NFC

$ is not function 　　和JQUERY 命名冲突的解说 Jquer问题 (

$.ajax,axios,fetch三种ajax请求的区别

（4）STL算法之比较

（C语言）fgets与fputs函数详解

（多级缓存）多级缓存

（二）pulsar安装在独立的docker中，python测试

（附源码）php投票系统毕业设计 121500

（力扣记录）1448. 统计二叉树中好节点的数目

（论文阅读笔记）Network planning with deep reinforcement learning

（一）ClickHouse 中的 `MaterializedMySQL` 数据库引擎的使用方法、设置、特性和限制。

（原创）Stanford Machine Learning (by Andrew NG) --- (week 9) Anomaly DetectionRecommender Systems...

(原創) 系統分析和系統設計有什麼差別? (OO)

.【机器学习】隐马尔可夫模型（Hidden Markov Model，HMM）

.Family_物联网