当前位置：首页 > news >正文

【AIGC半月报】AIGC大模型启元：2024.09（上）

news 来源：原创 2024/9/20 12:19:40

【AIGC半月报】AIGC大模型启元：2024.09（上）

- (1) OCR-2.0（旷视科技）
- (2) MiniCPM 3.0（面壁智能）
- (3) RAGLAB（RAG框架）
- (4) Reflection 70B（HyperWrite）

(1) OCR-2.0（旷视科技）

2024.09.05 来自清华和旷视的研究团队提出了一个通用的OCR-2.0模型，其结构比OCR-1.0系统更简单，更专注于纯粹的OCR任务，并且具有更优越的性能。OCR-2.0将各种泛OCR任务集成到一个模型中，是模型设计、数据工程和应用场景中一个有价值的研究方向。团队推出GOT（General OCR Theory）模型的特点如下：

模型能力：模型能够处理各种OCR任务中的上述所有类型的“字符”。
参数规模：拥有5.8亿参数。
端到端设计：是一个统一且优雅的端到端模型，包含高压缩编码器和长上下文解码器。
输入支持：支持处理常用的场景和文档风格的图像，包括幻灯片和整页样式。
输出灵活：能够通过简单的提示生成纯文本或格式化结果（如markdown、tikz、smiles、kern）。
交互式OCR：具备交互式OCR功能，支持通过坐标或颜色引导的区域级识别。
适应性：为GOT适配了动态分辨率和多页OCR技术，增强了模型的实用性。

推荐文章： 迈向OCR-2.0新时代：通过统一的端到端模型，实现文本、数学公式、表格、图表及乐谱等内容的精确处理，同时支持场景和文档风格等

(2) MiniCPM 3.0（面壁智能）

2024.09.05 端侧 ChatGPT 时刻到来！
旗舰端侧模型面壁「小钢炮」系列进化为全新 MiniCPM 3.0 基座模型，再次以小博大，以 4B 参数，带来超越 GPT-3.5 的性能，强得不像端侧模型。并且，量化后仅 2GB 内存，端侧友好。
这还是一款瑞士军刀般全面开挂的基座模型，一口气带来：

无限长文本，榜单性能超越 Kimi，超长文本也不崩；
性能比肩 GPT-4o 的端侧最强 Function Calling；
超强 RAG 外挂三件套，中文检索第一、生成超 Llama3-8B。

推荐文章： 小模型杀疯了！仅4B参数性能超GPT-3.5！无限长文本性能超Kimi
模型地址： https://github.com/OpenBMB/MiniCPM

(3) RAGLAB（RAG框架）

2024.09.05 大型语言模型 (LLM) 在对话、推理和知识保留方面表现出色，但仍面临幻觉和知识实时更新等挑战。为解决这些问题，研究者采用检索增强生成 (RAG) 技术，但 RAG 的发展受限于缺乏算法比较和开源工具的透明度。为此，我们推出 RAGLAB，一个模块化、研究导向的开源库，重现 6 种算法并构建全面研究生态。借助 RAGLAB，我们在 10 个基准上公平对比 6 种算法，助力研究人员高效评估和创新算法。
RAGLAB 重现了六种已发表的 RAG 算法，分别是 Naive RAG、RRR、ITER-RETGEN、Self-ASK、Active RAG 和 Self-RAG。这些算法有诸多相似之处，每个高级的 RAG 算法本质上都是对 Naive RAG 的改进。
RAGALB 的设计理念源自 HuggingFace Transformer 库。用户只需从 Transformer 库中定义他们的模型，然后就能使用generate()方法进行推理。
RAGALB 将每个 RAG 算法实现为一个不同的类。每个算法类中的两个关键方法是init()和infer()。init()方法用于设置参数和加载生成器，而infer()方法实现算法的推理过程。

推荐文章： RAGLAB：又来一个RAG框架，还是模块化的
论文地址： https://arxiv.org/abs/2408.11381

(4) Reflection 70B（HyperWrite）

2024.09.06 快速更迭的开源大模型领域，又出现了新王：Reflection 70B。
横扫 MMLU、MATH、IFEval、GSM8K，在每项基准测试上都超过了 GPT-4o，还击败了 405B 的 Llama 3.1。
这个新模型 Reflection 70B，来自 AI 写作初创公司 HyperWrite。Reflection 70B 的底层模型建立在 Meta 的 Llama 3.1 70B Instruct 上，并使用原始的 Llama chat 格式，确保了与现有工具和 pipeline 的兼容性。
Reflection 70B 已在多个基准测试中经过严格测试，包括 MMLU 和 HumanEval。测试结果表明， Reflection 的表现始终优于 Meta 的 Llama 系列，并与 GPT-4o 等全球顶尖的商用模型展开了激烈竞争。

推荐文章： 刚刚，开源大模型的新王诞生了：超越GPT-4o，模型还能自动纠错
Hugging Face： https://huggingface.co/mattshumer/Reflection-70B
试用网址： https://reflection-playground-production.up.railway.app/