大模型日报 2024-08-24
大模型日报
2024-08-24
大模型资讯
大模型产品
大模型论文
-
RuleAlign:提升LLM诊断能力的规则对齐框架
-
摘要: RuleAlign框架通过对齐诊断规则,提升GPT-4等大语言模型的诊断能力。实验结果证明该方法有效,展示了LLM作为AI医生的潜力。
-
MuMA-ToM:多模态多智能体心智理论模型
-
摘要: MuMA-ToM是首个评估多模态多智能体心智理论的基准,验证了LIMP模型在复杂社交场景中的优越性能。
-
Jamba-1.5: 混合Transformer-Mamba模型
-
摘要: Jamba-1.5是基于混合Transformer-Mamba架构的大型语言模型,具有高吞吐量和低内存使用,支持256K上下文长度。
-
ssProp: 高效卷积神经网络训练方法
-
摘要: 提出一种通用节能卷积模块,通过通道稀疏性和梯度选择调度器减少40%计算量,降低能耗和碳足迹。
-
MedS-Bench: 医疗大模型评估与构建
-
摘要: 本文提出MedS-Bench基准,评估6种大模型在11项临床任务中的表现,并开发了MedS-Ins数据集提升模型性能。
-
MEDCO: 基于多代理系统的医学教育助手
-
摘要: MEDCO通过模拟真实医疗环境,结合多代理系统,提升医学教育中的互动性和多学科协作,显著改善学生学习表现。
-
GenderCARE: 大型语言模型性别偏见评估与减缓框架
-
摘要: GenderCARE框架通过创新标准和技术,评估与减少大型语言模型中的性别偏见,涵盖多样性和包容性。
-
Vintern-1B: 高效越南语多模态大模型
-
摘要: Vintern-1B结合Qwen2-0.5B语言模型与InternViT-300M视觉模型,优化越南语OCR、文档提取及问答任务。
-
时序序列感知模型在少样本动作识别中的应用
-
摘要: 本文提出了一种新颖的时序序列感知模型(TSAM)用于少样本动作识别,结合空间和时序动态信息。实验结果表明,该方法在五个数据集上均设立了新基准。
大模型开源项目
-
QuivrHQ: 开源RAG框架
-
摘要: QuivrHQ是一个开源的RAG框架,支持使用Langchain和GPT等技术构建生产力助手,能高效检索和生成内容。
-
微软Phi-3小型语言模型指南
-
摘要: Phi-3是微软开发的开源AI模型家族,具备高性价比,超越同类和更大模型,适用于语言、推理、编码和数学等领域。
-
VILA: 多图像视觉语言模型
-
摘要: VILA是一个多图像视觉语言模型,提供训练、推理和评估方案,可从云端部署到边缘设备(如Jetson Orin和笔记本电脑)。
-
deepset-ai: 可定制的LLM应用框架
-
摘要: deepset-ai是一个LLM编排框架,适用于构建RAG、问答、语义搜索和对话代理聊天机器人,支持高级检索方法。
以上就是20240824的大模型日报,很高兴为你服务!
本文由 mdnice 多平台发布