参会记录|2024 中国多媒体大会
前言:2024年7月24日-26日,前往宁夏银川参加今年的中国多媒体大会,切实感受AI在各行各业的全面开花🌼,现对本次会议的收获进行总结记录。
中国多媒体大会 ChinaMM (csig.org.cn)
主要收听的专题的报告如下:
1: 智能艺术与设计Al Art & Design
2: AIGC与媒体内容安全
3: AI4Food:食品和健康计算
此外,还收听了一些零散的学术报告,以及快手、华为等企业的讲座。
通过本次大会,可谓收获满满,拓宽了认知边界, 以下是我本人结合以往研究经历总结的AI赋能各大场景的现状,可以看到在各行各业,AI都在散发着自己的光芒,未来,AI将会深入我们的生活,让我们的生活更加便捷。
记不清是哪位老师说的,场景化是AI应用的关键,在会场时,这种感觉尤其强烈,AI正在改变我们的生活,也希望我们正在进行的研究能够使得AI变得更加美好!
额外收获
- 通用图像分割模型:Meta 发布的 Segment Anything Model(SAM)
- 视频生成模型:Sora、Pika、Runway
中科深健:融合前沿食品视觉识别技术理念, 围绕食堂多场景智慧营养餐厅应用,研发了菜品识别结算系统、餐盘识别结算系统、 深健智慧食堂管理系统、用户健康管理app等多个软硬件系统。PS:体验了一下他们的菜品识别营养评估系统,由于我国菜品丰富,在识别准确率方面该系统还有很大的提升空间。
参考资料
- Food Recommendation: Framework, Existing Solutions, and Challenges. TMM, 2020.
- “健康+AI”生态创新大赛启幕 让全球看见“数智伊利”新力量-新华网 (xinhuanet.com)
- [2308.14346] DISC-MedLLM: Bridging General Large Language Models and Real-World Medical Consultation (arxiv.org)
- [2309.17421] The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision) (arxiv.org)
- [2312.04461] PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding (arxiv.org)
- [2401.07519] InstantID: Zero-shot Identity-Preserving Generation in Seconds (arxiv.org)
- [2406.10261] FoodSky: A Food-oriented Large Language Model that Passes the Chef and Dietetic Examination (arxiv.org)
- [2407.05161] A Survey of Datasets for Information Diffusion Tasks (arxiv.org)
- HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data. CVPR, 2024