谷动谷力

 找回密码
 立即注册
查看: 1438|回复: 0
打印 上一主题 下一主题
收起左侧

中国研究人员推出强大开源视觉语言基础模型CogVLM

[复制链接]
跳转到指定楼层
楼主
发表于 2023-11-13 22:00:15 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式

中国研究人员推出强大开源视觉语言基础模型CogVLM


要点:
1. CogVLM是一款由中国研究人员介绍的强大开源视觉语言基础模型,通过深度整合语言和视觉信息,提升了跨模态任务的性能。
2. CogVLM采用了新颖的训练方法,通过可训练的视觉专家在VLM预训练期间提高语言模型的视觉理解能力,避免了深度整合方法性能不佳的问题。
3. 在14个典型的跨模态基准测试中,CogVLM-17B在图像字幕、视觉问答、图像定位等任务上表现出色,为视觉理解研究和工业应用带来了显著的积极影响。
站长之家(ChinaZ.com)11月13日 消息:近日,中国研究人员介绍了一款名为CogVLM的强大开源视觉语言基础模型。该模型在视觉和语言信息的深度整合方面取得了显著的进展,通过引入可训练的视觉专家,在VLM预训练过程中提高了语言模型的视觉理解能力。与传统的深度整合方法相比,CogVLM-17B在多个跨模态基准测试中取得了领先或次领先的性能。

image.png© 由 站长之家 提供



在过去的视觉语言模型中,采用的浅层对齐技术,如BLIP-2,通常通过可训练的Q-Former或线性层将图像特征传递到语言模型的输入嵌入空间,但效果有限。CogVLM通过引入p-tuning和LoRA等有效的微调方法,成功提升了视觉语言模型的性能。此外,CogVLM在训练过程中避免了深度整合方法中对自然语言处理(NLP)能力的牺牲,采用了可训练的视觉专家,使得模型在保持固定参数的同时提高了参数数量。
CogVLM在14个跨模态基准测试中表现出色,包括图像字幕、视觉问答、图像定位等任务,展现了其在视觉理解研究和工业应用中的潜力。此外,研究人员还开源了CogVLM-28B-zh,以支持中英文混合的商业应用。鉴于过去大多数知名的视觉语言模型都是闭源的,CogVLM的开源将为领域研究和实际应用带来显著的积极影响。
综上所述,CogVLM作为一款强大的开源视觉语言基础模型,通过创新的训练方法和深度整合策略,成功提高了视觉理解能力,为跨模态任务的性能提升开辟了新的途径。

+10
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|深圳市光明谷科技有限公司|光明谷商城|Sunshine Silicon Corpporation ( 粤ICP备14060730号|Sitemap

GMT+8, 2024-12-27 16:20 , Processed in 0.087816 second(s), 44 queries .

Powered by Discuz! X3.2 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表