中国研究人员推出强大开源视觉语言基础模型CogVLM - 谷动谷力

1. CogVLM是一款由中国研究人员介绍的强大开源视觉语言基础模型，通过深度整合语言和视觉信息，提升了跨模态任务的性能。

2. CogVLM采用了新颖的训练方法，通过可训练的视觉专家在VLM预训练期间提高语言模型的视觉理解能力，避免了深度整合方法性能不佳的问题。

3. 在14个典型的跨模态基准测试中，CogVLM-17B在图像字幕、视觉问答、图像定位等任务上表现出色，为视觉理解研究和工业应用带来了显著的积极影响。

站长之家（ChinaZ.com）11月13日消息:近日，中国研究人员介绍了一款名为CogVLM的强大开源视觉语言基础模型。该模型在视觉和语言信息的深度整合方面取得了显著的进展，通过引入可训练的视觉专家，在VLM预训练过程中提高了语言模型的视觉理解能力。与传统的深度整合方法相比，CogVLM-17B在多个跨模态基准测试中取得了领先或次领先的性能。

在过去的视觉语言模型中，采用的浅层对齐技术，如BLIP-2，通常通过可训练的Q-Former或线性层将图像特征传递到语言模型的输入嵌入空间，但效果有限。CogVLM通过引入p-tuning和LoRA等有效的微调方法，成功提升了视觉语言模型的性能。此外，CogVLM在训练过程中避免了深度整合方法中对自然语言处理（NLP）能力的牺牲，采用了可训练的视觉专家，使得模型在保持固定参数的同时提高了参数数量。

CogVLM在14个跨模态基准测试中表现出色，包括图像字幕、视觉问答、图像定位等任务，展现了其在视觉理解研究和工业应用中的潜力。此外，研究人员还开源了CogVLM-28B-zh，以支持中英文混合的商业应用。鉴于过去大多数知名的视觉语言模型都是闭源的，CogVLM的开源将为领域研究和实际应用带来显著的积极影响。

综上所述，CogVLM作为一款强大的开源视觉语言基础模型，通过创新的训练方法和深度整合策略，成功提高了视觉理解能力，为跨模态任务的性能提升开辟了新的途径。