谷动谷力

 找回密码
 立即注册
查看: 187|回复: 0
打印 上一主题 下一主题
收起左侧

Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型

[复制链接]
跳转到指定楼层
楼主
发表于 2024-4-13 18:23:59 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
Meta AI推MA-LMM:用于长视频理解的记忆增强多模态大模型


划重点:
LLMs在文本数据上展现出了令人印象深刻的能力,但在处理视频输入方面存在限制。
MA-LMM采用了记忆增强的方式,通过在线处理视频帧和存储特征来有效地解决了这些限制。
MA-LMM在各种任务中表现出了优越性能,包括长期视频理解、视频问答、视频字幕生成和在线动作预测等。

4月12日 消息:Meta AI近日推出了一种名为MA-LMM的新型模型,旨在解决长期视频理解中的挑战。LLMs在处理文本数据时表现出了令人印象深刻的能力,但在处理视频输入方面存在一些限制,例如上下文长度限制和GPU内存限制。

为了克服这些限制,研究人员提出了MA-LMM,这是一种记忆增强的大型多模态模型,采用了在线处理视频帧和存储特征的方法。






MA-LMM模型的核心思想是通过顺序处理视频帧并将特征存储在长期记忆库中,以有效地保留长视频序列中的判别信息。该模型由三个主要组件组成:视觉特征提取器、可训练的查询变压器(Q-Former)以及大型语言模型。通过这种结构,MA-LMM能够在不增加GPU内存负担的情况下,显著提高处理长视频序列的效率,并有效地解决了LLMs中的上下文长度限制问题。




实验证明,MA-LMM在各种任务中表现出了优越性能。与现有模型相比,在长期视频理解、视频问答、视频字幕生成和在线动作预测等任务中,MA-LMM均取得了更好的效果。其创新性的设计以及利用长期记忆库和顺序处理的方法使得该模型能够在各种复杂场景下取得显著成果,证明了其在多模态视频理解应用中的有效性和多功能性。


+10
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|深圳市光明谷科技有限公司|光明谷商城|Sunshine Silicon Corpporation ( 粤ICP备14060730号|Sitemap

GMT+8, 2024-5-20 14:38 , Processed in 0.080119 second(s), 42 queries .

Powered by Discuz! X3.2 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表