原文:https://mp.weixin.qq.com/s/NeSIBtjZ71evn09NPEAc2Q美国时间本周二,AMD举行了重磅发布会,推出了一款全新的人工智能GPU Instinct MI300,并表示这款处理器将于今年晚些时候开始向部分客户发货。自英伟达发布了AI芯片后,便彻底带动了市场的投资热情,也推动英伟达登上万亿美元市值的高峰。此次AMD发布重磅AI芯片,有望对英伟达当前的市场地位形成一定冲击。AMD推出高性能AI芯片在这次AMD的新品发布会中,核心产品无疑是用于训练大模型的GPU Instinct MI300。早在今年初,AMD便已经宣布了新一代Instinct MI300,是全球首款同时集成CPU、GPU的数据中心APU。
原文:https://mp.weixin.qq.com/s/GcsAk_qqqWfwck4KSdvJew就在今天凌晨,OpenAI 马不停蹄地又双叒叕更新啦!这一次,不仅重磅升级了 ChatGPT 背后的 GPT-3.5-turbo 模型、以及最先进的 GPT-4 文本生成模型,而且大幅降低了价格,另外还为 gpt-3.5-turbo 提供 16000 个 Token 的语境窗口(Context Window)上下文选项。
原文:https://mp.weixin.qq.com/s/TsjS-2b-UEE7zsWLA2f7AAOpenAI、DeepMind 和 Stability AI 的科学家科普 AI 治理,Google、Meta 和微软的领航人物共论开源未来,图灵奖得主与斯坦福、UC Berkeley、MIT 的教授展开学术辩论——这描述的并不是远在大洋彼岸的 NeurIPS 或 ACL 会议,而是由中国智源研究院主办的年度盛会:北京智源大会。今年的北京智源大会于 6 月 9-10 日召开,20 场论坛、100 场报告、顶尖的专家、顶尖的观众,汇聚了 AI 领域纯粹、专业的前沿思想。OpenAI 创始人 Sam Altman 以及“深度学习三巨头”中的两位 Yann LeCun 与 Geoffrey Hinton 现身于分论坛视频连线的大荧幕上,Max Tegmark 与 Stuart Russell 等来自顶尖学府的教授亲赴现场。
原文:https://mp.weixin.qq.com/s/1MfOWcE9x7Vk7tP2n1V4bg背景在机器学习领域中,学习不平衡的标注数据一直是一个常见而具有挑战性的任务。近年来,视觉 Transformer 作为一种强大的模型,在多个视觉任务上展现出令人满意的效果。然而,视觉 Transformer 处理长尾分布数据的能力和特性,还有待进一步挖掘。目前,已有的长尾识别模型很少直接利用长尾数据对视觉 Transformer(ViT)进行训练。基于现成的预训练权重进行研究可能会导致不公平的比较结果,因此有必要对视觉 Transformer 在长尾数据下的表现进行系统性的分析和总结。
论文链接:https://arxiv.org/abs/2212.02015代码链接:https://github.com/XuZhengzhuo/LiVT本文旨在填补这一研究空白,详细探讨了视觉 Transformer 在处理长尾数据时的优势和不足之处。本文将重点关注如何有效利用长尾数据来提升视觉 Transformer 的性能,并探索解决数据不平衡问题的新方法。通过本文的研究和总结,研究团队有望为进一步改进视觉 Transformer 模型在长尾数据任务中的表现提供有益的指导和启示。这将为解决现实世界中存在的数据不平衡问题提供新的思路和解决方案。文章通过一系列实验发现,在有监督范式下,视觉 Transformer 在处理不平衡数据时会出现严重的性能衰退,而使用平衡分布的标注数据训练出的视觉 Transformer 呈现出明显的性能优势。相比于卷积网络,这一特点在视觉 Transformer 上体现的更为明显。另一方面,无监督的预训练方法无需标签分布,因此在相同的训练数据量下,视觉 Transformer 可以展现出类似的特征提取和重建能力。基于以上观察和发现,研究提出了一种新的学习不平衡数据的范式,旨在让视觉 Transformer 模型更好地适应长尾数据。通过这种范式的引入,研究团队希望能够充分利用长尾数据的信息,提高视觉 Transformer 模型在处理不平衡标注数据时的性能和泛化能力。文章贡献本文是第一个系统性的研究用长尾数据训练视觉 Transformer 的工作,在此过程中,做出了以下主要贡献:首先,本文深入分析了传统有监督训练方式对视觉 Transformer 学习不均衡数据的限制因素,并基于此提出了双阶段训练流程,将视觉 Transformer 模型内在的归纳偏置和标签分布的统计偏置分阶段学习,以降低学习长尾数据的难度。其中第一阶段采用了流行的掩码重建预训练,第二阶段采用了平衡的损失进行微调监督。
原文:https://mp.weixin.qq.com/s/A_MmOIOQ08SzWntpd6VYGg去年初,Meta 首席 AI 科学家 Yann LeCun 针对「如何才能打造出接近人类水平的 AI」提出了全新的思路。他勾勒出了构建人类水平 AI 的另一种愿景,指出学习世界模型(即世界如何运作的内部模型)的能力或许是关键。这种学到世界运作方式内部模型的机器可以更快地学习、规划完成复杂的任务,并轻松适应不熟悉的情况。LeCun 认为,构造自主 AI 需要预测世界模型,而世界模型必须能够执行多模态预测,对应的解决方案是一种叫做分层 JEPA(联合嵌入预测架构)的架构。该架构可以通过堆叠的方式进行更抽象、更长期的预测。6 月 9 日,在 2023 北京智源大会开幕式的 keynote 演讲中,LeCun 又再次讲解了世界模型的概念,他认为基于自监督的语言模型无法获得关于真实世界的知识,这些模型在本质上是不可控的。
通过自监督学习获取常识型知识I-JEPA 基于一个事实,即人类仅通过被动观察就可以了解关于世界的大量背景知识,这些常识信息被认为是实现智能行为的关键。通常,AI 研究人员会设计学习算法来捕获现实世界的常识,并将其编码为算法可访问的数字表征。为了高效,这些表征需要以自监督的方式来学习,即直接从图像或声音等未标记的数据中学习,而不是从手动标记的数据集中学习。在高层级上,JEPA 的一个输入中某个部分的表征是根据其他部分的表征来预测的。同时,通过在高抽象层次上预测表征而不是直接预测像素值,JEPA 能够直接学习有用的表征,同时避免了生成模型的局限性。相比之下,生成模型会通过删除或扭曲模型输入的部分内容来学习。然而,生成模型的一个显著缺点是模型试图填补每一点缺失的信息,即使现实世界本质上是不可预测的。因此,生成模型过于关注不相关的细节,而不是捕捉高级可预测的概念。
- 论文地址:https://arxiv.org/pdf/2301.08243.pdf
- GitHub 地址:https://t.co/DgS9XiwnMz
https://mp.weixin.qq.com/s/Eeuea9l_iQ87eMghCIHpMQ家人们,现在做个影视级视频,也就是一句话的事了!例如只需简单输入“丛林(Jungle)”,大片镜头便可立刻呈现:而且围绕着“丛林”变换几个搭配的词语,比如“河流”、“瀑布”、“黄昏”、“白天”等,这个AI也能秒懂你的意思。还有下面这些自然美景、宇宙奇观、微观细胞等高清视频,统统只需一句话。
上海外滩夜景,影视风格。
https://mp.weixin.qq.com/s/39imonlyIdSHYW9VnQhOjw人工智能(AI)正在向 AGI 方向发展,这是指人工智能系统能够执行广泛的任务,并可以表现出类似于人类的智能水平,狭义上的 AI 就与之形成了对比,因为专业化的 AI 旨在高效执行特定任务。可见,设计通用的基础模型迫在眉睫。基础模型在广泛的数据上训练,因而能够适应各种下游任务。最近 Meta 提出的分割一切模型(Segment Anything Model,SAM)突破了分割界限,极大地促进了计算机视觉基础模型的发展。SAM 是一个提示型模型,其在 1100 万张图像上训练了超过 10 亿个掩码,实现了强大的零样本泛化。许多研究人员认为「这是 CV 的 GPT-3 时刻,因为 SAM 已经学会了物体是什么的一般概念,甚至是未知的物体、不熟悉的场景(如水下、细胞显微镜)和模糊的情况」,并展示了作为 CV 基本模型的巨大潜力。为了充分了解 SAM,来自香港科技大学(广州)、上海交大等机构的研究者对其进行了深入研究并联合发表论文《 A Comprehensive Survey on Segment Anything Model for Vision and Beyond 》。
论文链接:https://arxiv.org/abs/2305.08196作为首个全面介绍基于 SAM 基础模型进展的研究,该论文聚焦于 SAM 在各种任务和数据类型上的应用,并讨论了其历史发展、近期进展,以及对广泛应用的深远影响。本文首先介绍了包括 SAM 在内的基础模型的背景和术语,以及对分割任务有重要意义的最新方法;然后,该研究分析并总结了 SAM 在各种图像处理应用中的优势和限制,包括软件场景、真实世界场景和复杂场景,重要的是,该研究得出了一些洞察,以指导未来的研究发展更多用途广泛的基础模型并改进 SAM 的架构;最后该研究还总结了 SAM 在视觉及其他领域的应用。下面我们看看论文具体内容。SAM 模型概览SAM 源自于 2023 年 Meta 的 Segment Anything (SA) 项目。该项目发现在 NLP 和 CV 领域中出现的基础模型表现出较强的性能,研究人员试图建立一个类似的模型来统一整个图像分割任务。然而,在分割领域的可用数据较为缺乏,这与他们的设计目的不同。因此,如图 1 所示,研究者将路径分为任务、模型和数据三个步骤。
欢迎光临 谷动谷力 (http://bbs.sunsili.com/) | Powered by Discuz! X3.2 |