谷动谷力

 找回密码
 立即注册
查看: 1845|回复: 0
打印 上一主题 下一主题
收起左侧

浪潮发布基础大模型 “源 2.0”千亿参数全面开源

[复制链接]
跳转到指定楼层
楼主
发表于 2023-11-28 20:15:43 | 只看该作者 |只看大图 回帖奖励 |倒序浏览 |阅读模式
浪潮发布基础大模型 “源 2.0”千亿参数全面开源


浪潮信息发布 “源 2.0” 基础大模型,并宣布全面开源。
据介绍,源 2.0 基础大模型包括 1026 亿、518 亿、21 亿等三种参数规模的模型,在编程、推理、逻辑等方面展示出了先进的能力。
算法方面,源 2.0 提出并采用了一种新型的注意力算法结构:局部注意力过滤增强机制 (LFA:Localized Filtering-based Attention)。LFA 通过先学习相邻词之间的关联性,然后再计算全局关联性的方法,能够更好地学习到自然语言的局部和全局的语言特征,对于自然语言的关联语义理解更准确、更人性,提升了模型的自然语言表达能力,进而提升了模型精度。
数据方面,源 2.0 通过使用中英文书籍、百科、论文等高质量中英文资料,降低了互联网语料内容占比,结合高效的数据清洗流程,为大模型训练提供了高质量的专业数据集和逻辑推理数据集。
据称,为了更高效地获得相对匮乏的高质量中文数学及代码数据集,源 2.0 采用了基于大模型的数据生产及过滤方法,在保证数据的多样性的同时也在每一个类别上提升数据质量,获取了一批高质量的数学与代码预训练数据。
算力方面,源 2.0 采用了非均匀流水并行的方法,综合运用流水线并行 + 优化器参数并行 + 数据并行的策略,让模型在流水并行各阶段的显存占用量分布更均衡,避免出现显存瓶颈导致的训练效率降低的问题,该方法显著降低了大模型对芯片间 P2P 带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。
源 2.0 在业界公开的评测上进行了代码生成、数学问题求解、事实问答方面的能力测试,下面是测试结果:
源 2.0 采用全面开源策略,全系列模型参数和代码均可免费下载使用。

+10
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|深圳市光明谷科技有限公司|光明谷商城|Sunshine Silicon Corpporation ( 粤ICP备14060730号|Sitemap

GMT+8, 2024-11-24 16:22 , Processed in 0.261189 second(s), 44 queries .

Powered by Discuz! X3.2 Licensed

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表