能耗仅为前代1% 达摩院实现全球最大AI预训练模型

作者：贾桂鹏来源：原创 2021-11-08

日前，阿里巴巴达摩院公布多模态大模型M6最新进展，其参数已从万亿跃迁至10万亿，规模远超Google、微软此前发布的万亿级模型，成为全球最大的AI预训练模型。

与此同时，M6做到了业内极致的低碳高效，使用512 GPU在10天内即训练出具有可用水平的10万亿模型。相比去年发布的大模型GPT-3，M6实现同等参数规模，能耗仅为其1%。

据了解，M6是达摩院研发的通用性人工智能大模型，拥有多模态、多任务能力，其认知和创造能力超越传统AI。与传统AI相比，大模型拥有成百上千倍“神经元”数量，且预先学习过海量知识，表现出像人类一样“举一反三”的学习能力。

因此，大模型被普遍认为是未来的“基础模型”，将成为下一代AI基础设施。然而，其算力成本相当高昂，训练1750亿参数语言大模型GPT-3所需能耗，相当于汽车行驶地月往返距离。

同时，达摩院联合阿里云推出了M6服务化平台，为大模型训练及应用提供完备工具，首次让大模型实现“开箱即用”，算法人员及普通用户均可方便地使用平台。

另外，达摩院还推出了当前最大规模的中文多模态评测数据集MUGE，覆盖图文描述、文本生成图像、跨模态检索任务，填补了缺少中文多模态权威评测基准的空白。

据了解，达摩院语言大模型PLUG近期也已升级至2万亿参数，成为全球最大中文语言模型，其所属AliceMind语言模型体系同样推出了服务化平台。

企业俱乐部