能耗仅为前代1% 达摩院实现全球最大AI预训练模型

作者:贾桂鹏 来源:原创 2021-11-08

  日前,阿里巴巴达摩院公布多模态大模型M6最新进展,其参数已从万亿跃迁至10万亿,规模远超Google、微软此前发布的万亿级模型,成为全球最大的AI预训练模型。

能耗仅为前代1% 达摩院实现全球最大AI预训练模型

  与此同时,M6做到了业内极致的低碳高效,使用512 GPU在10天内即训练出具有可用水平的10万亿模型。相比去年发布的大模型GPT-3,M6实现同等参数规模,能耗仅为其1%。

  据了解,M6是达摩院研发的通用性人工智能大模型,拥有多模态、多任务能力,其认知和创造能力超越传统AI。与传统AI相比,大模型拥有成百上千倍“神经元”数量,且预先学习过海量知识,表现出像人类一样“举一反三”的学习能力。

  因此,大模型被普遍认为是未来的“基础模型”,将成为下一代AI基础设施。然而,其算力成本相当高昂,训练1750亿参数语言大模型GPT-3所需能耗,相当于汽车行驶地月往返距离。

  同时,达摩院联合阿里云推出了M6服务化平台,为大模型训练及应用提供完备工具,首次让大模型实现“开箱即用”,算法人员及普通用户均可方便地使用平台。

  另外,达摩院还推出了当前最大规模的中文多模态评测数据集MUGE,覆盖图文描述、文本生成图像、跨模态检索任务,填补了缺少中文多模态权威评测基准的空白。

  据了解,达摩院语言大模型PLUG近期也已升级至2万亿参数,成为全球最大中文语言模型,其所属AliceMind语言模型体系同样推出了服务化平台。

发布
X
第三方账号登录
  • 微博认证登录
  • QQ账号登录
  • 微信账号登录