东京工业大学东北大学富士通和RIKEN开始合作开发大型语言模型的分布式训练

导读 东京工业大学(TokyoTech)、东北大学、富士通株式会社和日本理化学研究所今天宣布,他们将于2023年 5 月在超级计算机 Fugaku 上着手研究

东京工业大学(TokyoTech)、东北大学、富士通株式会社和日本理化学研究所今天宣布,他们将于2023年 5 月在超级计算机 Fugaku 上着手研究和开发大型语言模型 (LLM) [1] 的分布式训练,时间 为日本政策规定的富岳使用倡议范围。

LLM 是用于深度学习的 AI 模型,是包括 ChatGPT [2]在内的生成 AI 的核心。这四个组织旨在改善创建可被学术界和企业广泛使用的 LLM 的环境,为提高日本的 AI 研究能力做出贡献,并通过公开 Fugaku 在学术和工业领域的应用价值未来的这项研发。

背景

虽然许多人预计 LLM 和生成式 AI 将在安全、经济和社会整体技术的研究和开发中发挥基础性作用,但这些模型的进步和完善将需要能够高效处理大量数据的高性能计算资源数据量。

Tokyo Tech、Tohoku University、Fujitsu 和 RIKEN 正为此发起一项计划,重点关注 LLM 分布式培训的研究和开发。

实施期间

从2023年5月24日到2024年3月31日*日本政策使用Fugaku的倡议期间

每个组织和公司的作用

该计划中使用的技术将使组织能够在超级计算机 Fugaku 的大规模并行计算环境中高效地执行大规模语言模型训练。各组织和公司的职责如下:

东京工业大学:监督 LLM 的整体流程、并行化和加速

东北大学:收集学习数据,选择模型

富士通:法学硕士加速

为了支持日本研究人员和工程师在未来开发法学硕士,这四个组织计划在财政年度的GitHub [3] 和 Hugging Face [4]上公布通过日本政策定义的 Fugaku 使用倡议范围获得的研究结果2024 年,预计许多研究人员和工程师将参与基础模型的改进和新的应用研究,以创建有效的方法,从而产生下一代创新研究和商业成果。

这四个组织还将考虑与名古屋大学合作,名古屋大学为制造业等工业领域的多模式应用开发数据生成和学习方法,以及为构建 LLM 提供数据和技术的 Cyber​​Agent, Inc.。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!