北京时间2023年10月23日,HPCA 2024 公布了论文入选结果,我实验室一篇论文“Tetris: Boosting Distributed DNN Execution with Flexible Schedule Search”成功入选 HPCA 2024 会议!本届会议共收到410篇投稿,最终接受75篇,录用率18.3%。向各位参与研究工作的老师同学、合作者表示祝贺!
论文简介:
大模型的分布式计算越来越重要。为了做到高效的分布式计算,现有的方案往往考虑如何在空间维度上切分和放置算子,并基于此,在时间维度上采用人工精心设计的调度算法(如1F1B)来提高设备利用率。然而,固定的调度算法反过来约束了空间维度上的算子摆放策略,在新兴模型上遇到了性能瓶颈。
为了做到更加灵活高效的分布式计算,我们提出了Tetris,能针对任意算子的摆放位置来寻找出高效的调度算法。Tetris的核心,在于观察到高效的调度算法往往包含有重复的、有规律的执行结构(repetend)。 Tetris在此观察上进行搜索和构造,来寻找最优的repetend。Tetris的出现能极大程度解除空间维度的算子摆放限制,并利用搜索出的高效调度算法,极大提升了(5.5倍)大模型分布式训练和推理的性能。
该工作是由我实验室在读博士生林郅琦、微软研究院苗又山、我实验室在读博士生许冠斌、李诚副教授、微软研究院Olli Saarikivi、Saeed Maleki 和杨凡老师联合完成,李诚老师为通讯作者。