报告内容简介:
随着大模型的爆发式发展,AI集群的服务器机型和网络架构也在快速迭代,然而由于大规模GPU集群的缺乏,AI Infra领域大量创新工作难以快速地得到验证。
为此,阿里云提出了业界首个全栈的高精度大模型集群训练模拟器SimAI,研发团队从计算仿真准确度、集合通信算法仿真准确度以及网络架构仿真准确度等多个维度进行了技术创新,最终达成了端到端小于5%仿真误差的高仿真精度,并为阿里云集群新架构性能评估、新机型架构选择提供了重要参考。
相关学术论文已被网络领域顶会NSDI’25 Spring接收,同时,SimAI开源项目也已经正式发布(https://github.com/aliyun/simai)。

报告人:陆钢
报告人简介:陆钢,博士,阿里云基础施设事业部技术专家。2016年毕业于中国科学院计算技术研究所,长期从事高性能网络的研发工作,先后就职于华为、腾讯、阿里巴巴等企业,已发表10余篇学术论文和10余篇技术专利。