職位描述
1、負責設計、開發(fā)和優(yōu)化單機/多機多卡GPU互聯(lián)軟件棧,如集合通信庫等;
2、負責將通信庫與AI框架進行無縫銜接,實現(xiàn)多機多卡并聯(lián)的AI模型推理和訓練;
3、負責協(xié)同軟硬件團隊,定位、分析和解決單機/多機多卡互聯(lián)的精度和性能問題。
職位要求
1、計算機相關專業(yè),本科及以上學歷, 5年以上相關工作經驗;
2、熟悉芯片互聯(lián)和網(wǎng)絡傳輸編程,有PCIe P2P、RDMA、GPU Direct等相關開發(fā)經驗;
3、熟悉常用的集合通信原語和集合通信庫,如NCCL 、OpenMPI、Gloo等;
4、熟悉C/C++編程,有良好的編程習慣和較強的問題解決能力;
5、有很好的團隊協(xié)作能力與溝通能力,對技術和代碼品質有追求;
6、熟悉CUDA或ROCm軟件棧,有類NCCL通信庫移植、開發(fā)經驗者優(yōu)先;
7、熟悉AI框架與大規(guī)模分布式訓練策略,如FSDP/DeepSpeed/Accelerate/Horovod者優(yōu)先。
工作地點:上海,武漢