更新于 8月8日

GPU分布式計算架構師

6-10萬·15薪
  • 上海浦東新區(qū)
  • 5-10年
  • 本科
  • 全職
  • 招5人

職位描述

PCIE P2P、RDMA
職位描述
1、負責設計、開發(fā)和優(yōu)化單機/多機多卡GPU互聯(lián)軟件棧,如集合通信庫等;
2、負責將通信庫與AI框架進行無縫銜接,實現(xiàn)多機多卡并聯(lián)的AI模型推理和訓練;
3、負責協(xié)同軟硬件團隊,定位、分析和解決單機/多機多卡互聯(lián)的精度和性能問題。

職位要求
1、計算機相關專業(yè),本科及以上學歷, 5年以上相關工作經驗;
2、熟悉芯片互聯(lián)和網(wǎng)絡傳輸編程,有PCIe P2P、RDMA、GPU Direct等相關開發(fā)經驗;
3、熟悉常用的集合通信原語和集合通信庫,如NCCL 、OpenMPI、Gloo等;
4、熟悉C/C++編程,有良好的編程習慣和較強的問題解決能力;
5、有很好的團隊協(xié)作能力與溝通能力,對技術和代碼品質有追求;
6、熟悉CUDA或ROCm軟件棧,有類NCCL通信庫移植、開發(fā)經驗者優(yōu)先;
7、熟悉AI框架與大規(guī)模分布式訓練策略,如FSDP/DeepSpeed/Accelerate/Horovod者優(yōu)先。
工作地點:上海,武漢

工作地點

二十一世紀中心大廈

職位發(fā)布者

倪薇/Consultant

立即溝通
大連凱沃企業(yè)管理顧問有限公司
凱沃管理咨詢有限公司,由國內知名企業(yè)經理人、擁有多年經驗的專業(yè)人力資源顧問和職業(yè)顧問創(chuàng)辦,是一家為客戶提供一體化人力資源解決方案的專業(yè)顧問公司。我們致力于和企業(yè)、人才建立起長期的戰(zhàn)略合作關系。通過我們的服務,幫助客戶獲得優(yōu)秀的人才,在市場競爭中保持優(yōu)勢。我們關注人才供應鏈和價值鏈中人的內在需求和價值體現(xiàn),人才成長的心理環(huán)境,以及人才的持續(xù)發(fā)展和價值實現(xiàn),為企業(yè)提供最合適的人才解決方案,為候選人提供職業(yè)咨詢和專業(yè)的職業(yè)發(fā)展規(guī)劃。
公司主頁