崗位職責:
1、打造業(yè)界領先的大數據+AI云平臺產品,參與公司內基于Ray的分布式計算場景的方案設計以及研發(fā),包括機器學習、圖等場景,滿足大模型時代的數據處理及應用需求;
2、參與云平臺的架構設計和研發(fā),包括數據處理、資源調度、模型/算子管理、模型部署服務等;
3、基于K8S體系構建大規(guī)模任務處理系統(tǒng),并負責GPU、CPU等多種異構資源的編排調度優(yōu)化;
4、參與Ray內核/Kuberay以及相關上層生態(tài)框架的功能開發(fā)&性能優(yōu)化;
5、參與Ray在K8S上的彈性/潮汐資源集群穩(wěn)定性/可觀測性/平臺化對接等能力建設;
6、負責充分利用各種異構計算(GPU、CPU、其他異構硬件)、存儲(各種云存儲)、網絡(VPC、RDMA)等資源,支持主流的PyTorch、Megatron、TensorFlow等訓練框架,支持大規(guī)模 LLM 預訓練、Finetuning、強化學習等各種訓練范式,支持大模型、生信計算等各種業(yè)務場景下算法需求;
7、負責訓練系統(tǒng)的產品化落地,打造算法工程師友好的、體驗一流的公有云訓練平臺;
8、完成領導交辦的其他工作事項。
任職要求:
1、擁有扎實的計算機基礎和良好的編程能力,熟練掌握Linux環(huán)境下的Go/Java/Python等1-2種語言;
2、熟悉K8S工作原理、云原生AI/大數據生態(tài)常用的開源組件,或熟悉RAY、Spark等分布式數據處理框架;
3、有深度學習、大模型、LLM應用等平臺開發(fā)經驗,或熟悉LangChain、Dify等開源Agent框架;
4、熟悉大模型領域數據處理流程/算法Kubernetes 架構和生態(tài);
5、熟悉 Docker/Containerd/Kata 等容器技術,有豐富的云原生機器學習系統(tǒng)實踐和開發(fā)經驗;
加分項:
1、有機器學習、大數據平臺的工程架構落地經驗,熟練掌握常見的分布式訓練、計算框架(pytorch/tensorflow/ray/spark/flink)原理及工程實現,熟悉GPU、大模型相關軟硬件技術棧;
2、有計算產品落地經驗(最好是tob、tog paas/saas 項目或公有云項目,深度使用經驗也可行);
3、熟悉NLP、CV相關的算法和技術,熟悉大模型訓練、RL算法者優(yōu)先;
4、有以下某一方向領域的經驗:CUDA,RDMA,AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU, Accelerators, Networking),ML for System,Distributed Storage。