崗位職責(zé):
1. 負(fù)責(zé)云原生平臺(tái)的搭建和維護(hù),包括但不限于CI/CD,自動(dòng)化測(cè)試,監(jiān)控告警,數(shù)據(jù)安全和災(zāi)備等;
2. 負(fù)責(zé)運(yùn)維規(guī)范流程的設(shè)計(jì)和推廣;
3. 負(fù)責(zé)與技術(shù)團(tuán)隊(duì)的協(xié)作,并對(duì)重點(diǎn)項(xiàng)目提供必要的技術(shù)保障與支持;
4. 負(fù)責(zé)應(yīng)用系統(tǒng)的性能分析與架構(gòu)優(yōu)化,不斷提高系統(tǒng)運(yùn)行效率。
技能要求:
1.精通Kubernetes核心概念(Pod/Deployment/Service/Ingress/CRD)及運(yùn)維操作(kubectl/Helm/Operator);熟悉容器技術(shù)(Docker/Containerd)及鏡像倉庫管理(Harbor)。
2.熟練使用KubeSphere平臺(tái),掌握其多集群管理、應(yīng)用治理、微服務(wù)治理等高級(jí)功能。
3.熟悉 DevOps 理念及相關(guān)生態(tài),具備2年以上大規(guī)模高可用分布式系統(tǒng)集群的實(shí)踐經(jīng)驗(yàn)。
4.熟悉Linux操作系統(tǒng)及常用命令,具備Shell腳本編程能力。
5.具備較強(qiáng)的問題分析和解決能力,務(wù)實(shí)主動(dòng)且有良好的溝通協(xié)作能力。
6.熟練掌握大模型訓(xùn)練/推理框架及分布式系統(tǒng)運(yùn)維,具備GPU集群管理、性能調(diào)優(yōu)及故障排查能力。
7.要求具備大規(guī)模AI系統(tǒng)運(yùn)維經(jīng)驗(yàn),熟悉LLM全鏈路監(jiān)控告警體系,擁有多場(chǎng)景模型部署優(yōu)化實(shí)戰(zhàn)能力,兼具自動(dòng)化運(yùn)維開發(fā)及跨團(tuán)隊(duì)協(xié)同經(jīng)驗(yàn)者優(yōu)先。