【工作職責(zé)】
1、進(jìn)行算力平臺(tái)(數(shù)據(jù)中心)日常運(yùn)維工作,如網(wǎng)絡(luò)鏈路管理、GPU服務(wù)器和網(wǎng)絡(luò)健康性監(jiān)測(cè)、應(yīng)急響應(yīng)平臺(tái)或設(shè)備升級(jí)、網(wǎng)絡(luò)及GPU服務(wù)器硬件生命周期管理等工作,確保網(wǎng)絡(luò)平臺(tái)穩(wěn)定運(yùn)行。
2、進(jìn)行算力平臺(tái)(數(shù)據(jù)中心)日常網(wǎng)絡(luò)資源管理,如網(wǎng)絡(luò)資源開通、GPU服務(wù)器開局、變更、刪除、網(wǎng)絡(luò)調(diào)整、密碼管理等,按時(shí)交付算力平臺(tái)(數(shù)據(jù)中心)網(wǎng)絡(luò)和GPU資源。
3、建立和完善算力平臺(tái)(數(shù)據(jù)中心)安全的網(wǎng)絡(luò)監(jiān)控體系和信息安全事件處理機(jī)制,確保業(yè)務(wù)的穩(wěn)定運(yùn)行。
4、解決算力平臺(tái)(數(shù)據(jù)中心)網(wǎng)絡(luò)系統(tǒng)運(yùn)行過程中技術(shù)問題,對(duì)疑難問題進(jìn)行分析并解決。
5、協(xié)助算力平臺(tái)(數(shù)據(jù)中心)網(wǎng)絡(luò)系統(tǒng)和GPU服務(wù)器建設(shè)、擴(kuò)容、改造的方案規(guī)劃設(shè)計(jì)、集成和實(shí)施驗(yàn)證工作。
6、協(xié)助運(yùn)維體系的建設(shè),面向網(wǎng)絡(luò)平臺(tái)、GPU平臺(tái)高可靠性、高可用性及高服務(wù)性,負(fù)責(zé)撰寫相關(guān)技術(shù)文檔。
7、完成算力平臺(tái)(數(shù)據(jù)中心)的其他運(yùn)維工作任務(wù)。
【任職要求】
1、熟悉Linux平臺(tái),熟悉RoCE網(wǎng)絡(luò),有NVIDIA、燧原等GPU集群部署、調(diào)度、管理優(yōu)化經(jīng)驗(yàn)。
2、能夠支撐算力中心的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等工作。
3、熟悉私有云、公有云日常運(yùn)維工作。
4、有較強(qiáng)的文字能力,可獨(dú)立完成技術(shù)文檔的編寫和算力相關(guān)產(chǎn)品的測(cè)試報(bào)告。
5、熟悉NVIDIA、燧原等國(guó)內(nèi)外主流GPU體系架構(gòu)。
6、有3年以上工作經(jīng)驗(yàn),經(jīng)驗(yàn)中需要有算力中心實(shí)施經(jīng)驗(yàn),精通GPU服務(wù)器、存儲(chǔ)、高性能交換機(jī)等。
7、有AI計(jì)算集群、平臺(tái)安裝、調(diào)試、運(yùn)維經(jīng)驗(yàn)。
8、有GPU服務(wù)器工作經(jīng)驗(yàn)及云計(jì)算認(rèn)證者優(yōu)先考慮。
9、辦公地點(diǎn)杭州,能接受全國(guó)外派和出差