崗位職責(zé):
1.熟悉安裝和配置GPU服務(wù)器上的系統(tǒng)和驅(qū)動(dòng)程序,能夠海量部署服務(wù)器,確保其正常運(yùn)行并達(dá)到性能標(biāo)準(zhǔn);
2.熟悉nvidia相關(guān)驅(qū)動(dòng)的安裝及調(diào)試,能夠解決相關(guān)問(wèn)題;
3.能夠獨(dú)立處理各種應(yīng)用場(chǎng)景的解決方案,協(xié)助終端客戶完成產(chǎn)品驗(yàn)收、物理檢查、系統(tǒng)檢測(cè)等;
4.維護(hù)和優(yōu)化GPU服務(wù)器,確保服務(wù)器高效運(yùn)行;
5.實(shí)施GPU集群的搭建及管理,集群性能的壓測(cè),集群方案的制訂及優(yōu)化。
6.對(duì)浪潮、超聚變、英偉達(dá)模組等較精通。
任職資格:
1.計(jì)算機(jī)科學(xué)、電子工程或相關(guān)專業(yè)本科及以上學(xué)歷;
2.熟悉英偉達(dá)GPU服務(wù)器,具備豐富的GPU服務(wù)器集群部署經(jīng)驗(yàn);
3.熟悉cuda架構(gòu),熟悉至少一種訓(xùn)練框架,對(duì)RDMA網(wǎng)絡(luò)有一定的了解;
4.大數(shù)據(jù)中心工作經(jīng)驗(yàn)者優(yōu)先。