該職位已失效,看看其他機(jī)會(huì)吧

GPU服務(wù)器測(cè)試工程師

3-5萬(wàn)·14薪
  • 北京海淀區(qū)
  • 5-10年
  • 本科
  • 全職
  • 招1人

職位描述

LinuxWindows性能測(cè)試壓力測(cè)試人工智能計(jì)算機(jī)硬件
崗位職責(zé) 1. 兼容性測(cè)試:制定并執(zhí)行GPU服務(wù)器全組件兼容性測(cè)試方案,涵蓋GPU(如NVIDIA A和H系列、昇騰系列、寒武紀(jì)系列等)、CPU、內(nèi)存、存儲(chǔ)、網(wǎng)絡(luò)等硬件,以及CUDA、cuDNN、操作系統(tǒng)(Linux/Windows)、AI框架(PyTorch、TensorFlow等)的兼容性測(cè)試,定位并解決組件間的沖突問(wèn)題。 2. 性能測(cè)試與優(yōu)化:設(shè)計(jì)并實(shí)施AI大模型訓(xùn)練與推理場(chǎng)景下的性能測(cè)試用例,包括吞吐量、延遲、能效比等指標(biāo)分析;基于測(cè)試結(jié)果提出硬件選型優(yōu)化建議(如GPU集群拓?fù)湔{(diào)整、內(nèi)存帶寬升級(jí))與軟件配置優(yōu)化方案(如AI框架參數(shù)調(diào)優(yōu)、分布式訓(xùn)練策略改進(jìn))。 3. AI大模型部署:負(fù)責(zé)在GPU服務(wù)器上完成主流AI大模型(如LLaMA、Deepseek等)的部署、調(diào)優(yōu)與測(cè)試,確保模型在服務(wù)器環(huán)境中的高效運(yùn)行。 4. 性能評(píng)估與分析:建立AI大模型訓(xùn)練和推理場(chǎng)景下的GPU服務(wù)器性能評(píng)估體系,通過(guò)基準(zhǔn)測(cè)試(如MLPerf)、壓力測(cè)試等手段,輸出專業(yè)性能評(píng)估報(bào)告;結(jié)合業(yè)務(wù)需求,為服務(wù)器采購(gòu)、架構(gòu)設(shè)計(jì)提供數(shù)據(jù)支撐。 5. 技術(shù)創(chuàng)新與協(xié)作:跟蹤GPU技術(shù)、AI框架、大模型算法的最新進(jìn)展,探索新技術(shù)在服務(wù)器測(cè)試中的應(yīng)用。 任職要求 1. 學(xué)歷與經(jīng)驗(yàn):計(jì)算機(jī)、電子信息、人工智能等相關(guān)專業(yè)本科及以上學(xué)歷;5年以上GPU服務(wù)器測(cè)試經(jīng)驗(yàn),3年以上AI大模型訓(xùn)練或推理場(chǎng)景下的測(cè)試與優(yōu)化經(jīng)驗(yàn)。 2. 技術(shù)能力: - 精通GPU服務(wù)器硬件架構(gòu)(PCIe、NVLink、高速網(wǎng)絡(luò))與組件兼容性測(cè)試方法,熟悉主流GPU型號(hào)的特性與性能瓶頸。 - 熟練使用性能測(cè)試工具,具備深度性能分析與調(diào)優(yōu)能力; 掌握GPU測(cè)試方法及原理,掌握了解P2P、GPU虛擬化、NCLL等測(cè)試;熟悉了解MLPerf、CNN模型、Transformer等模型,了解深入學(xué)習(xí)、機(jī)器學(xué)習(xí)測(cè)試方法,掌握模型量化、剪枝等優(yōu)化技術(shù)。 - 熟悉Linux系統(tǒng)內(nèi)核、資源調(diào)度機(jī)制,具備系統(tǒng)級(jí)性能問(wèn)題定位能力。 3. 項(xiàng)目經(jīng)驗(yàn):主導(dǎo)過(guò)AI大模型(如Transformer架構(gòu))在GPU集群上的訓(xùn)練/推理性能測(cè)試項(xiàng)目,成功解決過(guò)至少2個(gè)以上的性能優(yōu)化案例。 其他要求:具備良好的邏輯分析與問(wèn)題解決能力;有優(yōu)秀的跨團(tuán)隊(duì)協(xié)作與溝通能力;對(duì)新技術(shù)有強(qiáng)烈探索欲,能快速學(xué)習(xí)和適應(yīng)行業(yè)變化;持有相關(guān)認(rèn)證(如NVIDIA認(rèn)證、MLPerf認(rèn)證)者優(yōu)先。
查看全部

工作地點(diǎn)

北京市-海淀區(qū)-知春路1號(hào)8-808

職位發(fā)布者

李女士/人力資源總監(jiān)

剛剛活躍
立即溝通