崗位職責:
1. 負責語言、語音大模型在云端和終端的工程優(yōu)化和落地部署,通過量化、壓縮、蒸餾等技術(shù),降低模型部署所需資源,提高模型推理性能;
2. 在多種計算平臺(如GPU,TPU等)上進行分布式部署和優(yōu)化不同參數(shù)尺寸的大模型,重點解決性能瓶頸,包括但不限于計算時間、顯存占用量、計算功耗等;
3. 探索和實施常見推理加速技術(shù),包括網(wǎng)絡(luò)架構(gòu)、基本算子、模型推理框架等,跟蹤最新的研究成果和技術(shù)趨勢,將業(yè)界的推理加速成果應(yīng)用于生產(chǎn)環(huán)境。
任職要求:
1、本科及以上學歷,擁有8年以上相關(guān)工作經(jīng)驗。
2、精通C/C++,精通算法與數(shù)據(jù)結(jié)構(gòu),熟悉Python。
3、熟悉常用的推理加速框架和方法,熟悉vLLM、蒸餾、剪枝、量化、continue batch等。
4、熟練GPU的高性能計算優(yōu)化技術(shù),深入理解計算機體系結(jié)構(gòu),熟悉并行計算優(yōu)化、訪存優(yōu)化,低比特計算等;
5、具備自我驅(qū)動力、創(chuàng)新能力、團隊協(xié)作能力、溝通能力和抗壓能力。
6、有CUDA編程經(jīng)驗,能夠在CUDA層面進行優(yōu)化設(shè)計與實現(xiàn)的,優(yōu)先。
7、熟悉ONNX、OpenVino、TensorRT、NCNN等推理或加速框架者優(yōu)先。
8、擁有大模型云端及邊緣端推理加速優(yōu)化項目經(jīng)驗者優(yōu)先。