崗位內(nèi)容:
一、機(jī)器人方向
1、負(fù)責(zé)工業(yè)領(lǐng)域視覺語言動作大模型研究;
2、在人形或多臂機(jī)器人上部署現(xiàn)有主流VLM具身算法,通過工程經(jīng)驗進(jìn)行硬件調(diào)優(yōu)適配,提升成功率;
3、設(shè)計具身智能測試任務(wù)及場景做benchmark,形成實體資產(chǎn)庫和線上文檔庫;
4、仿真實驗方面,形成基于主流仿真器的benchmark和測試接口;
5、開發(fā)新的VLM具身算法,形成任務(wù)分解planner等關(guān)鍵技術(shù)棧;
6、利用領(lǐng)域VLM、視覺基礎(chǔ)模型,進(jìn)行模型高效部署,支持下游應(yīng)用任務(wù)優(yōu)化,利用大模型進(jìn)行數(shù)據(jù)的抽取、清洗和數(shù)據(jù)飛輪構(gòu)建等。
二、視覺方向
1、負(fù)責(zé)工業(yè)領(lǐng)域視覺大模型研究,包括構(gòu)建領(lǐng)域內(nèi)關(guān)鍵能力多模態(tài)語料庫以及模型能力構(gòu)建,支持知識應(yīng)用,包括意圖識別、語義理解、開集識別、決策規(guī)劃等能力方向;
2、負(fù)責(zé)多模態(tài)相關(guān)模型研發(fā),探索和研究多模態(tài)大模型技術(shù),理解算法原理并進(jìn)行深度定制和優(yōu)化;
3、負(fù)責(zé)多模態(tài)融合及特征提取工作,包括但不限于圖文、視頻等多模態(tài)內(nèi)容特征學(xué)習(xí)、分類、結(jié)構(gòu)化等工作;
4、根據(jù)業(yè)務(wù)場景需求,進(jìn)行數(shù)據(jù)搭建、模型優(yōu)化、指令微調(diào)、偏好對齊、Benchmark等一系列算法優(yōu)化工作。
三、語音方向
1、負(fù)責(zé)工業(yè)領(lǐng)域語音大模型研究;
2、負(fù)責(zé)訓(xùn)練和優(yōu)化開源語音模型,包括語音識別,語音合成, 聲音克隆模型, 提升模型的表現(xiàn)能力;
收集、處理和分析大量數(shù)據(jù),熟練掌握模型的微調(diào)方法及多卡訓(xùn)練及推理技術(shù);
3、根據(jù)項目需求,進(jìn)行模型的集成、部署和訓(xùn)練,快速支持產(chǎn)品需求;評估模型在實際應(yīng)用中的效果,并對其進(jìn)行持續(xù)改進(jìn)
四、語言方向:
1、負(fù)責(zé)工業(yè)領(lǐng)域語言大模型研究;
2、能獨(dú)立推進(jìn)大模型訓(xùn)練語料的準(zhǔn)備、模型分布式預(yù)訓(xùn)練與微調(diào)對齊;
3、推動企業(yè)內(nèi)部知識庫的構(gòu)建,負(fù)責(zé)開發(fā)海量文檔數(shù)據(jù)的抽取、解析流程,提高數(shù)據(jù)清洗、知識抽取的自動化程度,其中包括但不限于OCR技術(shù)、版面分析、文檔數(shù)據(jù)的結(jié)構(gòu)化以及公式識別等;
4、負(fù)責(zé)RAG系統(tǒng)的通用方法的驗證、優(yōu)化和效果提升,包括檢索和LLM生成等,并負(fù)責(zé)各個子模塊的模型優(yōu)化;
5、具備豐富的prompt編寫經(jīng)驗,能夠根據(jù)具體業(yè)務(wù)場景,快速寫出高效的prompt,并有效管理留存;
6、跟蹤最新的大模型技術(shù)發(fā)展趨勢,不斷學(xué)習(xí)新的技術(shù)和算法, 為產(chǎn)品帶來創(chuàng)新;
7、與團(tuán)隊成員密切合作,共同開發(fā)高質(zhì)量的大模型產(chǎn)品和解決方案。
任職要求:
1. 人工智能、計算機(jī)、自動化、機(jī)械、數(shù)學(xué)或相關(guān)專業(yè)的博士學(xué)歷
2.機(jī)器人方向:熟悉當(dāng)前主流的基于VLM/VLA的具身算法,如Voxposer、OpenVLA、Rekep、CoPA、MOKA、ManipLLM;具有大語言模型的微調(diào)經(jīng)驗、多模態(tài)對齊經(jīng)驗,熟悉主要的VLM框架,如LLaVA、Intern-VL、Qwen-VL;具備扎實的編程和服務(wù)器調(diào)用能力,熟練掌握Python和C++編程語言,掌握ubuntu、docker的使用方法;熟悉ROS/ROS2機(jī)器人通信框架,能夠高效地進(jìn)行機(jī)器人系統(tǒng)間的通信
3. 視覺方向:對CV/多模態(tài)領(lǐng)域的經(jīng)典模型(如ViT/LLaVA/DINO/CLIP)有深入理解,熟悉相關(guān)任務(wù)和評測方法,熟悉知識蒸餾、微調(diào)技術(shù)等;熟練掌握主流深度學(xué)習(xí)框架,如TensorFlow、PyTorch,并具備良好的編程能力
4. 語音方向:有Whisper等開源模型訓(xùn)練、調(diào)優(yōu)、部署等相關(guān)經(jīng)驗,熟悉知識蒸餾、微調(diào)技術(shù)等;非常強(qiáng)的工程能力和動手能力,能快速部署開源模型,并且能優(yōu)化模型的效果,熟練掌握Python等編程語言
5.語言方向:熟悉一個或多個常見的深度學(xué)習(xí)網(wǎng)絡(luò)模型或結(jié)構(gòu),如GPT / T5 / BERT / Transformer / CodeGeeX /
ChatGLM等;在以下一個或多個領(lǐng)域有扎實的理論基礎(chǔ):自然語言處理、語音識別、智能問答、代碼生成、知識蒸餾、微調(diào)技術(shù)等;
6. 有機(jī)器人、自動駕駛、計算機(jī)視覺或者語言大模型背景
7. 具備良好的工程能力與團(tuán)隊合作精神,有責(zé)任心、主動性和創(chuàng)新精神
8. 工作地點(diǎn)在深圳坪山