工作職責(zé):
-負(fù)責(zé)全網(wǎng)搜索引擎基礎(chǔ)數(shù)據(jù)挖掘核心技術(shù)研究和開發(fā)
-負(fù)責(zé)搜索引擎所覆蓋到的網(wǎng)頁、站點、媒體資源等數(shù)據(jù)分析和特征建模工作
-有處理過阿里云、淘寶、阿里巴巴相關(guān)商品數(shù)據(jù)抓取,以及對抓取后的數(shù)據(jù)進行清洗、存儲的經(jīng)驗
-熟悉linux系統(tǒng)原理,進程基本調(diào)試方法。線上環(huán)境的搭建,問題定位和解決,日常監(jiān)控和應(yīng)急處理,能編寫自動化腳本工具,運維工作自動化。
-能勝任軟件測試、安全性能優(yōu)化的優(yōu)先
職位要求:
1、至少1年爬蟲項目開發(fā)經(jīng)驗;至少了解掌握主流爬蟲框架中的一種
2、了解爬蟲原理,了解掌握正則表達式、XPath、CSS等網(wǎng)頁信息抽取技術(shù)以及提取多層Json結(jié)構(gòu)數(shù)據(jù)優(yōu)先;
3、了解常見反爬機制,IP池、cookie、js加密等;對破解驗證碼有豐富經(jīng)驗,獨立解決js反爬和模擬登陸問題
4、了解數(shù)據(jù)清洗,能夠用numpy、pandas、jieba等工具對數(shù)據(jù)進行處理者優(yōu)先;
職位福利:五險一金、餐補、房補