崗位職責(zé)
1、負(fù)責(zé)網(wǎng)絡(luò)爬蟲系統(tǒng)平臺(tái)的架構(gòu)設(shè)計(jì)與開發(fā);
2、研究給到既定網(wǎng)站的爬蟲策略和防屏蔽規(guī)則,解決封賬號(hào)、封IP、驗(yàn)證碼、混淆加密,算法還原,實(shí)現(xiàn)JS逆向,加密參數(shù)的破解,以及實(shí)現(xiàn)js模擬登錄獲取cookie,構(gòu)造cookie池,能夠使用協(xié)議破解完成資源的抓取和存儲(chǔ)。
崗位要求:
1、熟練使用正則表達(dá)式、css path、xpath等,能夠從結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)中獲取信息;
2、熟練使用MySQL數(shù)據(jù)庫,掌握redis、mongodb、hive等常用nosql技術(shù)并具有實(shí)戰(zhàn)經(jīng)驗(yàn);
3、熟悉各種抓取技術(shù),包括代理、PhantomJS/selenium、驗(yàn)證碼處理;
4、熟悉整個(gè)爬蟲的設(shè)計(jì)及實(shí)現(xiàn)流程,有從事網(wǎng)絡(luò)爬蟲、網(wǎng)頁信息抽取開發(fā)經(jīng)驗(yàn),5、熟悉反爬蟲技術(shù),有分布式爬蟲架構(gòu)經(jīng)驗(yàn);
5、具有數(shù)據(jù)挖掘、自然語言處理、信息檢索、機(jī)器學(xué)習(xí)背景者優(yōu)先;
6、快速學(xué)習(xí)能力,工作積極主動(dòng),為人熱情,熱衷挑戰(zhàn)困難的工作,擁有良好的團(tuán)隊(duì)協(xié)助和溝通能力;
7、有大量數(shù)據(jù)爬取以及高難度反爬經(jīng)驗(yàn)優(yōu)先。