崗位職責(zé):
1、負(fù)責(zé)公司數(shù)據(jù)采集需求對(duì)接和采集方案設(shè)計(jì)工作;
2、根據(jù)業(yè)務(wù)需求設(shè)計(jì)并開(kāi)發(fā)分布式爬蟲(chóng)系統(tǒng),對(duì)不同網(wǎng)站上的多源異構(gòu)數(shù)據(jù)進(jìn)行抓取,同時(shí)進(jìn)行必要的數(shù)據(jù)清洗、處理、去重等操作;
3、研究各類(lèi)反爬機(jī)制(如驗(yàn)證碼、滑塊等)與防屏蔽機(jī)制(如代理池、模擬登錄等),并形成一套可復(fù)用的組件、工具,提高系統(tǒng)的穩(wěn)定性、成功率;
4、對(duì)爬蟲(chóng)系統(tǒng)進(jìn)行定期維護(hù),確保程序正常運(yùn)行、數(shù)據(jù)正常獲取;
5、參與大數(shù)據(jù)平臺(tái)產(chǎn)品的建設(shè),專(zhuān)注于垂直領(lǐng)域數(shù)據(jù)抓取;
積極主動(dòng)思考探索爬蟲(chóng)在實(shí)際業(yè)務(wù)中的價(jià)值,參與設(shè)計(jì)數(shù)據(jù)有效利用策略,從數(shù)據(jù)合理性、完整性角度提供建議。
任職要求:
1、本科及以上學(xué)歷,計(jì)算機(jī)相關(guān)專(zhuān)業(yè),3年以上爬蟲(chóng)開(kāi)發(fā)工作經(jīng)驗(yàn);
2、熟悉linux、docker部署,掌握常用的操作命令
3、能夠獨(dú)立解決封賬號(hào)、封IP、驗(yàn)證碼、字體反爬等問(wèn)題;
4、熟悉html/css/xpath/ajax/xml等技術(shù),熟悉HTTP傳輸協(xié)議,精通網(wǎng)頁(yè)/App/小程序等抓取原理和整合技術(shù),熟悉正則表達(dá)式和xpath解析,有驗(yàn)證碼識(shí)別技術(shù)數(shù)據(jù)抓取經(jīng)驗(yàn)者優(yōu)先;
5、熟練掌握Python語(yǔ)言,熟悉常用爬蟲(chóng)框架,如Scrapy、pyspider等;
6、熟練掌握Mysql、Oracle等關(guān)系型數(shù)據(jù)庫(kù),熟悉Redis、MongoDB等非關(guān)系型數(shù)據(jù)庫(kù);
7、具備一定的文案能力,能夠通過(guò)圖文結(jié)合方式清晰展現(xiàn)分析成果;
能夠與人融洽相處,善于團(tuán)隊(duì)合作。
福利待遇:
五險(xiǎn)一金(試用期即投)、工齡工資、績(jī)效工資、全勤獎(jiǎng)、節(jié)日福利;
國(guó)家法定節(jié)假日,另有婚假、產(chǎn)假、哺乳假等眾多福利;
作息時(shí)間:8:30-17:30,午休:12:00-13:30,周末雙休;
高檔舒適的辦公環(huán)境,工作氛圍輕松,人性化管理。
職位福利:五險(xiǎn)一金、績(jī)效獎(jiǎng)金、節(jié)日福利、周末雙休、公司重點(diǎn)項(xiàng)目