更新于 2月21日

數(shù)據(jù)爬取和治理工程師

1.5-2萬
  • 上海浦東新區(qū)
  • 3-5年
  • 本科
  • 全職
  • 招1人

職位描述

數(shù)據(jù)采集爬蟲開發(fā)數(shù)據(jù)清洗

崗位職責(zé):

1、負(fù)責(zé)全球公開新聞資訊站點(diǎn)、論壇、社交等公開數(shù)據(jù)的智能化采集與獲取,應(yīng)對(duì)大規(guī)模文本、圖像、視頻數(shù)據(jù)的采集、抽取,去重、分類,垃圾過濾,質(zhì)量識(shí)別、解析入庫(kù)等工作;

2、負(fù)責(zé)各種開源網(wǎng)絡(luò)數(shù)據(jù)的基本挖掘分析,參與數(shù)據(jù)服務(wù)產(chǎn)品研發(fā);

3、負(fù)責(zé)爬蟲技術(shù)與反爬技術(shù)研究,快速響應(yīng)業(yè)務(wù)需求。

任職要求:

1、具有3年以上實(shí)際網(wǎng)絡(luò)爬蟲或分布式數(shù)據(jù)采集開發(fā)工作經(jīng)驗(yàn);

2、精通熟悉爬蟲原理及優(yōu)化技術(shù),熟悉主流爬蟲框架使用;熟悉常見的反爬機(jī)制及應(yīng)對(duì)策略,包括但不限于使用代理IP,驗(yàn)證碼智能識(shí)別,動(dòng)態(tài)JS數(shù)據(jù)解析等;

3、熟悉各類應(yīng)用網(wǎng)絡(luò)協(xié)議知識(shí),基本網(wǎng)絡(luò)協(xié)議分析,熟悉基于Phantomjs、Headless、Selenium等無界面瀏覽器自動(dòng)化交互采集技術(shù);

4、對(duì)數(shù)據(jù)結(jié)構(gòu)和算法設(shè)計(jì)有較為深刻的理解;

5、具有較強(qiáng)的編程能力,具備良好的編程習(xí)慣,能夠編寫高質(zhì)量技術(shù)文檔;

6、具有構(gòu)建分布式爬蟲系統(tǒng)的經(jīng)驗(yàn),具有海量高并發(fā)網(wǎng)頁(yè)爬取項(xiàng)目經(jīng)驗(yàn)優(yōu)先;

7、具備信息檢索、Web挖掘等搜索引擎相關(guān)知識(shí),有從事網(wǎng)絡(luò)爬蟲、網(wǎng)頁(yè)去重、網(wǎng)頁(yè)信息抽取、網(wǎng)頁(yè)分類的中任一種程序開發(fā)經(jīng)驗(yàn)者優(yōu)先;

8、對(duì)自然語言處理技術(shù)熟悉者優(yōu)先;具備機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘經(jīng)驗(yàn)或深度學(xué)習(xí)基礎(chǔ)經(jīng)驗(yàn)者優(yōu)先。

工作地點(diǎn)

張江國(guó)創(chuàng)中心1期

職位發(fā)布者

呂先生/HR

今日活躍
立即溝通
公司Logo上海張江數(shù)學(xué)研究院
上海張江數(shù)學(xué)研究院(以下簡(jiǎn)稱“數(shù)學(xué)院”)是事業(yè)單位性質(zhì)的新型科研機(jī)構(gòu)。數(shù)學(xué)院聚焦“數(shù)學(xué)+”,開展相關(guān)領(lǐng)域人才培養(yǎng)、科學(xué)研究、成果轉(zhuǎn)化、產(chǎn)業(yè)化等。支撐上海國(guó)際科技創(chuàng)新中心、張江綜合性國(guó)家科學(xué)中心和張江國(guó)家實(shí)驗(yàn)室建設(shè),助推浦東新區(qū)高水平改革開放,打造社會(huì)主義現(xiàn)代化引領(lǐng)區(qū)建設(shè),努力建設(shè)成為數(shù)學(xué)服務(wù)國(guó)家重大戰(zhàn)略任務(wù)的國(guó)家隊(duì)。
公司主頁(yè)