崗位描述:
1、參與特定網(wǎng)站與業(yè)務系統(tǒng)的信息數(shù)據(jù)持續(xù)化獲取;
2、根據(jù)產(chǎn)品和項目特點,設計、開發(fā)采集系統(tǒng)平臺的架構(gòu)設計,提出合理的優(yōu)化方案,并負責設計和實現(xiàn),提高數(shù)據(jù)采集效率;
3、部分零碎獨立開發(fā)任務,包括但不限于數(shù)據(jù)清洗、數(shù)據(jù)融合、爬蟲等;
崗位要求:
1、具備基本溝通表達能力,思路清晰,良好的文檔意識;
2、熟練Python各種技術原理,熟悉Linux開發(fā)環(huán)境、了解Docker、Kubernetes基礎知識與操作;
3、熟練掌握 Scrapy、Requests、BeautifulSoup、Selenium 等主流爬蟲框架和工具,能夠根據(jù)項目需求靈活選擇和使用;了解分布式爬蟲框架(如 Scrapy-Redis 等)的設計和實現(xiàn)原理,具備分布式爬蟲開發(fā)經(jīng)驗;
4、了解代理服務器、VPN、Cookie、Session 等網(wǎng)絡技術在爬蟲中的應用,能夠通過合理配置繞過簡單的反爬蟲限制;
5、熟悉計算機網(wǎng)絡基礎,掌握常用數(shù)據(jù)庫使用,有MongoDB,ElasticSearch經(jīng)驗更佳。
加分項:
1、參與過網(wǎng)絡安全行業(yè)相關項目,了解OSINT、開源情報搜集等相關知識;
2、有JG、政府等行業(yè)項目經(jīng)驗,參與過項目論證、原型開發(fā)、交付驗收等環(huán)節(jié);
3、有個人博客或公眾號,會對工作所涉及到的知識進行歸納、總結(jié)并輸出分享。
北京 - 海淀
北京 - 朝陽
北京 - 通州
北京 - 石景山
北京 - 海淀
鄭州快碼軟件科技有限公司北京 - 昌平