1、參與爬蟲係統的架構設計與開發;
2、負責指定網站頁麵的抓取和提取處理;
3、參與爬蟲核心算法的策略優化研究。
1、計算機相關專業本科以上學曆;
2、精通網頁抓取原理及技術,從結構化和非機構化數據中獲取信息;
3、熟悉HttpClient、HtmlParser、Jsoup中的一種或多種開源技術;
4、熟悉文本檢索、中文分詞相關技術,具備一定的數據挖掘能力;
5、精通抓包工具至少一種,以解決技術難題為樂趣,有想法,敢於挑戰。