目前反爬蟲機制有哪些手段,使用代理ip來規避的做法用nodejs具體要怎么做?作者:數據無憂 時間:2020-09-18 13:24:53 |
問題描述:目前我初學爬蟲,盡管簡單的數據能抓下來,但是看了很多文章,里面有提到一些反爬蟲的機制的,這里面都提到了用ip來反爬蟲,第二篇文章也提到了用代理池來避免,但是還是不大明白,這些代理ip如果用nodejs要怎么弄? 知乎網友回答(https://www.zhihu.com/question/26804984) 根據個人經驗,簡單的反爬蟲技術有: 1. 判斷headers 中的參數,比如user-agent 不是瀏覽器的不允許訪問;refer 不是來源于特定域名的也不行(反盜鏈常用技術)。這是最常見的反爬蟲技術。 2. cookies 檢查用戶cookies,需要登錄的網站常采用這種技術。比如論壇、微博、雪球等。 以上兩個可以通過手動設計headers 和cookies 搞定,python 程序員使用requests 可以很方便解決。 還有一些比較復雜的技術: 1. 數據通過ajax 返回后通過js 混淆處理,而js 處理過程可以寫的很復雜,以至于爬蟲程序員沒法分析。 2. 數據通過flash 和服務器端交互。 例如船訊網http://www.shipxy.com 中請求船舶信息部分。 3. 通過ip 或者特定賬號單位時間內請求數量來限制訪問,基本無解,比如你爬爬 google scholar 試試看 無憂代理IP(www.aooseo.com)原創文章,轉載請注明出處。 |