1. <rp id="c4hsd"></rp>
          1. <button id="c4hsd"><acronym id="c4hsd"><input id="c4hsd"></input></acronym></button>
          2. <tbody id="c4hsd"></tbody>

            <dd id="c4hsd"><pre id="c4hsd"></pre></dd>

              1. <th id="c4hsd"></th>
              2. <s id="c4hsd"><object id="c4hsd"></object></s>

                    [ 登錄 ] - [ 注冊 ] | 代碼示例DEMO | IP測試視頻 |

                    目前反爬蟲機制有哪些手段,使用代理ip來規避的做法用nodejs具體要怎么做?

                    作者:數據無憂   時間:2020-09-18 13:24:53

                    問題描述:目前我初學爬蟲,盡管簡單的數據能抓下來,但是看了很多文章,里面有提到一些反爬蟲的機制的,這里面都提到了用ip來反爬蟲,第二篇文章也提到了用代理池來避免,但是還是不大明白,這些代理ip如果用nodejs要怎么弄?

                    知乎網友回答(https://www.zhihu.com/question/26804984
                    根據個人經驗,簡單的反爬蟲技術有:
                    1. 判斷headers 中的參數,比如user-agent 不是瀏覽器的不允許訪問;refer 不是來源于特定域名的也不行(反盜鏈常用技術)。這是最常見的反爬蟲技術。

                    2. cookies 檢查用戶cookies,需要登錄的網站常采用這種技術。比如論壇、微博、雪球等。

                    以上兩個可以通過手動設計headers 和cookies 搞定,python 程序員使用requests 可以很方便解決。

                    還有一些比較復雜的技術:
                    1. 數據通過ajax 返回后通過js 混淆處理,而js 處理過程可以寫的很復雜,以至于爬蟲程序員沒法分析。
                    2. 數據通過flash 和服務器端交互。 例如船訊網http://www.shipxy.com 中請求船舶信息部分。
                    3. 通過ip 或者特定賬號單位時間內請求數量來限制訪問,基本無解,比如你爬爬 google scholar 試試看



                    無憂代理IP(www.aooseo.com)原創文章,轉載請注明出處。

                    電話:4007-745-096
                    QQ:
                    周一至周日8:30-18:00 技術部電話熱線
                    久久夜色精品国产噜噜亚洲AV_老妇女性较大毛片_888亚洲欧美国产va在线播放_超碰人人透人人爽人人看