1. <rp id="c4hsd"></rp>
          1. <button id="c4hsd"><acronym id="c4hsd"><input id="c4hsd"></input></acronym></button>
          2. <tbody id="c4hsd"></tbody>

            <dd id="c4hsd"><pre id="c4hsd"></pre></dd>

              1. <th id="c4hsd"></th>
              2. <s id="c4hsd"><object id="c4hsd"></object></s>

                    [ 登錄 ] - [ 注冊 ] | 代碼示例DEMO | IP測試視頻 |

                    使用代理服務器爬取網頁還會被封IP嗎?

                    作者:數據無憂   時間:2020-09-18 13:24:53

                    問題描述:最近寫了個爬蟲,大量訪問后,會被屏蔽IP,于是用了代理服務器,可結果還是會被屏蔽。所以想問一下,使用代理后還是會被屏蔽嗎,有什么解決辦法嗎?

                    使用高匿名代理IP就不會出現被屏蔽的問題了,之所以會被屏蔽,估計使用的代理IP為透明代理。

                    網友回答

                    在剛開始接觸python爬蟲的過程中,總會遇到數據采集時,遇到爬蟲被封的問題。我想大家也遇到過類似的問題,我們今天探討下從http代理ip的角度解決這個問題。

                    一般爬蟲被封的排查方法有以下幾種:

                    一、首先,檢查 JavaScript 。如果你從網絡服務器收到的頁面是空白的,缺少信息,或其遇到他不符合你預期的情況(或者不是你在瀏覽器上看到的內容),有可能是因為網站創建頁面的 JavaScript 執行有問題。

                    二、檢查正常瀏覽器提交的參數。如果你準備向網站提交表單或發出 POST 請求,記得檢查一下頁面的內容,看看你想提交的每個字段是不是都已經填好,而且格式也正確。用 Chrome 瀏覽器的網絡面板(快捷鍵 F12 打開開發者控制臺,然后點擊“Network”即可看到)查看發送到網站的 POST 命令,確認你的每個參數都是正確的。

                    三、是否有合法的 Cookie?如果你已經登錄網站卻不能保持登錄狀態,或者網站上出現了其他的“登錄狀態”異常,請檢查你的 cookie。確認在加載每個頁面時 cookie 都被正確調用,而且你的 cookie 在每次發起請求時都發送到了網站上。

                    四、IP 被封禁?如果你在客戶端遇到了 HTTP 錯誤,尤其是 403 禁止訪問錯誤,這可能說明網站已經把你的 IP 當作機器人了,不再接受你的任何請求。你要么等待你的 IP 地址從網站黑名單里移除,要么就換個 IP 地址(可以去星巴克上網)。如果你確定自己并沒有被封殺,那么再檢查下面的內容。

                    五、確認你的爬蟲在網站上的速度不是特別快??焖俨杉且环N惡習,會對網管的服務器造成沉重的負擔,還會讓你陷入違法境地,也是 IP 被網站列入黑名單的首要原因。給你的爬蟲增加延遲,讓它們在夜深人靜的時候運行。切記:匆匆忙忙寫程序或收集數據都是拙劣項目管理的表現;應該提前做好計劃,避免臨陣慌亂。

                    六、還有一件必須做的事情:修改你的請求頭!有些網站會封殺任何聲稱自己是爬蟲的訪問者。如果你不確定請求頭的值怎樣才算合適,就用你自己瀏覽器的請求頭吧。



                    無憂代理IP(www.aooseo.com)原創文章,轉載請注明出處。

                    電話:4007-745-096
                    QQ:
                    周一至周日8:30-18:00 技術部電話熱線
                    久久夜色精品国产噜噜亚洲AV_老妇女性较大毛片_888亚洲欧美国产va在线播放_超碰人人透人人爽人人看