在網絡爬蟲抓取信息的過程中,如果抓取頻率高過了網站的設置閥值,將會被禁止訪問。通常,網站的反爬蟲機制都是依據IP來標識爬蟲的。
于是在爬蟲的開發者通常需要采取兩種手段來解決這個問題: 1、放慢抓取速度,減小對于目標網站造成的壓力。但是這樣會減少單位時間類的抓取量。 2、第二種方法是通過設置代理IP等手段,突破反爬蟲機制繼續高頻率抓取。但是這樣需要多個穩定的代理IP。