1. <rp id="c4hsd"></rp>
          1. <button id="c4hsd"><acronym id="c4hsd"><input id="c4hsd"></input></acronym></button>
          2. <tbody id="c4hsd"></tbody>

            <dd id="c4hsd"><pre id="c4hsd"></pre></dd>

              1. <th id="c4hsd"></th>
              2. <s id="c4hsd"><object id="c4hsd"></object></s>

                    [ 登錄 ] - [ 注冊 ] | 代碼示例DEMO | IP測試視頻 |

                    谷歌推網頁爬蟲新標準,開源robots.txt解析器

                    作者:GET   時間:2020-09-18 13:24:53

                    對于接觸過網絡爬蟲的人來說 robots.txt 絕不陌生,這一存放于網站根目錄下的 ASCII 碼文件標明了網站中哪些內容是可以抓取的,哪些內容又是禁止抓取的。今年,robots.txt 就滿 25 周歲了, 為了給這位互聯網MVP慶祝生日,谷歌再度出手,開源 robots.txt 解析器,試圖推助機器人排除協議(REP)正式成為互聯網行業標準。


                    REP 以其簡單高效征服了互聯網行業


                    在為互聯網行業服務了25年之后,rep 仍然只是一個非官方的標準。這可帶來了不少麻煩。比如拼寫錯誤。有很多人會忽視 robots.txt 規則中的冒號,而把 disallow 拼成 dis allow 這種讓爬蟲抓瞎的情況也不是沒有出現過。此外,rep本身并沒有涵蓋所有的情況,比如出現服務器錯誤 500 時,爬蟲是啥都可以抓還是啥也不能抓?對于網站所有者來說,模糊的事實標準使得正確地書寫規則變成了一件難事。這就夠讓人頭疼的了,更別提并非所有的爬蟲都尊重 robots.txt 這件事了。


                    哪些內容又是禁止抓取的


                    對于接觸過網絡爬蟲的人來說 robots.txt 絕不陌生,這一存放于網站根目錄下的 ascii 碼文件標明了網站中哪些內容是可以抓取的,哪些內容又是禁止抓取的。今年,robots.txt 就滿 25 周歲了, 為了給這位互聯網mvp慶祝生日,谷歌再度出手,開源 robots.txt 解析器,試圖推助機器人排除協議(rep)正式成為互聯網行業標準。機器人排除協議(robots exclusion protocol)是荷蘭軟件工程師 martijn koster 在1994 提出的一項標準,其核心就是通過 robots.txt 這樣一個簡單的文本文件來控制爬蟲機器人的行為。


                    谷歌大筆一揮


                    rep 的尷尬,以搜索起家的谷歌看在眼里。于是在 rep 誕生25周年之際,谷歌大筆一揮,獻上一份厚禮,宣布將與 rep 原作者 martijn koster 網站管理員和其他搜索引擎合作,向互聯網工程任務組 ietf 提交規范化使用 rep 的草案,努力助其成為真正的官方標準為此,谷歌還開源了其用于抓取網絡的工具之一—— robots.txt 解析器,來幫助開發人員構建自己的解析器,以期創建更多的通用格式,促進標準的完善。此番開源的 c++ 庫已存在20年之久,涵蓋了谷歌生產歷程中經歷的許多有關 robots.txt 文件的案例。開源軟件包中還包含了一個測試工具,可以幫助開發者們測試一些規則。谷歌表示,他們希望幫助網站所有者和開發者們在互聯網中創造出更多驚人的體驗,而不是成天擔心怎么去限制爬蟲。 草案內容目前尚未全面公布,但大致會聚焦于以下幾個方向:谷歌此番開源再次引起熱議。有網友表示,谷歌作為搜索行業的領軍人物,大多數的搜索引擎都愿意緊隨其后,他們愿做先鋒統一行業標準是一件很有意義的事情。還有網友對谷歌愿意開源 robots.txt 解析器感到既興奮又驚奇,谷歌將來還會開源與搜索相關的其他模塊嗎?想想都有點刺激呀。而 martijn koster 本人也說出了一些網友的心聲:谷歌真是棒呆了!


                    引用文獻


                    谷歌推網頁爬蟲新標準,開源robots.txt解析器 http://baijiahao.baidu.com/s?id=1638017207685445009




                    電話:4007-745-096
                    QQ:
                    周一至周日8:30-18:00 技術部電話熱線
                    久久夜色精品国产噜噜亚洲AV_老妇女性较大毛片_888亚洲欧美国产va在线播放_超碰人人透人人爽人人看