百度蜘蛛抓取失敗診斷異常信息socket讀寫錯誤連接超時怎麼辦

百度Spider抓取診斷異常信息: socket讀寫錯誤怎麼辦?

假設你的網站一直都沒有被百度收錄,首先要在百度搜索資源平台進行蜘蛛抓取診斷。

百度爬蟲抓取診斷鍊接失敗怎麼辦?

如果百度爬蟲抓取診斷好幾次都失敗,防火牆可能已經阻止了爬蟲程序。

百度搜索資源平台> 抓取診斷> 抓取異常信息: socket 讀寫錯誤 ▼

百度蜘蛛抓取失敗診斷異常信息socket讀寫錯誤連接超時怎麼辦

  • 尤其是使用Cloudflare CDN的時候,默認是屏蔽的。
  • 在互聯網上,有說要添加IP 地址 xxx.xxx.xxx.xxx/24
  • 然而,嘗試了無效。

我沒有在服務器上攔截百度蜘蛛,所以問題應該是Cloudflare的WAF!

登錄Cloudflare → 安全性→ WAF → 防火牆規則→ 創建防火牆規則

  • 在Cloudflare上查找與爬蟲相關的WAF規則,發現了“合法機器人爬蟲”選項 ▼

百度爬蟲Sitemap抓取失敗、連接超時怎麼回事?第2張

    • 創建防火牆規則後,等待10分鐘,然後抓取診斷,果然全部成功抓取到!

百度爬蟲Sitemap抓取失敗、連接超時怎麼回事?

如果在百度搜索資源平台提交Sitemap文件地址,出現抓取失敗、連接超時的問題 ▼

百度蜘蛛抓取失敗診斷異常信息socket讀寫錯誤連接超時怎麼辦的圖片第3張

百度爬蟲抓取Sitemap地圖失敗解決方案

登錄Cloudflare → 安全性→ WAF → 防火牆規則→ 創建防火牆規則 ▼

  1. 字段,選擇“用戶代理”
  2. 運算符,選擇“包含”
  3. 添加新的用戶代理,點擊最後的“Or”
  4. 值,分別輸入以下百度蜘蛛UA用戶代理:
    • Baiduspider/2.0
    • Baiduspider-image
    • Baiduspider-render/2.0
    • http://www.baidu.com/search/spider.html
    • Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
    • Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

    完成後再次測試取,結果返回HTTP頭200,表示抓取成功▼

    • 抓取诊断 > 抓取详情
      以下是百度Spider抓取结果及页面信息:
    • 提交网址: https://www.etufo.org/sitemap_baidu.xml
    • 抓取网址: https://www.etufo.org/sitemap_baidu.xml
    • 抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0;
    • +http://www.baidu.com/search/spider.html)
    • 抓取时间: 2022-11-11 19:03:44
    • 网站IP: 172.***.***.149
    • 下载时长: 0.868秒
    • 返回HTTP头:HTTP/2 200

    其它蜘蛛和爬蟲的用戶代理,也可以用同樣的方法自行搜索。

    希望陳溈亮博客( https://www.chenweiliang.com/ ) 分享的《百度蜘蛛抓取失敗診斷異常信息socket讀寫錯誤連接超時怎麼辦》,對您有幫助。

    歡迎分享本文鏈接:https://www.chenweiliang.com/cwl-29315.html

    歡迎加入陳溈亮博客的Telegram 頻道,獲取最新更新!

    🔔 率先在頻道置頂目錄獲取寶貴的《ChatGPT 內容行銷AI 工具使用指南》! 🌟
    📚 這份指南蘊含價值巨大,🌟難逢的機遇,切勿錯失良機! ⏰⌛💨
    喜歡就分享和按贊!
    您的分享和按贊,是我們持續的動力!

     

    發表評論

    您的電子郵箱地址不會被公開。 必填項已用 * 標註

    滾動到頂部