百度Spider抓取診斷異常信息: socket讀寫錯誤怎麼辦?
假設你的網站一直都沒有被百度收錄,首先要在百度搜索資源平台進行蜘蛛抓取診斷。
百度爬蟲抓取診斷鍊接失敗怎麼辦?
如果百度爬蟲抓取診斷好幾次都失敗,防火牆可能已經阻止了爬蟲程序。
百度搜索資源平台> 抓取診斷> 抓取異常信息: socket 讀寫錯誤 ▼
- 尤其是使用Cloudflare CDN的時候,默認是屏蔽的。
- 在互聯網上,有說要添加IP 地址
xxx.xxx.xxx.xxx/24
- 然而,嘗試了無效。
我沒有在服務器上攔截百度蜘蛛,所以問題應該是Cloudflare的WAF!
登錄Cloudflare → 安全性→ WAF → 防火牆規則→ 創建防火牆規則
- 在Cloudflare上查找與爬蟲相關的WAF規則,發現了“合法機器人爬蟲”選項 ▼
- 創建防火牆規則後,等待10分鐘,然後抓取診斷,果然全部成功抓取到!
百度爬蟲Sitemap抓取失敗、連接超時怎麼回事?
如果在百度搜索資源平台提交Sitemap文件地址,出現抓取失敗、連接超時的問題 ▼
百度爬蟲抓取Sitemap地圖失敗解決方案
登錄Cloudflare → 安全性→ WAF → 防火牆規則→ 創建防火牆規則 ▼
- 字段,選擇“用戶代理”
- 運算符,選擇“包含”
- 添加新的用戶代理,點擊最後的“Or”
- 值,分別輸入以下百度蜘蛛UA用戶代理:
-
Baiduspider/2.0
-
Baiduspider-image
-
Baiduspider-render/2.0
-
http://www.baidu.com/search/spider.html
-
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
-
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
完成後再次測試取,結果返回HTTP頭200,表示抓取成功▼
-
抓取诊断 > 抓取详情
以下是百度Spider抓取结果及页面信息:
-
提交网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0;
-
+http://www.baidu.com/search/spider.html)
-
抓取时间: 2022-11-11 19:03:44
-
网站IP: 172.***.***.149
-
下载时长: 0.868秒
-
返回HTTP头:HTTP/2 200
其它蜘蛛和爬蟲的用戶代理,也可以用同樣的方法自行搜索。
希望陳溈亮博客( https://www.chenweiliang.com/ ) 分享的《百度蜘蛛抓取失敗診斷異常信息socket讀寫錯誤連接超時怎麼辦》,對您有幫助。
歡迎分享本文鏈接:https://www.chenweiliang.com/cwl-29315.html
歡迎加入陳溈亮博客的Telegram 頻道,獲取最新更新!
🔔 率先在頻道置頂目錄獲取寶貴的《ChatGPT 內容行銷AI 工具使用指南》! 🌟
📚 這份指南蘊含價值巨大,🌟難逢的機遇,切勿錯失良機! ⏰⌛💨
喜歡就分享和按贊!
您的分享和按贊,是我們持續的動力!
📚 這份指南蘊含價值巨大,🌟難逢的機遇,切勿錯失良機! ⏰⌛💨
喜歡就分享和按贊!
您的分享和按贊,是我們持續的動力!