Baidu spider crawling failure diagnosis abnormal information socket read and write error connection timeout kung ano ang gagawin

Ang Baidu Spider ay gumagapang at nag-diagnose ng abnormal na impormasyon: Ano ang dapat kong gawin kung ang socket ay nabasa o nakasulat?

Ipagpalagay na ang iyong website ay hindi na-index ng Baidu, kailangan mo munang magsagawa ng diagnosis sa pag-crawl ng spider sa platform ng mapagkukunan ng paghahanap ng Baidu.

Ano ang dapat kong gawin kung nabigo ang Baidu crawler na i-crawl ang diagnostic link?

Kung mabibigo ang Baidu crawler na mag-crawl at mag-diagnose nang maraming beses, maaaring na-block ng firewall ang crawler.

Baidu Search Resource Platform > Crawl Diagnosis > Crawl Abnormal na Impormasyon: error sa pagbasa/pagsusulat ng socket ▼

Baidu spider crawling failure diagnosis abnormal information socket read and write error connection timeout kung ano ang gagawin

  • Lalo na kapag gumagamit ng Cloudflare CDN, na naka-block bilang default.
  • Sa Internet, pinag-uusapan ang pagdaragdag ng IP address xxx.xxx.xxx.xxx/24
  • Gayunpaman, sinubukan upang hindi mapakinabangan.

Hindi ko bina-block ang mga spider ng Baidu sa server, kaya ang problema dapat ay WAF ng Cloudflare!

Mag-sign in sa Cloudflare → Seguridad → WAF → Mga Panuntunan sa Firewall → Gumawa ng Panuntunan sa Firewall

  • Naghahanap ng mga panuntunan sa WAF na nauugnay sa crawler sa Cloudflare at nakita ang opsyong "Legal na Robot Crawler" ▼

Nabigong mag-crawl ang Baidu crawler Sitemap, nag-time out ang koneksyon?ika-2

    • Pagkatapos gawin ang mga panuntunan sa firewall, maghintay ng 10 minuto, at pagkatapos ay kunin ang diagnosis, at lahat ng mga ito ay matagumpay na nakuha!

Nabigong mag-crawl ang Baidu crawler Sitemap, nag-time out ang koneksyon?

Kung ang sitemap file address ay isinumite sa Baidu search resource platform, magkakaroon ng mga problema sa crawling failure at connection timeout ▼

Baidu spider crawling failure diagnosis abnormal information socket read and write error connection timeout picture 3

Nabigo ang Baidu crawler na i-crawl ang solusyon sa mapa ng Sitemap

Mag-sign in sa Cloudflare → Seguridad → WAF → Mga Panuntunan sa Firewall → Gumawa ng Mga Panuntunan sa Firewall ▼

  1. field, piliin ang User-Agent
  2. operator, piliin ang "naglalaman"
  3. Magdagdag ng bagong user agent, i-click ang "O" sa dulo
  4. halaga, ipasok ang sumusunod na ahente ng gumagamit ng Baidu Spider UA ayon sa pagkakabanggit:
    • Baiduspider/2.0
    • Baiduspider-image
    • Baiduspider-render/2.0
    • http://www.baidu.com/search/spider.html
    • Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
    • Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

    Pagkatapos makumpleto, subukan at kunin muli, at ang resulta ay nagbabalik ng HTTP header 200, na nagpapahiwatig na ang pagkuha ay matagumpay▼

    • 抓取诊断 > 抓取详情
      以下是百度Spider抓取结果及页面信息:
    • 提交网址: https://www.etufo.org/sitemap_baidu.xml
    • 抓取网址: https://www.etufo.org/sitemap_baidu.xml
    • 抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0;
    • +http://www.baidu.com/search/spider.html)
    • 抓取时间: 2022-11-11 19:03:44
    • 网站IP: 172.***.***.149
    • 下载时长: 0.868秒
    • 返回HTTP头:HTTP/2 200

    Ang mga user agent ng iba pang mga spider at crawler ay maaari ding maghanap para sa kanilang sarili sa parehong paraan.

    Hope Chen Weiliang Blog ( https://www.chenweiliang.com/ ) ibinahagi ang "Baidu spider crawling failure to diagnose abnormal information socket read and write errors kung ano ang gagawin tungkol sa connection timeout", na nakakatulong sa iyo.

    Maligayang pagdating upang ibahagi ang link ng artikulong ito:https://www.chenweiliang.com/cwl-29315.html

    Maligayang pagdating sa Telegram channel ng blog ni Chen Weiliang para makuha ang pinakabagong mga update!

    🔔 Maging una upang makuha ang mahalagang "ChatGPT Content Marketing AI Tool Usage Guide" sa direktoryo ng nangungunang channel! 🌟
    📚 Ang gabay na ito ay naglalaman ng malaking halaga, 🌟Ito ay isang bihirang pagkakataon, huwag palampasin ito! ⏰⌛💨
    Share and like kung gusto mo!
    Ang iyong pagbabahagi at pag-like ay ang aming patuloy na pagganyak!

     

    发表 评论

    Ang iyong email address ay hindi mai-publish. 必填 项 已 用 * Tatak

    mag-scroll sa itaas