Baidu spider crawling fejl diagnose unormal information socket læse og skrive fejl forbindelse timeout hvad skal man gøre

Baidu Spider fanger diagnostiske undtagelsesoplysninger: Hvad skal jeg gøre, hvis stikket læser og skriver forkert?

Forudsat at dit websted ikke er inkluderet af Baidu, skal du først udføre en edderkopcrawl-diagnose på Baidu søgeressourceplatformen.

Hvad skal jeg gøre, hvis Baidu-crawleren ikke kan gennemgå diagnostiske links?

Hvis Baidu-crawler-crawl-diagnosen mislykkes flere gange, kan firewallen have blokeret crawler-programmet.

Baidu Search Resource Platform > Crawl-diagnose > Crawl-undtagelsesoplysninger: socket læse/skrive fejl ▼

Baidu spider crawling fejl diagnose unormal information socket læse og skrive fejl forbindelse timeout hvad skal man gøre

  • Især når du bruger Cloudflare CDN, som er blokeret som standard.
  • På internettet siges det at tilføje IP-adressen xxx.xxx.xxx.xxx/24
  • Forsøgte dog uden held.

Jeg blokerer ikke Baidu-edderkopper på serveren, så problemet burde være Cloudflares WAF!

Log ind på Cloudflare → Sikkerhed → WAF → Firewall-regler → Opret firewall-regel

  • Find WAF-reglerne relateret til crawlere på Cloudflare, og fandt muligheden for "legitim robotcrawler" ▼

Hvad er der galt med Baidu-crawler-sitemap-crawlingsfejl og forbindelsestimeout?2

    • Efter at have oprettet firewall-reglerne, vent i 10 minutter, og tag derefter diagnosen, og alle er grebet med succes!

Hvad er der galt med Baidu-crawler-sitemap-crawlingsfejl og forbindelsestimeout?

Hvis du indsender adressen på sitemapfilen på Baidu søgeressourceplatformen, vil der være problemer såsom gennemgangsfejl og forbindelsestimeout ▼

Baidu spider crawling fejl diagnose unormal information socket læse og skrive fejl forbindelse timeout hvad skal man gøre

Baidu-crawleren kunne ikke crawle sitemap-kortløsningen

Log ind på Cloudflare → Sikkerhed → WAF → Firewall-regler → Opret firewall-regler ▼

  1. feltet skal du vælge User-Agent
  2. operatør, vælg "indeholder"
  3. Tilføj en ny brugeragent, klik på det sidste "Eller"
  4. værdi, indtast følgende Baidu Spider UA-brugeragent henholdsvis:
    • Baiduspider/2.0
    • Baiduspider-image
    • Baiduspider-render/2.0
    • http://www.baidu.com/search/spider.html
    • Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
    • Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

    Efter afslutning, test og hent igen, og resultatet returnerer HTTP-header 200, hvilket indikerer, at hentningen er vellykket▼

    • 抓取诊断 > 抓取详情
      以下是百度Spider抓取结果及页面信息:
    • 提交网址: https://www.etufo.org/sitemap_baidu.xml
    • 抓取网址: https://www.etufo.org/sitemap_baidu.xml
    • 抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0;
    • +http://www.baidu.com/search/spider.html)
    • 抓取时间: 2022-11-11 19:03:44
    • 网站IP: 172.***.***.149
    • 下载时长: 0.868秒
    • 返回HTTP头:HTTP/2 200

    Brugeragenterne for andre edderkopper og crawlere kan også søge efter sig selv på samme måde.

    Hope Chen Weiliang Blog ( https://www.chenweiliang.com/ ) delte "Baidu Spider Crawl Failure Diagnosis Abnormal Information What to Do if Socket Read and Write Error Connection Timeout", hvilket er nyttigt for dig.

    Velkommen til at dele linket til denne artikel:https://www.chenweiliang.com/cwl-29315.html

    Velkommen til Telegram-kanalen på Chen Weiliangs blog for at få de seneste opdateringer!

    🔔 Vær den første til at få den værdifulde "ChatGPT Content Marketing AI Tool Usage Guide" i kanalens øverste bibliotek! 🌟
    📚 Denne guide indeholder enorm værdi, 🌟Dette er en sjælden mulighed, gå ikke glip af det! ⏰⌛💨
    Del og like hvis du har lyst!
    Din deling og likes er vores kontinuerlige motivation!

     

    发表 评论

    Din e-mail-adresse vil ikke blive offentliggjort. 必填 项 已 用 * 标注

    scroll til toppen