Baidu spider crawling fejl diagnose unormal information socket læse og skrive fejl forbindelse timeout hvad skal man gøre

Baidu Spider fanger diagnostiske undtagelsesoplysninger: Hvad skal jeg gøre, hvis stikket læser og skriver forkert?

Forudsat at dit websted ikke er inkluderet af Baidu, skal du først udføre en edderkopcrawl-diagnose på Baidu søgeressourceplatformen.

Hvad skal jeg gøre, hvis Baidu-crawleren ikke kan gennemgå diagnostiske links?

Hvis Baidu-crawler-crawl-diagnosen mislykkes flere gange, kan firewallen have blokeret crawler-programmet.

Baidu Search Resource Platform > Crawl-diagnose > Crawl-undtagelsesoplysninger: socket læse/skrive fejl ▼

Løs Baidu spider crawling fejl diagnose undtagelse information socket læse og skrive fejl forbindelse timeout

  • Især når du bruger Cloudflare CDN, som er blokeret som standard.
  • På internettet siges det at tilføje IP-adressen xxx.xxx.xxx.xxx/24
  • Forsøgte dog uden held.

Jeg blokerer ikke Baidu-edderkopper på serveren, så problemet burde være Cloudflares WAF!

Log ind på Cloudflare → Sikkerhed → WAF → Firewall-regler → Opret firewall-regel

  • Find WAF-reglerne relateret til crawlere på Cloudflare, og fandt muligheden for "legitim robotcrawler" ▼

Hvad er der galt med Baidu-crawler-sitemap-crawlingsfejl og forbindelsestimeout?2

    • Efter at have oprettet firewall-reglerne, vent i 10 minutter, og tag derefter diagnosen, og alle er grebet med succes!

Hvad er der galt med Baidu-crawler-sitemap-crawlingsfejl og forbindelsestimeout?

Hvis du indsender adressen på sitemapfilen på Baidu søgeressourceplatformen, vil der være problemer såsom gennemgangsfejl og forbindelsestimeout ▼

Baidu spider crawling fejl diagnose unormal information socket læse og skrive fejl forbindelse timeout hvad skal man gøre

Baidu-crawleren kunne ikke crawle sitemap-kortløsningen

Log ind på Cloudflare → Sikkerhed → WAF → Firewall-regler → Opret firewall-regler ▼

  1. feltet skal du vælge User-Agent
  2. operatør, vælg "indeholder"
  3. Tilføj en ny brugeragent, klik på det sidste "Eller"
  4. værdi, indtast følgende Baidu Spider UA-brugeragent henholdsvis:
    • Baiduspider/2.0
    • Baiduspider-image
    • Baiduspider-render/2.0
    • http://www.baidu.com/search/spider.html
    • Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
    • Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

    Efter afslutning, test og hent igen, og resultatet returnerer HTTP-header 200, hvilket indikerer, at hentningen er vellykket▼

    • 抓取诊断 > 抓取详情
      以下是百度Spider抓取结果及页面信息:
    • 提交网址: https://www.etufo.org/sitemap_baidu.xml
    • 抓取网址: https://www.etufo.org/sitemap_baidu.xml
    • 抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0;
    • +http://www.baidu.com/search/spider.html)
    • 抓取时间: 2022-11-11 19:03:44
    • 网站IP: 172.***.***.149
    • 下载时长: 0.868秒
    • 返回HTTP头:HTTP/2 200

    Brugeragenterne for andre edderkopper og crawlere kan også søge efter sig selv på samme måde.

    发表 评论

    Din e-mailadresse vil ikke blive offentliggjort. 必填 项 已 用 * 标注

    Rul til top