Artikel Directory
Baidu Spider fanger diagnostiske undtagelsesoplysninger: Hvad skal jeg gøre, hvis stikket læser og skriver forkert?
Forudsat at dit websted ikke er inkluderet af Baidu, skal du først udføre en edderkopcrawl-diagnose på Baidu søgeressourceplatformen.
Hvad skal jeg gøre, hvis Baidu-crawleren ikke kan gennemgå diagnostiske links?
Hvis Baidu-crawler-crawl-diagnosen mislykkes flere gange, kan firewallen have blokeret crawler-programmet.
Baidu Search Resource Platform > Crawl-diagnose > Crawl-undtagelsesoplysninger: socket læse/skrive fejl ▼
- Især når du bruger Cloudflare CDN, som er blokeret som standard.
- På internettet siges det at tilføje IP-adressen
xxx.xxx.xxx.xxx/24
- Forsøgte dog uden held.
Jeg blokerer ikke Baidu-edderkopper på serveren, så problemet burde være Cloudflares WAF!
Log ind på Cloudflare → Sikkerhed → WAF → Firewall-regler → Opret firewall-regel
- Find WAF-reglerne relateret til crawlere på Cloudflare, og fandt muligheden for "legitim robotcrawler" ▼
- Efter at have oprettet firewall-reglerne, vent i 10 minutter, og tag derefter diagnosen, og alle er grebet med succes!
Hvad er der galt med Baidu-crawler-sitemap-crawlingsfejl og forbindelsestimeout?
Hvis du indsender adressen på sitemapfilen på Baidu søgeressourceplatformen, vil der være problemer såsom gennemgangsfejl og forbindelsestimeout ▼
Baidu-crawleren kunne ikke crawle sitemap-kortløsningen
Log ind på Cloudflare → Sikkerhed → WAF → Firewall-regler → Opret firewall-regler ▼
- feltet skal du vælge User-Agent
- operatør, vælg "indeholder"
- Tilføj en ny brugeragent, klik på det sidste "Eller"
- værdi, indtast følgende Baidu Spider UA-brugeragent henholdsvis:
-
Baiduspider/2.0
-
Baiduspider-image
-
Baiduspider-render/2.0
-
http://www.baidu.com/search/spider.html
-
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
-
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Efter afslutning, test og hent igen, og resultatet returnerer HTTP-header 200, hvilket indikerer, at hentningen er vellykket▼
-
抓取诊断 > 抓取详情
以下是百度Spider抓取结果及页面信息:
-
提交网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0;
-
+http://www.baidu.com/search/spider.html)
-
抓取时间: 2022-11-11 19:03:44
-
网站IP: 172.***.***.149
-
下载时长: 0.868秒
-
返回HTTP头:HTTP/2 200
Brugeragenterne for andre edderkopper og crawlere kan også søge efter sig selv på samme måde.
Hope Chen Weiliang Blog ( https://www.chenweiliang.com/ ) delte "Baidu Spider Crawl Failure Diagnosis Abnormal Information What to Do if Socket Read and Write Error Connection Timeout", hvilket er nyttigt for dig.
Velkommen til at dele linket til denne artikel:https://www.chenweiliang.com/cwl-29315.html
Velkommen til Telegram-kanalen på Chen Weiliangs blog for at få de seneste opdateringer!
📚 Denne guide indeholder enorm værdi, 🌟Dette er en sjælden mulighed, gå ikke glip af det! ⏰⌛💨
Del og like hvis du har lyst!
Din deling og likes er vores kontinuerlige motivation!