Articulu Directory
Baidu Spider cattura l'infurmazioni di l'eccezzioni di diagnostica: chì deve fà se u socket leghje è scrive in modu incorrectu?
Assumindu chì u vostru situ web ùn hè micca statu inclusu da Baidu, prima deve fà u diagnosticu di spider crawling nantu à a piattaforma di risorsa di ricerca Baidu.
Cosa devo fà se u crawler Baidu ùn riesce à scansà ligami di diagnostica?
Se u diagnosticu di crawler Baidu falla parechje volte, u firewall pò avè bluccatu u prugramma crawler.
Piattaforma di risorsa di ricerca Baidu > Diagnosi di scansione > Informazioni di eccezzioni di scansione: errore di lettura / scrittura di socket ▼

- In particulare quandu si usa Cloudflare CDN, hè bluccatu per automaticamente.
- In Internet, si parla di aghjunghje un indirizzu IP
xxx.xxx.xxx.xxx/24 - Tuttavia, pruvò senza risultati.
Ùn sò micca bluccatu l'aragni Baidu nantu à u servitore, cusì u prublema deve esse u WAF di Cloudflare!
Accedi à Cloudflare → Sicurezza → WAF → Reguli di Firewall → Crea una Regola di Firewall
- Truvate e regule WAF relative à i crawlers in Cloudflare, è truvate l'opzione di "robot crawler legittimu" ▼

- Dopu avè creatu e regule di u firewall, aspettate 10 minuti, è poi pigliate u diagnosticu, è tutti sò chjappi cù successu!
Chì ci hè sbagliatu cù u crawler Baidu Sitemap crawling fallimentu è timeout di cunnessione?
Se inviate l'indirizzu di u schedariu Sitemap nantu à a piattaforma di risorsa di ricerca Baidu, ci saranu prublemi cum'è fallimentu di crawling è timeout di cunnessione ▼

U crawler Baidu ùn hà micca riesciutu à scansà a soluzione di mappa di Sitemap
Accedi à Cloudflare → Sicurezza → WAF → Reguli di Firewall → Crea Reguli di Firewall ▼

- campu, selezziunà User-Agent
- operatore, selezziunà "cuntene"
- Aghjunghjite un novu agente d'utilizatore, cliccate l'ultimu "Or"
- Valore, inserisci rispettivamente u seguente agente d'utilizatore Baidu Spider UA:
-
Baiduspider/2.0 -
Baiduspider-image -
Baiduspider-render/2.0 -
http://www.baidu.com/search/spider.html -
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) -
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Dopu à a fine, pruvate è ricuperà di novu, è u risultatu torna l'intestazione HTTP 200, chì indica chì a ricerca hè successu▼
-
抓取诊断 > 抓取详情以下是百度Spider抓取结果及页面信息: -
提交网址: https://www.etufo.org/sitemap_baidu.xml -
抓取网址: https://www.etufo.org/sitemap_baidu.xml -
抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0; -
+http://www.baidu.com/search/spider.html) -
抓取时间: 2022-11-11 19:03:44 -
网站IP: 172.***.***.149 -
下载时长: 0.868秒 -
返回HTTP头:HTTP/2 200
L'agenti di l'utilizatori di l'altri spider è crawlers ponu ancu circà per elli stessi in u listessu modu.
Hope Chen Weiliang Blog ( https://www.chenweiliang.com/ ) hà spartutu "Baidu Spider Crawl Failure Diagnosis Anormal Information Cosa da fà se Socket Read and Write Error Connection Timed Out", chì hè utile per voi.
Benvenuti à sparte u ligame di stu articulu:https://www.chenweiliang.com/cwl-29315.html
Per sbloccare più trucchi nascosti🔑, benvenuti à unisce à u nostru canale Telegram!
Condividi e mi piace se ti piace! I vostri sparte è Mi piace sò a nostra motivazione cuntinua!