Directory articoli
Baidu Spider acquisisce informazioni sull'eccezione diagnostica: cosa devo fare se il socket legge e scrive in modo errato?
Supponendo che il tuo sito web non sia stato incluso da Baidu, devi prima eseguire la diagnosi di spider crawling sulla piattaforma delle risorse di ricerca di Baidu.
Cosa devo fare se il crawler di Baidu non riesce a eseguire la scansione dei collegamenti diagnostici?
Se la diagnosi della scansione del crawler di Baidu ha esito negativo più volte, il firewall potrebbe aver bloccato il programma del crawler.
Baidu Search Resource Platform > Diagnosi di scansione > Informazioni sull'eccezione di scansione: Errori di lettura e scrittura socket ▼
- Soprattutto quando si utilizza Cloudflare CDN, è bloccato per impostazione predefinita.
- Su Internet si dice che aggiunga l'indirizzo IP
xxx.xxx.xxx.xxx/24
- Tuttavia, l'ho provato senza successo.
Non ho bloccato gli spider di Baidu sul server, quindi il problema dovrebbe essere il WAF di Cloudflare!
Accedi a Cloudflare → Sicurezza → WAF → Regole firewall → Crea regola firewall
- Trova le regole WAF relative ai crawler su Cloudflare e trova l'opzione "crawler robot legittimo" ▼
- Dopo aver creato le regole del firewall, attendi 10 minuti, quindi prendi la diagnosi e tutte sono state acquisite con successo!
Cosa c'è di sbagliato nel crawler di Baidu Errore di scansione della Sitemap e timeout della connessione?
Se invii l'indirizzo del file Sitemap sulla piattaforma delle risorse di ricerca di Baidu, si verificheranno problemi come errori di scansione e timeout della connessione ▼
Soluzione all'impossibilità del crawler Baidu di acquisire la mappa della Sitemap
Accedi a Cloudflare → Sicurezza → WAF → Regole firewall → Crea regole firewall ▼
- campo, selezionare "User Agent"
- operatore, selezionare Contiene
- Aggiungi un nuovo agente utente, fai clic sull'ultimo "Oppure"
- Valore, inserire rispettivamente il seguente agente utente Baidu Spider UA:
-
Baiduspider/2.0
-
Baiduspider-image
-
Baiduspider-render/2.0
-
http://www.baidu.com/search/spider.html
-
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
-
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Dopo il completamento, verifica nuovamente il recupero e il risultato restituisce l'intestazione HTTP 200, a indicare che il recupero è andato a buon fine▼
-
抓取诊断 > 抓取详情
以下是百度Spider抓取结果及页面信息:
-
提交网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0;
-
+http://www.baidu.com/search/spider.html)
-
抓取时间: 2022-11-11 19:03:44
-
网站IP: 172.***.***.149
-
下载时长: 0.868秒
-
返回HTTP头:HTTP/2 200
Anche gli user agent di altri spider e crawler possono cercare se stessi allo stesso modo.
Speranza Chen Weiliang Blog ( https://www.chenweiliang.com/ ) ha condiviso "Baidu Spider Crawl Failure Diagnosis Informazioni anormali Cosa fare se Socket Read and Write Error Connection Timed Out", che ti è utile.
Benvenuti a condividere il link di questo articolo:https://www.chenweiliang.com/cwl-29315.html
Benvenuto nel canale Telegram del blog di Chen Weiliang per ricevere gli ultimi aggiornamenti!
📚 Questa guida contiene un valore enorme, 🌟Questa è un'opportunità rara, non perderla! ⏰⌛💨
Condividi e metti mi piace se ti va!
La tua condivisione e i tuoi like sono la nostra continua motivazione!