Baidu Spider Crawl Failure Diagnosis Informazioni anomale Socket Errore di lettura e scrittura Timeout connessione Cosa fare

Baidu Spider acquisisce informazioni sull'eccezione diagnostica: cosa devo fare se il socket legge e scrive in modo errato?

Supponendo che il tuo sito web non sia stato incluso da Baidu, devi prima eseguire la diagnosi di spider crawling sulla piattaforma delle risorse di ricerca di Baidu.

Cosa devo fare se il crawler di Baidu non riesce a eseguire la scansione dei collegamenti diagnostici?

Se la diagnosi della scansione del crawler di Baidu ha esito negativo più volte, il firewall potrebbe aver bloccato il programma del crawler.

Baidu Search Resource Platform > Diagnosi di scansione > Informazioni sull'eccezione di scansione: Errori di lettura e scrittura socket ▼

Baidu Spider Crawl Failure Diagnosis Informazioni anomale Socket Errore di lettura e scrittura Timeout connessione Cosa fare

  • Soprattutto quando si utilizza Cloudflare CDN, è bloccato per impostazione predefinita.
  • Su Internet si dice che aggiunga l'indirizzo IP xxx.xxx.xxx.xxx/24
  • Tuttavia, l'ho provato senza successo.

Non ho bloccato gli spider di Baidu sul server, quindi il problema dovrebbe essere il WAF di Cloudflare!

Accedi a Cloudflare → Sicurezza → WAF → Regole firewall → Crea regola firewall

  • Trova le regole WAF relative ai crawler su Cloudflare e trova l'opzione "crawler robot legittimo" ▼

Cosa c'è di sbagliato nel crawler di Baidu Errore di scansione della Sitemap e timeout della connessione?foglio 2

    • Dopo aver creato le regole del firewall, attendi 10 minuti, quindi prendi la diagnosi e tutte sono state acquisite con successo!

Cosa c'è di sbagliato nel crawler di Baidu Errore di scansione della Sitemap e timeout della connessione?

Se invii l'indirizzo del file Sitemap sulla piattaforma delle risorse di ricerca di Baidu, si verificheranno problemi come errori di scansione e timeout della connessione ▼

Baidu spider crawling diagnosi di errore socket di informazioni anomale lettura e scrittura errore connessione timeout cosa fare

Soluzione all'impossibilità del crawler Baidu di acquisire la mappa della Sitemap

Accedi a Cloudflare → Sicurezza → WAF → Regole firewall → Crea regole firewall ▼

  1. campo, selezionare "User Agent"
  2. operatore, selezionare Contiene
  3. Aggiungi un nuovo agente utente, fai clic sull'ultimo "Oppure"
  4. Valore, inserire rispettivamente il seguente agente utente Baidu Spider UA:
    • Baiduspider/2.0
    • Baiduspider-image
    • Baiduspider-render/2.0
    • http://www.baidu.com/search/spider.html
    • Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
    • Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

    Dopo il completamento, verifica nuovamente il recupero e il risultato restituisce l'intestazione HTTP 200, a indicare che il recupero è andato a buon fine▼

    • 抓取诊断 > 抓取详情
      以下是百度Spider抓取结果及页面信息:
    • 提交网址: https://www.etufo.org/sitemap_baidu.xml
    • 抓取网址: https://www.etufo.org/sitemap_baidu.xml
    • 抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0;
    • +http://www.baidu.com/search/spider.html)
    • 抓取时间: 2022-11-11 19:03:44
    • 网站IP: 172.***.***.149
    • 下载时长: 0.868秒
    • 返回HTTP头:HTTP/2 200

    Anche gli user agent di altri spider e crawler possono cercare se stessi allo stesso modo.

    Speranza Chen Weiliang Blog ( https://www.chenweiliang.com/ ) ha condiviso "Baidu Spider Crawl Failure Diagnosis Informazioni anormali Cosa fare se Socket Read and Write Error Connection Timed Out", che ti è utile.

    Benvenuti a condividere il link di questo articolo:https://www.chenweiliang.com/cwl-29315.html

    Benvenuto nel canale Telegram del blog di Chen Weiliang per ricevere gli ultimi aggiornamenti!

    🔔 Sii il primo a ricevere la preziosa "Guida all'utilizzo dello strumento AI di marketing dei contenuti ChatGPT" nella directory principale del canale! 🌟
    📚 Questa guida contiene un valore enorme, 🌟Questa è un'opportunità rara, non perderla! ⏰⌛💨
    Condividi e metti mi piace se ti va!
    La tua condivisione e i tuoi like sono la nostra continua motivazione!

     

    发表 评论

    L'indirizzo email non verrà pubblicato. 必填 项 已 用 * 标注

    滚动 到 顶部