Directorio de artigos
Baidu Spider rastrexa e diagnostica información anormal: que debo facer se o socket está lido ou escrito?
Asumindo que o teu sitio web non se incluíu en Baidu, primeiro debes realizar un diagnóstico de rastrexo de araña na plataforma de recursos de busca de Baidu.
Que debo facer se o rastrexador Baidu non pode rastrexar a ligazón de diagnóstico?
Se o rastrexador Baidu non consegue rastrexar e diagnosticar varias veces, é posible que o firewall bloquease o rastrexador.
Plataforma de recursos de busca de Baidu > Diagnóstico de rastrexo > Información anormal de rastrexo: erro de lectura/escritura do socket ▼
- Especialmente cando se usa Cloudflare CDN, que está bloqueado por defecto.
- En Internet fálase de engadir un enderezo IP
xxx.xxx.xxx.xxx/24
- Con todo, intentou sen éxito.
Non estou bloqueando as arañas Baidu no servidor, polo que o problema debería ser o WAF de Cloudflare.
Inicia sesión en Cloudflare → Seguridade → WAF → Regras de firewall → Crear regra de firewall
- Buscando regras WAF relacionadas co rastrexador en Cloudflare e atopou a opción "Legal Robot Crawler" ▼
- Despois de crear as regras do firewall, agarde 10 minutos e, a continuación, colle o diagnóstico, e todos eles son capturados con éxito.
Non se puido rastrexar o mapa do sitio do rastrexador Baidu, esgotouse o tempo de conexión?
Se o enderezo do ficheiro do mapa do sitio se envía na plataforma de recursos de busca de Baidu, haberá problemas de falla de rastrexo e tempo de espera da conexión ▼
O rastrexador Baidu non puido rastrexar a solución de mapas de mapas do sitio
Inicia sesión en Cloudflare → Seguridade → WAF → Regras de firewall → Crear regras de firewall ▼
- campo, seleccione User-Agent
- operador, seleccione "contén"
- Engade un novo axente de usuario, fai clic en "Ou" ao final
- valor, introduza o seguinte axente de usuario de Baidu Spider UA respectivamente:
-
Baiduspider/2.0
-
Baiduspider-image
-
Baiduspider-render/2.0
-
http://www.baidu.com/search/spider.html
-
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
-
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Despois de completar, proba e recupera de novo, e o resultado devolve a cabeceira HTTP 200, indicando que a recuperación foi exitosa▼
-
抓取诊断 > 抓取详情
以下是百度Spider抓取结果及页面信息:
-
提交网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0;
-
+http://www.baidu.com/search/spider.html)
-
抓取时间: 2022-11-11 19:03:44
-
网站IP: 172.***.***.149
-
下载时长: 0.868秒
-
返回HTTP头:HTTP/2 200
Os axentes de usuarios doutras arañas e rastreadores tamén poden buscarse por si mesmos do mesmo xeito.
Blog de Hope Chen Weiliang ( https://www.chenweiliang.com/ ) compartiu "Error ao rastrexar a araña Baidu ao diagnosticar os erros de lectura e escritura da toma de información anormais que facer co tempo de espera da conexión", que é útil para ti.
Benvido a compartir a ligazón deste artigo:https://www.chenweiliang.com/cwl-29315.html
Benvido á canle de Telegram do blog de Chen Weiliang para recibir as últimas actualizacións.
📚 Esta guía contén un gran valor, 🌟Esta é unha oportunidade rara, non a perdas! ⏰⌛💨
Comparte e da like se che gusta!
O teu compartir e gústame son a nosa motivación continua!