Directorio de artículos
Baidu Spider rastrea y diagnostica información anormal: ¿Qué debo hacer si se lee o escribe en el socket?
Suponiendo que Baidu no haya incluido su sitio web, primero debe realizar un diagnóstico de rastreo de araña en la plataforma de recursos de búsqueda de Baidu.
¿Qué debo hacer si el rastreador de Baidu no puede rastrear los enlaces de diagnóstico?
Si el diagnóstico de rastreo del rastreador de Baidu falla varias veces, es posible que el firewall haya bloqueado el programa del rastreador.
Plataforma de recursos de búsqueda de Baidu > Diagnóstico de rastreo > Información de excepción de rastreo: error de lectura/escritura de socket ▼

- Especialmente cuando se usa Cloudflare CDN, que está bloqueado de forma predeterminada.
- En Internet se habla de añadir una dirección IP
xxx.xxx.xxx.xxx/24 - Sin embargo, trató en vano.
No estoy bloqueando las arañas de Baidu en el servidor, ¡así que el problema debería ser el WAF de Cloudflare!
Inicie sesión en Cloudflare → Seguridad → WAF → Reglas de firewall → Crear regla de firewall
- Busqué reglas WAF relacionadas con el rastreador en Cloudflare y encontré la opción "Legal Robot Crawler" ▼

- Después de crear las reglas del firewall, espere 10 minutos y luego tome el diagnóstico, ¡y todos fueron capturados con éxito!
¿Qué ocurre con el error de rastreo del Sitemap del rastreador de Baidu y el tiempo de espera de la conexión?
Si envía la dirección del archivo del mapa del sitio en la plataforma de recursos de búsqueda de Baidu, habrá problemas como errores de rastreo y tiempo de espera de conexión ▼

Solución al error del rastreador de Baidu para obtener el mapa del mapa del sitio
Inicie sesión en Cloudflare → Seguridad → WAF → Reglas de firewall → Crear reglas de firewall ▼

- campo, seleccione "Agente de usuario"
- operador, seleccione Contiene
- Agregue un nuevo agente de usuario, haga clic en el último "O"
- valor, ingrese el siguiente agente de usuario de Baidu Spider UA respectivamente:
-
Baiduspider/2.0 -
Baiduspider-image -
Baiduspider-render/2.0 -
http://www.baidu.com/search/spider.html -
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) -
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Después de completar, pruebe y recupere nuevamente, y el resultado devuelve el encabezado HTTP 200, lo que indica que la recuperación se realizó correctamente▼
-
抓取诊断 > 抓取详情以下是百度Spider抓取结果及页面信息: -
提交网址: https://www.etufo.org/sitemap_baidu.xml -
抓取网址: https://www.etufo.org/sitemap_baidu.xml -
抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0; -
+http://www.baidu.com/search/spider.html) -
抓取时间: 2022-11-11 19:03:44 -
网站IP: 172.***.***.149 -
下载时长: 0.868秒 -
返回HTTP头:HTTP/2 200
Los agentes de usuario de otras arañas y rastreadores también pueden buscarse a sí mismos de la misma manera.
Esperanza Chen Weiliang Blog ( https://www.chenweiliang.com/ ) compartió "Baidu Spider Crawl Failure Diagnosis Información anormal Qué hacer si se agotó el tiempo de espera de la conexión de error de lectura y escritura del socket", que es útil para usted.
Bienvenido a compartir el enlace de este artículo:https://www.chenweiliang.com/cwl-29315.html
Para desbloquear más trucos ocultos🔑, ¡bienvenido a unirse a nuestro canal de Telegram!
¡Comparte y dale me gusta si te gusta! ¡Tus acciones y me gusta son nuestra motivación continua!