Répertoire d'articles
- 1 Que dois-je faire si le robot d'exploration Baidu ne parvient pas à explorer les liens de diagnostic ?
- 2 Qu'est-ce qui ne va pas avec l'échec de l'exploration du sitemap du robot d'exploration Baidu et le délai de connexion ?
- 3 Solution à l'échec du robot d'exploration Baidu pour saisir la carte Sitemap
Baidu Spider capture les informations d'exception de diagnostic : que dois-je faire si le socket lit et écrit de manière incorrecte ?
En supposant que votre site Web n'a pas été inclus par Baidu, vous devez d'abord effectuer un diagnostic d'exploration d'araignée sur la plate-forme de ressources de recherche Baidu.
Que dois-je faire si le robot d'exploration Baidu ne parvient pas à explorer les liens de diagnostic ?
Si le diagnostic d'exploration du robot d'exploration Baidu échoue plusieurs fois, le pare-feu a peut-être bloqué le programme du robot d'exploration.
Plateforme de ressources de recherche Baidu > Diagnostic d'exploration > Informations sur les exceptions d'exploration : Erreurs de lecture et d'écriture de socket ▼
- Surtout lors de l'utilisation de Cloudflare CDN, il est bloqué par défaut.
- Sur Internet, on dit d'ajouter l'adresse IP
xxx.xxx.xxx.xxx/24
- Cependant, essayé cela en vain.
Je n'ai pas bloqué les araignées Baidu sur le serveur, donc le problème devrait être le WAF de Cloudflare !
Connectez-vous à Cloudflare → Sécurité → WAF → Règles de pare-feu → Créer une règle de pare-feu
- Trouvez les règles WAF liées aux crawlers sur Cloudflare, et trouvez l'option de "robot crawler légitime" ▼
- Après avoir créé les règles de pare-feu, attendez 10 minutes, puis récupérez le diagnostic et toutes ont été capturées avec succès !
Qu'est-ce qui ne va pas avec l'échec de l'exploration du sitemap du robot d'exploration Baidu et le délai de connexion ?
Si vous soumettez l'adresse du fichier Sitemap sur la plate-forme de ressources de recherche Baidu, il y aura des problèmes tels que l'échec de l'exploration et le délai de connexion ▼
Solution à l'échec du robot d'exploration Baidu pour saisir la carte Sitemap
Connectez-vous à Cloudflare → Sécurité → WAF → Règles de pare-feu → Créer des règles de pare-feu ▼
- champ, sélectionnez "Agent utilisateur"
- opérateur, sélectionnez Contient
- Ajoutez un nouvel agent utilisateur, cliquez sur le dernier "Ou"
- Value, entrez respectivement l'agent utilisateur Baidu Spider UA suivant :
-
Baiduspider/2.0
-
Baiduspider-image
-
Baiduspider-render/2.0
-
http://www.baidu.com/search/spider.html
-
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
-
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
Après l'achèvement, testez à nouveau la récupération et le résultat renvoie l'en-tête HTTP 200, indiquant que la récupération a réussi▼
-
抓取诊断 > 抓取详情
以下是百度Spider抓取结果及页面信息:
-
提交网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0;
-
+http://www.baidu.com/search/spider.html)
-
抓取时间: 2022-11-11 19:03:44
-
网站IP: 172.***.***.149
-
下载时长: 0.868秒
-
返回HTTP头:HTTP/2 200
Les agents utilisateurs d'autres spiders et crawlers peuvent également se rechercher eux-mêmes de la même manière.
J'espère que le blog de Chen Weiliang ( https://www.chenweiliang.com/ ) a partagé "Baidu Spider Crawl Failure Diagnosis Anormal Information What to Do if Socket Read and Write Error Connection Timed Out", qui vous est utile.
Bienvenue à partager le lien de cet article :https://www.chenweiliang.com/cwl-29315.html
Bienvenue sur la chaîne Telegram du blog de Chen Weiliang pour obtenir les dernières mises à jour !
📚 Ce guide contient une valeur énorme, 🌟C'est une opportunité rare, ne la manquez pas ! ⏰⌛💨
Partagez et likez si vous aimez !
Vos partages et likes sont notre motivation continue !