Baidu spider crawling échec diagnostic information anormale socket lecture et écriture erreur délai de connexion quoi faire

Baidu Spider capture les informations d'exception de diagnostic : que dois-je faire si le socket lit et écrit de manière incorrecte ?

En supposant que votre site Web n'a pas été inclus par Baidu, vous devez d'abord effectuer un diagnostic d'exploration d'araignée sur la plate-forme de ressources de recherche Baidu.

Que dois-je faire si le robot d'exploration Baidu ne parvient pas à explorer les liens de diagnostic ?

Si le diagnostic d'exploration du robot d'exploration Baidu échoue plusieurs fois, le pare-feu a peut-être bloqué le programme du robot d'exploration.

Plateforme de ressources de recherche Baidu > Diagnostic d'exploration > Informations sur les exceptions d'exploration : Erreurs de lecture et d'écriture de socket ▼

Baidu spider crawling échec diagnostic information anormale socket lecture et écriture erreur délai de connexion quoi faire

  • Surtout lors de l'utilisation de Cloudflare CDN, il est bloqué par défaut.
  • Sur Internet, on dit d'ajouter l'adresse IP xxx.xxx.xxx.xxx/24
  • Cependant, essayé cela en vain.

Je n'ai pas bloqué les araignées Baidu sur le serveur, donc le problème devrait être le WAF de Cloudflare !

Connectez-vous à Cloudflare → Sécurité → WAF → Règles de pare-feu → Créer une règle de pare-feu

  • Trouvez les règles WAF liées aux crawlers sur Cloudflare, et trouvez l'option de "robot crawler légitime" ▼

Qu'est-ce qui ne va pas avec l'échec de l'exploration du sitemap du robot d'exploration Baidu et le délai de connexion ?feuille 2

    • Après avoir créé les règles de pare-feu, attendez 10 minutes, puis récupérez le diagnostic et toutes ont été capturées avec succès !

Qu'est-ce qui ne va pas avec l'échec de l'exploration du sitemap du robot d'exploration Baidu et le délai de connexion ?

Si vous soumettez l'adresse du fichier Sitemap sur la plate-forme de ressources de recherche Baidu, il y aura des problèmes tels que l'échec de l'exploration et le délai de connexion ▼

Baidu spider crawling échec diagnostic information anormale socket lecture et écriture erreur délai de connexion quoi faire

Solution à l'échec du robot d'exploration Baidu pour saisir la carte Sitemap

Connectez-vous à Cloudflare → Sécurité → WAF → Règles de pare-feu → Créer des règles de pare-feu ▼

  1. champ, sélectionnez "Agent utilisateur"
  2. opérateur, sélectionnez Contient
  3. Ajoutez un nouvel agent utilisateur, cliquez sur le dernier "Ou"
  4. Value, entrez respectivement l'agent utilisateur Baidu Spider UA suivant :
    • Baiduspider/2.0
    • Baiduspider-image
    • Baiduspider-render/2.0
    • http://www.baidu.com/search/spider.html
    • Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
    • Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

    Après l'achèvement, testez à nouveau la récupération et le résultat renvoie l'en-tête HTTP 200, indiquant que la récupération a réussi▼

    • 抓取诊断 > 抓取详情
      以下是百度Spider抓取结果及页面信息:
    • 提交网址: https://www.etufo.org/sitemap_baidu.xml
    • 抓取网址: https://www.etufo.org/sitemap_baidu.xml
    • 抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0;
    • +http://www.baidu.com/search/spider.html)
    • 抓取时间: 2022-11-11 19:03:44
    • 网站IP: 172.***.***.149
    • 下载时长: 0.868秒
    • 返回HTTP头:HTTP/2 200

    Les agents utilisateurs d'autres spiders et crawlers peuvent également se rechercher eux-mêmes de la même manière.

    J'espère que le blog de Chen Weiliang ( https://www.chenweiliang.com/ ) a partagé "Baidu Spider Crawl Failure Diagnosis Anormal Information What to Do if Socket Read and Write Error Connection Timed Out", qui vous est utile.

    Bienvenue à partager le lien de cet article :https://www.chenweiliang.com/cwl-29315.html

    Bienvenue sur la chaîne Telegram du blog de Chen Weiliang pour obtenir les dernières mises à jour !

    🔔 Soyez le premier à obtenir le précieux « Guide d'utilisation de l'outil d'IA de marketing de contenu ChatGPT » dans le répertoire supérieur de la chaîne ! 🌟
    📚 Ce guide contient une valeur énorme, 🌟C'est une opportunité rare, ne la manquez pas ! ⏰⌛💨
    Partagez et likez si vous aimez !
    Vos partages et likes sont notre motivation continue !

     

    发表 评论

    Votre adresse email ne sera pas publiée. 项 已 用 * 标注

    到 顶部