Director articol
Baidu Spider captează informații despre excepțiile de diagnosticare: Ce ar trebui să fac dacă există erori de citire și scriere în soclu?
Presupunând că site-ul dvs. nu a fost indexat de Baidu, trebuie mai întâi să efectuați diagnosticarea cu crawlere spider pe platforma de resurse de căutare Baidu.
Ce ar trebui să fac dacă crawler-ul Baidu nu reușește să acceseze cu crawlere legătura de diagnosticare?
Dacă diagnosticul de accesare cu crawler Baidu eșuează de mai multe ori, este posibil ca firewall-ul să fi blocat programul crawler.
Platforma de resurse de căutare Baidu > Diagnosticare accesare cu crawlere > Informații anormale de accesare cu crawlere: Eroare de citire și scriere în socket ▼
- Mai ales când se utilizează Cloudflare CDN, acesta este blocat în mod implicit.
- Pe internet se vorbește despre adăugarea unei adrese IP
xxx.xxx.xxx.xxx/24
- Cu toate acestea, a încercat fără rezultat.
Nu l-am blocat pe Baidu Spider pe server, așa că problema ar trebui să fie WAF-ul lui Cloudflare!
Conectați-vă la Cloudflare → Securitate → WAF → Reguli firewall → Creați reguli pentru firewall
- Căutând reguli WAF legate de crawlerele pe Cloudflare, am găsit opțiunea „Legal Robot Crawlers” ▼
- După ce ați creat regulile de firewall, așteptați 10 minute, apoi capturați diagnosticul. Desigur, toate au fost capturate cu succes!
Ce este în neregulă cu eroarea sitemapului cu crawler Baidu și expirarea timpului de conectare?
Dacă trimiteți adresa fișierului Sitemap pe platforma de resurse de căutare Baidu, vor apărea probleme precum eșecul accesării cu crawlere și expirarea conexiunii ▼
Soluție pentru eșecul crawler-ului Baidu la accesarea cu crawlere a hărții Sitemap
Conectați-vă la Cloudflare → Securitate → WAF → Reguli firewall → Creați reguli pentru firewall ▼
- câmp, selectați „Agent utilizator”
- operator, selectați „conține”
- Pentru a adăuga un nou agent utilizator, faceți clic pe „Sau” la sfârșit
- Valoare, introduceți următorul agent utilizator Baidu Spider UA:
-
Baiduspider/2.0
-
Baiduspider-image
-
Baiduspider-render/2.0
-
http://www.baidu.com/search/spider.html
-
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
-
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
După finalizare, testați din nou preluarea, iar rezultatul returnează antetul HTTP 200, indicând că preluarea a avut succes▼
-
抓取诊断 > 抓取详情
以下是百度Spider抓取结果及页面信息:
-
提交网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0;
-
+http://www.baidu.com/search/spider.html)
-
抓取时间: 2022-11-11 19:03:44
-
网站IP: 172.***.***.149
-
下载时长: 0.868秒
-
返回HTTP头:HTTP/2 200
Agenții utilizatori ai altor păianjeni și crawler-uri pot fi căutați singuri folosind aceeași metodă.
Hope Chen Weiliang Blog ( https://www.chenweiliang.com/ ) a împărtășit „Ce trebuie să faceți dacă accesarea cu crawlere a păianjenului Baidu eșuează, diagnosticează informații despre excepții, eroare de citire și scriere a soclului, expirare a timpului de conectare”, vă va fi de ajutor.
Bine ați venit să distribuiți linkul acestui articol:https://www.chenweiliang.com/cwl-29315.html
Bun venit pe canalul Telegram al blogului lui Chen Weiliang pentru a primi cele mai recente actualizări!
📚 Acest ghid conține o valoare uriașă, 🌟Aceasta este o oportunitate rară, nu o ratați! ⏰⌛💨
Distribuie si da like daca iti place!
Partajarea și like-urile tale sunt motivația noastră continuă!