ਲੇਖ ਡਾਇਰੈਕਟਰੀ
Baidu ਸਪਾਈਡਰ ਡਾਇਗਨੌਸਟਿਕ ਅਪਵਾਦ ਜਾਣਕਾਰੀ ਹਾਸਲ ਕਰਦਾ ਹੈ: ਜੇਕਰ ਸਾਕਟ ਗਲਤ ਢੰਗ ਨਾਲ ਪੜ੍ਹਦਾ ਅਤੇ ਲਿਖਦਾ ਹੈ ਤਾਂ ਮੈਨੂੰ ਕੀ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ?
ਇਹ ਮੰਨਦੇ ਹੋਏ ਕਿ ਤੁਹਾਡੀ ਵੈੱਬਸਾਈਟ Baidu ਦੁਆਰਾ ਸ਼ਾਮਲ ਨਹੀਂ ਕੀਤੀ ਗਈ ਹੈ, ਤੁਹਾਨੂੰ ਪਹਿਲਾਂ Baidu ਖੋਜ ਸਰੋਤ ਪਲੇਟਫਾਰਮ 'ਤੇ ਮੱਕੜੀ ਕ੍ਰੌਲਿੰਗ ਨਿਦਾਨ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ।
ਜੇਕਰ Baidu ਕ੍ਰਾਲਰ ਡਾਇਗਨੌਸਟਿਕ ਲਿੰਕਾਂ ਨੂੰ ਕ੍ਰੌਲ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਹੋ ਜਾਂਦਾ ਹੈ ਤਾਂ ਮੈਨੂੰ ਕੀ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ?
ਜੇਕਰ Baidu ਕ੍ਰਾਲਰ ਕ੍ਰੌਲ ਨਿਦਾਨ ਕਈ ਵਾਰ ਅਸਫਲ ਹੋ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਫਾਇਰਵਾਲ ਨੇ ਕ੍ਰਾਲਰ ਪ੍ਰੋਗਰਾਮ ਨੂੰ ਬਲੌਕ ਕੀਤਾ ਹੋ ਸਕਦਾ ਹੈ।
Baidu ਖੋਜ ਸਰੋਤ ਪਲੇਟਫਾਰਮ > ਕ੍ਰਾਲ ਨਿਦਾਨ > ਕ੍ਰਾਲ ਅਪਵਾਦ ਜਾਣਕਾਰੀ: ਸਾਕਟ ਪੜ੍ਹਨ ਅਤੇ ਲਿਖਣ ਦੀਆਂ ਗਲਤੀਆਂ ▼
- ਖਾਸ ਤੌਰ 'ਤੇ ਕਲਾਉਡਫਲੇਅਰ CDN ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਸਮੇਂ, ਇਹ ਮੂਲ ਰੂਪ ਵਿੱਚ ਬਲੌਕ ਕੀਤਾ ਜਾਂਦਾ ਹੈ।
- ਇੰਟਰਨੈੱਟ 'ਤੇ, IP ਐਡਰੈੱਸ ਨੂੰ ਜੋੜਨ ਲਈ ਕਿਹਾ ਜਾਂਦਾ ਹੈ
xxx.xxx.xxx.xxx/24
- ਹਾਲਾਂਕਿ, ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਕਿ ਕੋਈ ਫਾਇਦਾ ਨਹੀਂ ਹੋਇਆ.
ਮੈਂ ਸਰਵਰ 'ਤੇ Baidu ਸਪਾਈਡਰਾਂ ਨੂੰ ਬਲੌਕ ਨਹੀਂ ਕੀਤਾ, ਇਸਲਈ ਸਮੱਸਿਆ Cloudflare ਦੇ WAF ਦੀ ਹੋਣੀ ਚਾਹੀਦੀ ਹੈ!
Cloudflare → ਸੁਰੱਖਿਆ → WAF → ਫਾਇਰਵਾਲ ਨਿਯਮ → ਫਾਇਰਵਾਲ ਨਿਯਮ ਬਣਾਓ ਵਿੱਚ ਲੌਗਇਨ ਕਰੋ
- Cloudflare 'ਤੇ ਕ੍ਰੌਲਰਾਂ ਨਾਲ ਸਬੰਧਤ WAF ਨਿਯਮ ਲੱਭੋ, ਅਤੇ "ਜਾਇਜ਼ ਰੋਬੋਟ ਕ੍ਰਾਲਰ" ਦਾ ਵਿਕਲਪ ਲੱਭੋ ▼
- ਫਾਇਰਵਾਲ ਨਿਯਮ ਬਣਾਉਣ ਤੋਂ ਬਾਅਦ, 10 ਮਿੰਟ ਉਡੀਕ ਕਰੋ, ਅਤੇ ਫਿਰ ਨਿਦਾਨ ਨੂੰ ਫੜੋ, ਅਤੇ ਉਹ ਸਾਰੇ ਸਫਲਤਾਪੂਰਵਕ ਕੈਪਚਰ ਕੀਤੇ ਗਏ ਸਨ!
Baidu ਕ੍ਰਾਲਰ ਸਾਈਟਮੈਪ ਕ੍ਰੌਲਿੰਗ ਅਸਫਲਤਾ ਅਤੇ ਕਨੈਕਸ਼ਨ ਸਮਾਂ ਸਮਾਪਤ ਹੋਣ ਵਿੱਚ ਕੀ ਗਲਤ ਹੈ?
ਜੇਕਰ ਤੁਸੀਂ Baidu ਖੋਜ ਸਰੋਤ ਪਲੇਟਫਾਰਮ 'ਤੇ ਸਾਈਟਮੈਪ ਫਾਈਲ ਦਾ ਪਤਾ ਸਪੁਰਦ ਕਰਦੇ ਹੋ, ਤਾਂ ਸਮੱਸਿਆਵਾਂ ਹੋਣਗੀਆਂ ਜਿਵੇਂ ਕਿ ਕ੍ਰੌਲਿੰਗ ਅਸਫਲਤਾ ਅਤੇ ਕਨੈਕਸ਼ਨ ਸਮਾਂ ਸਮਾਪਤ ▼
ਸਾਈਟਮੈਪ ਨਕਸ਼ੇ ਨੂੰ ਹਾਸਲ ਕਰਨ ਵਿੱਚ Baidu ਕ੍ਰਾਲਰ ਦੀ ਅਸਫਲਤਾ ਦਾ ਹੱਲ
Cloudflare → ਸੁਰੱਖਿਆ → WAF → ਫਾਇਰਵਾਲ ਨਿਯਮ → ਫਾਇਰਵਾਲ ਨਿਯਮ ਬਣਾਓ ▼ ਵਿੱਚ ਲੌਗਇਨ ਕਰੋ
- ਖੇਤਰ, "ਉਪਭੋਗਤਾ ਏਜੰਟ" ਦੀ ਚੋਣ ਕਰੋ
- ਆਪਰੇਟਰ, Contains ਚੁਣੋ
- ਇੱਕ ਨਵਾਂ ਉਪਭੋਗਤਾ ਏਜੰਟ ਸ਼ਾਮਲ ਕਰੋ, ਆਖਰੀ "ਜਾਂ" 'ਤੇ ਕਲਿੱਕ ਕਰੋ
- ਮੁੱਲ, ਕ੍ਰਮਵਾਰ ਹੇਠਾਂ ਦਿੱਤੇ Baidu Spider UA ਉਪਭੋਗਤਾ ਏਜੰਟ ਨੂੰ ਦਾਖਲ ਕਰੋ:
-
Baiduspider/2.0
-
Baiduspider-image
-
Baiduspider-render/2.0
-
http://www.baidu.com/search/spider.html
-
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
-
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
ਪੂਰਾ ਹੋਣ ਤੋਂ ਬਾਅਦ, ਦੁਬਾਰਾ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀ ਜਾਂਚ ਕਰੋ, ਅਤੇ ਨਤੀਜਾ HTTP ਸਿਰਲੇਖ 200 ਵਾਪਸ ਕਰਦਾ ਹੈ, ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਪ੍ਰਾਪਤ ਕਰਨਾ ਸਫਲ ਹੈ▼
-
抓取诊断 > 抓取详情
以下是百度Spider抓取结果及页面信息:
-
提交网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0;
-
+http://www.baidu.com/search/spider.html)
-
抓取时间: 2022-11-11 19:03:44
-
网站IP: 172.***.***.149
-
下载时长: 0.868秒
-
返回HTTP头:HTTP/2 200
ਹੋਰ ਮੱਕੜੀਆਂ ਅਤੇ ਕ੍ਰੌਲਰਾਂ ਦੇ ਉਪਭੋਗਤਾ ਏਜੰਟ ਵੀ ਉਸੇ ਤਰੀਕੇ ਨਾਲ ਆਪਣੇ ਲਈ ਖੋਜ ਕਰ ਸਕਦੇ ਹਨ.
ਹੋਪ ਚੇਨ ਵੇਇਲਿਯਾਂਗ ਬਲੌਗ ( https://www.chenweiliang.com/ ) ਨੇ ਸਾਂਝਾ ਕੀਤਾ "ਬਾਇਡੂ ਸਪਾਈਡਰ ਕ੍ਰਾਲ ਫੇਲਯੂਰ ਡਾਇਗਨੋਸਿਸ ਅਸਾਧਾਰਨ ਜਾਣਕਾਰੀ ਜੇਕਰ ਸਾਕਟ ਰੀਡ ਅਤੇ ਰਾਈਟ ਐਰਰ ਕਨੈਕਸ਼ਨ ਦਾ ਸਮਾਂ ਖਤਮ ਹੋ ਗਿਆ ਤਾਂ ਕੀ ਕਰਨਾ ਹੈ", ਜੋ ਤੁਹਾਡੇ ਲਈ ਮਦਦਗਾਰ ਹੈ।
ਇਸ ਲੇਖ ਦਾ ਲਿੰਕ ਸਾਂਝਾ ਕਰਨ ਲਈ ਸੁਆਗਤ ਹੈ:https://www.chenweiliang.com/cwl-29315.html
ਨਵੀਨਤਮ ਅਪਡੇਟਸ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਚੇਨ ਵੇਇਲਿਯਾਂਗ ਦੇ ਬਲੌਗ ਦੇ ਟੈਲੀਗ੍ਰਾਮ ਚੈਨਲ ਵਿੱਚ ਸੁਆਗਤ ਹੈ!
📚 ਇਸ ਗਾਈਡ ਵਿੱਚ ਬਹੁਤ ਵੱਡਾ ਮੁੱਲ ਹੈ, 🌟ਇਹ ਇੱਕ ਦੁਰਲੱਭ ਮੌਕਾ ਹੈ, ਇਸ ਨੂੰ ਨਾ ਗੁਆਓ! ⏰⌛💨
ਜੇ ਚੰਗਾ ਲੱਗੇ ਤਾਂ ਸ਼ੇਅਰ ਅਤੇ ਲਾਈਕ ਕਰੋ!
ਤੁਹਾਡੀ ਸ਼ੇਅਰਿੰਗ ਅਤੇ ਪਸੰਦ ਸਾਡੀ ਨਿਰੰਤਰ ਪ੍ਰੇਰਣਾ ਹਨ!