নিবন্ধ ডিরেক্টরি
Baidu স্পাইডার ক্রল করে এবং অস্বাভাবিক তথ্য নির্ণয় করে: সকেট পড়া বা লেখা হলে আমার কী করা উচিত?
ধরে নিই যে আপনার ওয়েবসাইট Baidu দ্বারা সূচিত করা হয়নি, আপনাকে প্রথমে Baidu অনুসন্ধান সংস্থান প্ল্যাটফর্মে একটি স্পাইডার ক্রলিং রোগ নির্ণয় করতে হবে৷
Baidu ক্রলার ডায়গনিস্টিক লিঙ্ক ক্রল করতে ব্যর্থ হলে আমার কী করা উচিত?
যদি Baidu ক্রলার একাধিকবার ক্রল করতে এবং নির্ণয় করতে ব্যর্থ হয়, ফায়ারওয়াল ক্রলারটিকে অবরুদ্ধ করে থাকতে পারে৷
Baidu অনুসন্ধান রিসোর্স প্ল্যাটফর্ম > ক্রল নির্ণয় > ক্রল অস্বাভাবিক তথ্য: সকেট পড়া/লেখার ত্রুটি ▼
- বিশেষ করে Cloudflare CDN ব্যবহার করার সময়, যা ডিফল্টরূপে অবরুদ্ধ থাকে।
- ইন্টারনেটে, একটি আইপি ঠিকানা যোগ করার কথা বলা হচ্ছে
xxx.xxx.xxx.xxx/24
- তবে চেষ্টা করেও কোনো লাভ হয়নি।
আমি সার্ভারে Baidu স্পাইডার ব্লক করছি না, তাই সমস্যাটি Cloudflare এর WAF হওয়া উচিত!
ক্লাউডফ্লেয়ারে সাইন ইন করুন → নিরাপত্তা → WAF → ফায়ারওয়াল নিয়ম → ফায়ারওয়াল নিয়ম তৈরি করুন
- ক্লাউডফ্লেয়ারে ক্রলার-সম্পর্কিত WAF নিয়মগুলি খুঁজছেন এবং "আইনি রোবট ক্রলার" বিকল্প খুঁজে পেয়েছেন ▼
- ফায়ারওয়াল নিয়ম তৈরি করার পরে, 10 মিনিটের জন্য অপেক্ষা করুন, এবং তারপর ডায়াগনোসিসটি ধরুন, এবং সেগুলি সফলভাবে ধরা হয়েছে!
Baidu ক্রলার সাইটম্যাপ ক্রল করতে ব্যর্থ হয়েছে, সংযোগের সময় শেষ হয়েছে?
যদি সাইটম্যাপ ফাইল ঠিকানা Baidu অনুসন্ধান সংস্থান প্ল্যাটফর্মে জমা দেওয়া হয়, তাহলে ক্রলিং ব্যর্থতা এবং সংযোগের সময়সীমার সমস্যা হবে ▼
Baidu ক্রলার সাইটম্যাপ মানচিত্র সমাধান ক্রল করতে ব্যর্থ হয়েছে৷
ক্লাউডফ্লেয়ারে সাইন ইন করুন → নিরাপত্তা → WAF → ফায়ারওয়াল নিয়ম → ফায়ারওয়াল নিয়ম তৈরি করুন ▼
- ক্ষেত্রে, ব্যবহারকারী-এজেন্ট নির্বাচন করুন
- অপারেটর, "ধারণ করে" নির্বাচন করুন
- নতুন ব্যবহারকারী এজেন্ট যোগ করুন, শেষে "বা" ক্লিক করুন
- মান, যথাক্রমে নিম্নলিখিত Baidu Spider UA ব্যবহারকারী এজেন্ট লিখুন:
-
Baiduspider/2.0
-
Baiduspider-image
-
Baiduspider-render/2.0
-
http://www.baidu.com/search/spider.html
-
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
-
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
সমাপ্তির পরে, পরীক্ষা করুন এবং আবার আনুন, এবং ফলাফলটি HTTP শিরোনাম 200 প্রদান করে, যা ইঙ্গিত করে যে আনা সফল হয়েছে▼
-
抓取诊断 > 抓取详情
以下是百度Spider抓取结果及页面信息:
-
提交网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0;
-
+http://www.baidu.com/search/spider.html)
-
抓取时间: 2022-11-11 19:03:44
-
网站IP: 172.***.***.149
-
下载时长: 0.868秒
-
返回HTTP头:HTTP/2 200
অন্যান্য মাকড়সা এবং ক্রলারের ব্যবহারকারী এজেন্টরাও একইভাবে নিজেদের জন্য অনুসন্ধান করতে পারে।
হোপ চেন উইলিয়াং ব্লগ ( https://www.chenweiliang.com/ ) শেয়ার করেছেন "অস্বাভাবিক তথ্য সকেট রিড এবং লেখার ত্রুটি নির্ণয় করতে Baidu স্পাইডার ক্রলিং ব্যর্থতা সংযোগের সময়সীমা সম্পর্কে কী করতে হবে", যা আপনার জন্য সহায়ক৷
এই নিবন্ধটির লিঙ্ক শেয়ার করতে স্বাগতম:https://www.chenweiliang.com/cwl-29315.html
সর্বশেষ আপডেট পেতে চেন ওয়েইলিয়াং এর ব্লগের টেলিগ্রাম চ্যানেলে স্বাগতম!
📚 এই গাইডটিতে বিশাল মূল্য রয়েছে, 🌟এটি একটি বিরল সুযোগ, এটি মিস করবেন না! ⏰⌛💨
ভালো লাগলে শেয়ার এবং লাইক করুন!
আপনার শেয়ার এবং লাইক আমাদের ক্রমাগত অনুপ্রেরণা!