ລາຍການຫົວເລື່ອງ
Baidu Spider ບັນທຶກຂໍ້ມູນການຍົກເວັ້ນການວິນິດໄສ: ຂ້ອຍຄວນເຮັດແນວໃດຖ້າເຕົ້າຮັບອ່ານແລະຂຽນບໍ່ຖືກຕ້ອງ?
ສົມມຸດວ່າເວັບໄຊທ໌ຂອງທ່ານບໍ່ໄດ້ຖືກລວມເຂົ້າໂດຍ Baidu, ກ່ອນອື່ນ ໝົດ ທ່ານຕ້ອງປະຕິບັດການວິນິດໄສການລວບລວມຂໍ້ມູນ spider ໃນເວທີຊັບພະຍາກອນຄົ້ນຫາ Baidu.
ຂ້ອຍຄວນເຮັດແນວໃດຖ້າຕົວກວາດເວັບຂອງ Baidu ລົ້ມເຫລວໃນການລວບລວມຂໍ້ມູນການເຊື່ອມຕໍ່ການວິນິດໄສ?
ຖ້າການວິນິດໄສຕົວກວາດເວັບຂອງ Baidu ລົ້ມເຫລວຫຼາຍຄັ້ງ, firewall ອາດຈະຂັດຂວາງໂຄງການຕົວກວາດເວັບ.
ເວທີຊັບພະຍາກອນຄົ້ນຫາ Baidu > ການວິນິດໄສການລວບລວມຂໍ້ມູນ > ຂໍ້ມູນການຍົກເວັ້ນການລວບລວມຂໍ້ມູນ: Socket ອ່ານແລະຂຽນຜິດພາດ ▼
- ໂດຍສະເພາະເມື່ອໃຊ້ Cloudflare CDN, ມັນຖືກບລັອກໂດຍຄ່າເລີ່ມຕົ້ນ.
- ໃນອິນເຕີເນັດ, ມັນໄດ້ຖືກກ່າວວ່າຈະເພີ່ມທີ່ຢູ່ IP
xxx.xxx.xxx.xxx/24
- ຢ່າງໃດກໍຕາມ, ພະຍາຍາມມັນບໍ່ມີປະໂຫຍດ.
ຂ້າພະເຈົ້າບໍ່ໄດ້ສະກັດ Baidu spider ໃນເຄື່ອງແມ່ຂ່າຍ, ດັ່ງນັ້ນບັນຫາຄວນຈະເປັນ WAF ຂອງ Cloudflare!
ເຂົ້າສູ່ລະບົບ Cloudflare → ຄວາມປອດໄພ → WAF → ກົດລະບຽບ Firewall → ສ້າງກົດລະບຽບ Firewall
- ຊອກຫາກົດລະບຽບ WAF ທີ່ກ່ຽວຂ້ອງກັບຕົວກວາດເວັບໃນ Cloudflare, ແລະພົບເຫັນທາງເລືອກຂອງ "ຕົວກວາດເວັບຫຸ່ນຍົນທີ່ຖືກຕ້ອງ" ▼
- ຫຼັງຈາກສ້າງກົດລະບຽບຂອງ Firewall, ລໍຖ້າ 10 ນາທີ, ແລະຫຼັງຈາກນັ້ນຈັບການວິນິດໄສ, ແລະພວກມັນທັງຫມົດໄດ້ຖືກຈັບໄດ້ຢ່າງສໍາເລັດຜົນ!
ມີຫຍັງຜິດພາດກັບ Baidu crawler Sitemap ການລວບລວມຂໍ້ມູນຄວາມລົ້ມເຫຼວແລະການຫມົດເວລາການເຊື່ອມຕໍ່?
ຖ້າທ່ານສົ່ງທີ່ຢູ່ຂອງໄຟລ໌ແຜນຜັງເວັບໄຊທ໌ໃນເວທີຊັບພະຍາກອນຄົ້ນຫາ Baidu, ຈະມີບັນຫາເຊັ່ນການລວບລວມຂໍ້ມູນລົ້ມເຫລວແລະການຫມົດເວລາການເຊື່ອມຕໍ່ ▼
ການແກ້ໄຂຄວາມລົ້ມເຫລວຂອງຕົວກວາດເວັບ Baidu ທີ່ຈະຈັບເອົາແຜນທີ່ເວັບໄຊທ໌
ເຂົ້າສູ່ລະບົບ Cloudflare → ຄວາມປອດໄພ → WAF → ກົດລະບຽບ Firewall → ສ້າງກົດລະບຽບ Firewall ▼
- ພາກສະຫນາມ, ເລືອກ "User Agent"
- operator, ເລືອກ ບັນຈຸ
- ເພີ່ມຕົວແທນຜູ້ໃຊ້ໃຫມ່, ໃຫ້ຄລິກໃສ່ "ຫຼື" ສຸດທ້າຍ.
- ມູນຄ່າ, ຕາມລໍາດັບໃສ່ຕົວແທນຜູ້ໃຊ້ Baidu Spider UA ຕໍ່ໄປນີ້:
-
Baiduspider/2.0
-
Baiduspider-image
-
Baiduspider-render/2.0
-
http://www.baidu.com/search/spider.html
-
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
-
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
ຫຼັງຈາກສໍາເລັດ, ທົດສອບການດຶງຂໍ້ມູນອີກເທື່ອຫນຶ່ງ, ແລະຜົນໄດ້ຮັບກັບຄືນມາ HTTP header 200, ສະແດງໃຫ້ເຫັນວ່າການດຶງຂໍ້ມູນປະສົບຜົນສໍາເລັດ▼
-
抓取诊断 > 抓取详情
以下是百度Spider抓取结果及页面信息:
-
提交网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0;
-
+http://www.baidu.com/search/spider.html)
-
抓取时间: 2022-11-11 19:03:44
-
网站IP: 172.***.***.149
-
下载时长: 0.868秒
-
返回HTTP头:HTTP/2 200
ຕົວແທນຜູ້ໃຊ້ຂອງ spider ແລະຕົວກວາດເວັບອື່ນໆຍັງສາມາດຄົ້ນຫາຕົວເອງໃນແບບດຽວກັນ.
ຫວັງ Chen Weiliang Blog ( https://www.chenweiliang.com/ ) shared "Baidu Spider Crawl Failure Diagnosis Abnormal Information ຈະເຮັດແນວໃດຖ້າ socket ອ່ານແລະຂຽນຂໍ້ຜິດພາດການເຊື່ອມຕໍ່ຫມົດເວລາ", ເຊິ່ງເປັນປະໂຫຍດສໍາລັບທ່ານ.
ຍິນດີຕ້ອນຮັບແບ່ງປັນການເຊື່ອມຕໍ່ຂອງບົດຄວາມນີ້:https://www.chenweiliang.com/cwl-29315.html
ຍິນດີຕ້ອນຮັບສູ່ຊ່ອງ Telegram ຂອງບລັອກຂອງ Chen Weiliang ເພື່ອຮັບອັບເດດຫຼ້າສຸດ!
📚ຄູ່ມືນີ້ມີຄຸນຄ່າອັນມະຫາສານ, 🌟ນີ້ເປັນໂອກາດທີ່ຫາຍາກ, ຢ່າພາດມັນ! ⏰⌛💨
Share and like ຖ້າມັກ!
ການແບ່ງປັນແລະການຖືກໃຈຂອງທ່ານແມ່ນການຊຸກຍູ້ຢ່າງຕໍ່ເນື່ອງຂອງພວກເຮົາ!