ไดเรกทอรีบทความ
Baidu Spider รวบรวมข้อมูลและวินิจฉัยข้อมูลที่ผิดปกติ: ฉันควรทำอย่างไรหากซ็อกเก็ตถูกอ่านหรือเขียน?
สมมติว่าเว็บไซต์ของคุณไม่ได้รับการจัดทำดัชนีโดย Baidu คุณต้องทำการวินิจฉัยการรวบรวมข้อมูลของแมงมุมบนแพลตฟอร์มทรัพยากรการค้นหาของ Baidu
ฉันควรทำอย่างไรหากโปรแกรมรวบรวมข้อมูล Baidu ไม่สามารถรวบรวมข้อมูลลิงก์การวินิจฉัย
หากโปรแกรมรวบรวมข้อมูล Baidu ไม่สามารถรวบรวมข้อมูลและวินิจฉัยได้หลายครั้ง ไฟร์วอลล์อาจบล็อกโปรแกรมรวบรวมข้อมูล
แพลตฟอร์มทรัพยากรการค้นหา Baidu > การวินิจฉัยการรวบรวมข้อมูล > การรวบรวมข้อมูลที่ผิดปกติ: ข้อผิดพลาดในการอ่าน/เขียนซ็อกเก็ต ▼
- โดยเฉพาะเมื่อใช้ Cloudflare CDN ซึ่งถูกบล็อกโดยค่าเริ่มต้น
- บนอินเทอร์เน็ตมีการพูดถึงการเพิ่มที่อยู่ IP
xxx.xxx.xxx.xxx/24
- อย่างไรก็ตาม พยายามไม่เป็นผล
ฉันไม่ได้บล็อกแมงมุม Baidu บนเซิร์ฟเวอร์ ดังนั้นปัญหาควรเป็น WAF ของ Cloudflare!
ลงชื่อเข้าใช้ Cloudflare → ความปลอดภัย → WAF → กฎไฟร์วอลล์ → สร้างกฎไฟร์วอลล์
- ค้นหากฎ WAF ที่เกี่ยวข้องกับโปรแกรมรวบรวมข้อมูลบน Cloudflare และพบตัวเลือก "Legal Robot Crawler" ▼
- หลังจากสร้างกฎไฟร์วอลล์แล้ว ให้รอ 10 นาที แล้วจึงคว้าการวินิจฉัย และทั้งหมดจะถูกคว้าสำเร็จ!
โปรแกรมรวบรวมข้อมูล Baidu แผนผังเว็บไซต์ล้มเหลวในการรวบรวมข้อมูล หมดเวลาการเชื่อมต่อ?
หากส่งที่อยู่ไฟล์แผนผังเว็บไซต์บนแพลตฟอร์มทรัพยากรการค้นหาของ Baidu จะมีปัญหาในการรวบรวมข้อมูลล้มเหลวและหมดเวลาการเชื่อมต่อ ▼
โปรแกรมรวบรวมข้อมูล Baidu ล้มเหลวในการรวบรวมข้อมูล โซลูชันแผนผังเว็บไซต์
ลงชื่อเข้าใช้ Cloudflare → ความปลอดภัย → WAF → กฎไฟร์วอลล์ → สร้างกฎไฟร์วอลล์ ▼
- ฟิลด์ เลือก User-Agent
- โอเปอเรเตอร์ เลือก "มี"
- เพิ่มตัวแทนผู้ใช้ใหม่ คลิก "หรือ" ในตอนท้าย
- ให้ป้อนตัวแทนผู้ใช้ Baidu Spider UA ต่อไปนี้ตามลำดับ:
-
Baiduspider/2.0
-
Baiduspider-image
-
Baiduspider-render/2.0
-
http://www.baidu.com/search/spider.html
-
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
-
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
หลังจากเสร็จสิ้น ให้ทดสอบและดึงข้อมูลอีกครั้ง และผลลัพธ์จะส่งคืนส่วนหัว HTTP 200 ซึ่งบ่งชี้ว่าการดึงข้อมูลสำเร็จ▼
-
抓取诊断 > 抓取详情
以下是百度Spider抓取结果及页面信息:
-
提交网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取网址: https://www.etufo.org/sitemap_baidu.xml
-
抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0;
-
+http://www.baidu.com/search/spider.html)
-
抓取时间: 2022-11-11 19:03:44
-
网站IP: 172.***.***.149
-
下载时长: 0.868秒
-
返回HTTP头:HTTP/2 200
ตัวแทนผู้ใช้ของสไปเดอร์และโปรแกรมรวบรวมข้อมูลอื่นๆ ยังสามารถค้นหาตัวเองในลักษณะเดียวกันได้
หวัง Chen Weiliang บล็อก ( https://www.chenweiliang.com/ ) แชร์ "การรวบรวมข้อมูลของแมงมุม Baidu ล้มเหลวในการวินิจฉัยข้อผิดพลาดในการอ่านและเขียนซ็อกเก็ตข้อมูลที่ผิดปกติว่าจะทำอย่างไรเกี่ยวกับการหมดเวลาการเชื่อมต่อ" ซึ่งเป็นประโยชน์กับคุณ
ยินดีต้อนรับสู่การแบ่งปันลิงค์ของบทความนี้:https://www.chenweiliang.com/cwl-29315.html
ยินดีต้อนรับสู่ช่อง Telegram ของบล็อกของ Chen Weiliang เพื่อรับข่าวสารล่าสุด!
📚 คู่มือนี้มีคุณค่ามหาศาล 🌟 นี่เป็นโอกาสที่หายาก อย่าพลาด! ⏰⌛💨
แชร์และชอบถ้าคุณชอบ!
การแบ่งปันและไลค์ของคุณเป็นแรงจูงใจอย่างต่อเนื่องของเรา!