ไดเรกทอรีบทความ
Baidu Spider รวบรวมข้อมูลและวินิจฉัยข้อมูลที่ผิดปกติ: ฉันควรทำอย่างไรหากซ็อกเก็ตถูกอ่านหรือเขียน?
สมมติว่าเว็บไซต์ของคุณไม่ได้รับการจัดทำดัชนีโดย Baidu คุณต้องทำการวินิจฉัยการรวบรวมข้อมูลของแมงมุมบนแพลตฟอร์มทรัพยากรการค้นหาของ Baidu
ฉันควรทำอย่างไรหากโปรแกรมรวบรวมข้อมูล Baidu ไม่สามารถรวบรวมข้อมูลลิงก์การวินิจฉัย
หากโปรแกรมรวบรวมข้อมูล Baidu ไม่สามารถรวบรวมข้อมูลและวินิจฉัยได้หลายครั้ง ไฟร์วอลล์อาจบล็อกโปรแกรมรวบรวมข้อมูล
แพลตฟอร์มทรัพยากรการค้นหา Baidu > การวินิจฉัยการรวบรวมข้อมูล > การรวบรวมข้อมูลที่ผิดปกติ: ข้อผิดพลาดในการอ่าน/เขียนซ็อกเก็ต ▼

- โดยเฉพาะเมื่อใช้ Cloudflare CDN ซึ่งถูกบล็อกโดยค่าเริ่มต้น
- บนอินเทอร์เน็ตมีการพูดถึงการเพิ่มที่อยู่ IP
xxx.xxx.xxx.xxx/24 - อย่างไรก็ตาม พยายามไม่เป็นผล
ฉันไม่ได้บล็อกแมงมุม Baidu บนเซิร์ฟเวอร์ ดังนั้นปัญหาควรเป็น WAF ของ Cloudflare!
ลงชื่อเข้าใช้ Cloudflare → ความปลอดภัย → WAF → กฎไฟร์วอลล์ → สร้างกฎไฟร์วอลล์
- ค้นหากฎ WAF ที่เกี่ยวข้องกับโปรแกรมรวบรวมข้อมูลบน Cloudflare และพบตัวเลือก "Legal Robot Crawler" ▼

- หลังจากสร้างกฎไฟร์วอลล์แล้ว ให้รอ 10 นาที แล้วจึงคว้าการวินิจฉัย และทั้งหมดจะถูกคว้าสำเร็จ!
โปรแกรมรวบรวมข้อมูล Baidu แผนผังเว็บไซต์ล้มเหลวในการรวบรวมข้อมูล หมดเวลาการเชื่อมต่อ?
หากส่งที่อยู่ไฟล์แผนผังเว็บไซต์บนแพลตฟอร์มทรัพยากรการค้นหาของ Baidu จะมีปัญหาในการรวบรวมข้อมูลล้มเหลวและหมดเวลาการเชื่อมต่อ ▼

โปรแกรมรวบรวมข้อมูล Baidu ล้มเหลวในการรวบรวมข้อมูล โซลูชันแผนผังเว็บไซต์
ลงชื่อเข้าใช้ Cloudflare → ความปลอดภัย → WAF → กฎไฟร์วอลล์ → สร้างกฎไฟร์วอลล์ ▼

- ฟิลด์ เลือก User-Agent
- โอเปอเรเตอร์ เลือก "มี"
- เพิ่มตัวแทนผู้ใช้ใหม่ คลิก "หรือ" ในตอนท้าย
- ให้ป้อนตัวแทนผู้ใช้ Baidu Spider UA ต่อไปนี้ตามลำดับ:
-
Baiduspider/2.0 -
Baiduspider-image -
Baiduspider-render/2.0 -
http://www.baidu.com/search/spider.html -
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html) -
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
หลังจากเสร็จสิ้น ให้ทดสอบและดึงข้อมูลอีกครั้ง และผลลัพธ์จะส่งคืนส่วนหัว HTTP 200 ซึ่งบ่งชี้ว่าการดึงข้อมูลสำเร็จ▼
-
抓取诊断 > 抓取详情以下是百度Spider抓取结果及页面信息: -
提交网址: https://www.etufo.org/sitemap_baidu.xml -
抓取网址: https://www.etufo.org/sitemap_baidu.xml -
抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0; -
+http://www.baidu.com/search/spider.html) -
抓取时间: 2022-11-11 19:03:44 -
网站IP: 172.***.***.149 -
下载时长: 0.868秒 -
返回HTTP头:HTTP/2 200
ตัวแทนผู้ใช้ของสไปเดอร์และโปรแกรมรวบรวมข้อมูลอื่นๆ ยังสามารถค้นหาตัวเองในลักษณะเดียวกันได้
หวัง Chen Weiliang บล็อก ( https://www.chenweiliang.com/ ) แชร์ "การรวบรวมข้อมูลของแมงมุม Baidu ล้มเหลวในการวินิจฉัยข้อผิดพลาดในการอ่านและเขียนซ็อกเก็ตข้อมูลที่ผิดปกติว่าจะทำอย่างไรเกี่ยวกับการหมดเวลาการเชื่อมต่อ" ซึ่งเป็นประโยชน์กับคุณ
ยินดีต้อนรับสู่การแบ่งปันลิงค์ของบทความนี้:https://www.chenweiliang.com/cwl-29315.html
หากต้องการปลดล็อคเคล็ดลับที่ซ่อนอยู่เพิ่มเติม ยินดีต้อนรับเข้าร่วมช่อง Telegram ของเรา!
แชร์และกดไลค์ถ้าคุณชอบ! การแชร์และการถูกใจของคุณคือแรงบันดาลใจอย่างต่อเนื่องของเรา!