การวินิจฉัยความล้มเหลวในการรวบรวมข้อมูลแมงมุม Baidu ซ็อกเก็ตข้อมูลผิดปกติอ่านและเขียนข้อผิดพลาดการเชื่อมต่อหมดเวลาต้องทำอย่างไร

Baidu Spider รวบรวมข้อมูลและวินิจฉัยข้อมูลที่ผิดปกติ: ฉันควรทำอย่างไรหากซ็อกเก็ตถูกอ่านหรือเขียน?

สมมติว่าเว็บไซต์ของคุณไม่ได้รับการจัดทำดัชนีโดย Baidu คุณต้องทำการวินิจฉัยการรวบรวมข้อมูลของแมงมุมบนแพลตฟอร์มทรัพยากรการค้นหาของ Baidu

ฉันควรทำอย่างไรหากโปรแกรมรวบรวมข้อมูล Baidu ไม่สามารถรวบรวมข้อมูลลิงก์การวินิจฉัย

หากโปรแกรมรวบรวมข้อมูล Baidu ไม่สามารถรวบรวมข้อมูลและวินิจฉัยได้หลายครั้ง ไฟร์วอลล์อาจบล็อกโปรแกรมรวบรวมข้อมูล

แพลตฟอร์มทรัพยากรการค้นหา Baidu > การวินิจฉัยการรวบรวมข้อมูล > การรวบรวมข้อมูลที่ผิดปกติ: ข้อผิดพลาดในการอ่าน/เขียนซ็อกเก็ต ▼

การวินิจฉัยความล้มเหลวในการรวบรวมข้อมูลแมงมุม Baidu ซ็อกเก็ตข้อมูลผิดปกติอ่านและเขียนข้อผิดพลาดการเชื่อมต่อหมดเวลาต้องทำอย่างไร

  • โดยเฉพาะเมื่อใช้ Cloudflare CDN ซึ่งถูกบล็อกโดยค่าเริ่มต้น
  • บนอินเทอร์เน็ตมีการพูดถึงการเพิ่มที่อยู่ IP xxx.xxx.xxx.xxx/24
  • อย่างไรก็ตาม พยายามไม่เป็นผล

ฉันไม่ได้บล็อกแมงมุม Baidu บนเซิร์ฟเวอร์ ดังนั้นปัญหาควรเป็น WAF ของ Cloudflare!

ลงชื่อเข้าใช้ Cloudflare → ความปลอดภัย → WAF → กฎไฟร์วอลล์ → สร้างกฎไฟร์วอลล์

  • ค้นหากฎ WAF ที่เกี่ยวข้องกับโปรแกรมรวบรวมข้อมูลบน Cloudflare และพบตัวเลือก "Legal Robot Crawler" ▼

โปรแกรมรวบรวมข้อมูล Baidu แผนผังเว็บไซต์ล้มเหลวในการรวบรวมข้อมูล หมดเวลาการเชื่อมต่อ?ครั้งที่ 2

    • หลังจากสร้างกฎไฟร์วอลล์แล้ว ให้รอ 10 นาที แล้วจึงคว้าการวินิจฉัย และทั้งหมดจะถูกคว้าสำเร็จ!

โปรแกรมรวบรวมข้อมูล Baidu แผนผังเว็บไซต์ล้มเหลวในการรวบรวมข้อมูล หมดเวลาการเชื่อมต่อ?

หากส่งที่อยู่ไฟล์แผนผังเว็บไซต์บนแพลตฟอร์มทรัพยากรการค้นหาของ Baidu จะมีปัญหาในการรวบรวมข้อมูลล้มเหลวและหมดเวลาการเชื่อมต่อ ▼

แมงมุมไป่ตู้คลานล้มเหลวในการวินิจฉัยซ็อกเก็ตข้อมูลผิดปกติอ่านและเขียนข้อผิดพลาดการเชื่อมต่อหมดเวลารูปภาพ3

โปรแกรมรวบรวมข้อมูล Baidu ล้มเหลวในการรวบรวมข้อมูล โซลูชันแผนผังเว็บไซต์

ลงชื่อเข้าใช้ Cloudflare → ความปลอดภัย → WAF → กฎไฟร์วอลล์ → สร้างกฎไฟร์วอลล์ ▼

  1. ฟิลด์ เลือก User-Agent
  2. โอเปอเรเตอร์ เลือก "มี"
  3. เพิ่มตัวแทนผู้ใช้ใหม่ คลิก "หรือ" ในตอนท้าย
  4. ให้ป้อนตัวแทนผู้ใช้ Baidu Spider UA ต่อไปนี้ตามลำดับ:
    • Baiduspider/2.0
    • Baiduspider-image
    • Baiduspider-render/2.0
    • http://www.baidu.com/search/spider.html
    • Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
    • Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)

    หลังจากเสร็จสิ้น ให้ทดสอบและดึงข้อมูลอีกครั้ง และผลลัพธ์จะส่งคืนส่วนหัว HTTP 200 ซึ่งบ่งชี้ว่าการดึงข้อมูลสำเร็จ▼

    • 抓取诊断 > 抓取详情
      以下是百度Spider抓取结果及页面信息:
    • 提交网址: https://www.etufo.org/sitemap_baidu.xml
    • 抓取网址: https://www.etufo.org/sitemap_baidu.xml
    • 抓取UA: Mozilla/5.0 (compatible; Baiduspider/2.0;
    • +http://www.baidu.com/search/spider.html)
    • 抓取时间: 2022-11-11 19:03:44
    • 网站IP: 172.***.***.149
    • 下载时长: 0.868秒
    • 返回HTTP头:HTTP/2 200

    ตัวแทนผู้ใช้ของสไปเดอร์และโปรแกรมรวบรวมข้อมูลอื่นๆ ยังสามารถค้นหาตัวเองในลักษณะเดียวกันได้

    หวัง Chen Weiliang บล็อก ( https://www.chenweiliang.com/ ) แชร์ "การรวบรวมข้อมูลของแมงมุม Baidu ล้มเหลวในการวินิจฉัยข้อผิดพลาดในการอ่านและเขียนซ็อกเก็ตข้อมูลที่ผิดปกติว่าจะทำอย่างไรเกี่ยวกับการหมดเวลาการเชื่อมต่อ" ซึ่งเป็นประโยชน์กับคุณ

    ยินดีต้อนรับสู่การแบ่งปันลิงค์ของบทความนี้:https://www.chenweiliang.com/cwl-29315.html

    ยินดีต้อนรับสู่ช่อง Telegram ของบล็อกของ Chen Weiliang เพื่อรับข่าวสารล่าสุด!

    🔔 เป็นคนแรกที่ได้รับ "คู่มือการใช้งานเครื่องมือ AI การตลาดเนื้อหา ChatGPT" อันทรงคุณค่าในไดเรกทอรีด้านบนของช่อง! 🌟
    📚 คู่มือนี้มีคุณค่ามหาศาล 🌟 นี่เป็นโอกาสที่หายาก อย่าพลาด! ⏰⌛💨
    แชร์และชอบถ้าคุณชอบ!
    การแบ่งปันและไลค์ของคุณเป็นแรงจูงใจอย่างต่อเนื่องของเรา!

     

    发表评论

    ที่อยู่อีเมลของคุณจะไม่ถูกเผยแพร่ 必填项已用 * 标注