高铁火车采集器如何采集JS分页/点击加载ajax列表内容

常规的文章采集简单,但是高铁(火车)采集器采集JS分页、瀑布流比较困难,点击加载的JavaScript,下拉加载类似ajax的列表页面,让很多新手无法下手。

陈沩亮博客会在此分享高铁火车采集器如何采集JS分页、点击加载ajax的列表。

火车采集器采集内容页网址写在JS中

首先目标页面需要抓包,简单的从网站抓取json数据,比较难的网站需要post方法,还需要填cookies、随机值、例如蘑菇街等等……

  • 更简单不用抓包分析JS分页的,比如腾讯视频搜索结果第2页网址里的cur=2 
  • 后面的数字2,就是设置“起始网址添加向导” →“批量网址”→“地址格式”的[地址参数]

这里就来一个简单的火车头采集器如何获取JS调用的内容,以果壳网为例。  

高铁火车头采集器如何获取JS调用的内容?

首先需要使用的是Chrome浏览器  ▼

1、首先在目标页面按F12Ctrl+Shift+C打开检查元素,然后点击Network选项卡 ▼

高铁火车采集器如何采集JS分页/点击加载ajax列表内容

2、点击XHR按钮,在页面上触发ajax加载,浏览器会监听页面数据的执行和变化 ▼

2、点击XHR按钮,在页面上触发ajax加载,浏览器会监听页面数据的执行和变化 第3张

红框是抓取数据的地址 ▲

3、点击数据地址,右侧出现详细信息。 注意请求地址url的规律。 比如下图中,有时间戳和页码 ▼

3、点击数据地址,右侧出现详细信息。 注意请求地址url的规律。 比如下图中,有时间戳和页码  第4张

4、在火车采集器中添加如下捕获的地址,并设置地址规则,然后是常规火车采集器设置 ▼

4、在火车采集器中添加如下捕获的地址,并设置地址规则,然后是常规火车采集器设置 第5张

希望陈沩亮博客( https://www.chenweiliang.com/ ) 分享的《高铁火车采集器如何采集JS分页/点击加载ajax列表内容》,对您有帮助。

欢迎分享本文链接:https://www.chenweiliang.com/cwl-1906.html

欢迎加入陈沩亮博客的 Telegram 频道,获取最新更新!

🔔 率先在频道置顶目录获取宝贵的《ChatGPT 内容营销 AI 工具使用指南》!🌟
📚 这份指南蕴含价值巨大,🌟难逢的机遇,切勿错失良机!⏰⌛💨
喜欢就分享和按赞!
您的分享和按赞,是我们持续的动力!

 

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

滚动到顶部