系统侠官网 - 最好的电脑系统下载网站!

  • 软件介绍
  • 人气下载
  • 下载地址
  • 网友评论

爬山虎采集器软件介绍

爬山虎采集器V2是一款支持99%的网站数据采集的高效网页信息采集软件,爬山虎采集器能生成Excel表格,api数据库文件等内容,帮助你管理网站数据信息,如果您需要对某个指定网页数据进行采集,使用这款软件即可。

爬山虎采集器软件功能

向导模式

简单易用,轻松通过鼠标点击自动生成

脚本定时运行

可按照计划定时运行,无需人工

独创高速内核

自研的浏览器内核,速度飞快,远超对手

智能识别

对于网页中的列表、表单结构(多选框下拉列表等)能够智能识别

广告屏蔽

定制的广告屏蔽模块,兼容AdblockPlus语法,可添加自定义规则

多种数据导出

支持Txt 、Excel、MySQL、SQLServer、SQlite、Access、网站等。

爬山虎采集器软件特色

一键提取数据

简单易学,通过可视化界面,鼠标点击即可抓取数据。

快速高效

内置一套高速浏览器内核,加上HTTP引擎模式,实现快速采集数据。

适用各种网站

能够采集互联网99%的网站,包括单页应用Ajax加载等等动态类型网站。

爬山虎采集器更新日志

1.增加插件功能。

2.增加导出 txt (一条保存为一个文件)。

3.多值连接符支持换行符。

4.修改数据处理的文本映射(支持查找替换)。

5.修复登陆时的DNS问题。

6.修复图片下载问题。

7.修复 json 一些问题。

爬山虎采集器使用方法

1、如何采集手机版网页的数据?

一般情况下,一个网站有电脑版网页和手机版网页,如果电脑版(PC)网页的反爬虫很严格的话,我们就可以尝试抓取手机网页。

①选择新建编辑任务;

②在新建的【编辑任务】中,选择【第三步、设置】;

爬山虎采集器 v2.4.9.0免费版

③设置UA(浏览器标识)为“手机”即可。

2、如何手动选择列表数据(当自动识别失败时)

在采集列表页时,如果自动识别列表失败,或者识别的数据不是我们想到的数据,这时我们就需要手动选择列表数据。

如何手动选择列表数据呢?

①点击【清空所有】,把已有字段清空掉。

爬山虎采集器 v2.4.9.0免费版

②点击菜单栏的【列表数据】,选择【选择列表】

爬山虎采集器 v2.4.9.0免费版

③用鼠标点击列表中的任一元素。

爬山虎采集器 v2.4.9.0免费版

④在点击列表中另一行的一个相似元素。

爬山虎采集器 v2.4.9.0免费版

一般情况下,这时采集器会自动列举出列表中的所有字段。我们在对结果进行一些修改即可。

如果没有列举出字段的话,就需要我们手动添加字段。点击【添加字段】,然后点击列表中的元素数据即可。

3、采集文章正文时,鼠标无法选中整个内容时怎么办?

一般情况下,在爬山虎采集器中,通过鼠标点击,选择要抓取的内容。但是在一些情况下,比如要抓取一篇文章的完整内容时,内容较长时,鼠标有时就不好定位了。

①我们可以通过右击网页选择【检查元素】,来定位内容。

爬山虎采集器 v2.4.9.0免费版

②通过点击【向上】按钮,扩大选择的内容。

爬山虎采集器 v2.4.9.0免费版

③当扩大到我们的整篇内容时,全选中【XPath】,然后复制。

爬山虎采集器 v2.4.9.0免费版

④修改字段的XPath,把刚才复制的XPath粘贴进去,确定。

爬山虎采集器 v2.4.9.0免费版

⑤最后,修改取值属性,想要HMTL就使用InnerHTML或者OuterHTML。

爬山虎采集器 v2.4.9.0免费版

 

爬山虎采集器常见问题

问:如何过滤列表中的前N个数据?

1.有时我们需要对采集到的列表进行过滤,比如过滤掉第一组数据(在采集表格时,过滤掉表格列名)

2.点击列表模式菜单中的,设置列表xpath

问:如何抓包获取Cookie,并且手动设置?

1.首先,使用谷歌浏览器打开要采集的网站,并且登陆。

2.然后按下 F12,会出现开发者工具,选择 Network

3.然后按下F5,刷新下页面, 选择其中一个请求。

4.复制完成后,在爬山虎采集器中,编辑任务,进入第三步,指定HTTP Header。

下载地址

  • PC版

下载地址: