八爪鱼采集器是目前比较主流的一款数据采集器了,采用八爪鱼独创的采集API,可以采集评论、音视频、文本、微信公众号或者小程序等多种信息,多种采集方式可选,还可添加采集模板,一键采集,适用于产品、销售、数据分析和电商等领域。
软件功能
1、简易采集
简易采集模式内置上百种主流网站数据源,如京东、天猫、大众点评等热门采集网站,只需参照模板简单设置参数,就可以快速获取网站公开数据。
2、智能采集
八爪鱼采集可根据不同网站,提供多种网页采集策略与配套资源,可自定义配置,组合运用,自动化处理。从而帮助整个采集过程实现数据的完整性与稳定性。
3、云采集
由5000多台云服务器支撑的云采集,7*24小时不间断运行,可实现定时采集,无需人员值守,灵活契合业务场景,帮你提升采集效率,保障数据时效性。
4、API接口
通过八爪鱼API,可以轻松获取八爪鱼任务信息和采集到的数据,灵活调度任务,比如远程控制任务启动与停止,高效实现数据采集与归档。基于强大的API体系,还可以无缝对接公司内部各类管理平台,实现各类业务自动化。
5、自定义采集
针对不同用户的采集需求,八爪鱼可提供自动生成爬虫的自定义模式,可准确批量识别各种网页元素,还有翻页、下拉、ajax、页面滚动、条件判断等多种功能,支持不同网页结构的复杂网站采集,满足多种采集应用场景。
6、便捷定时功能
简单几步点击设置,即可实现采集任务的定时控制,不论是单次采集的定时设置,还是预设某一天或是每周每月的定时采集,都可以同时对多个任务自由进行设置,根据需要对选择时间进行多重组合,灵活调配自己的采集任务。
7、全自动数据格式化
八爪鱼内置了强大的数据格式化引擎,支持字符串替换、正则表达式替换或匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码等多项功能,采集过程中全自动处理,无需人工干预,即可得到所需格式数据。
8、多层级采集
很多主流新闻、电商类的网站,里面包含一级商品列表页,也包含二级商品详情页,还有三级评论详情页面;不论网站有多少层级,八爪鱼都可以不限制层级的采集数据,满足各类业务采集需求。
9、支持网站登录后采集
八爪鱼内置了采集登录模块,只需配置目标网站的账号密码,即可用该模块采集到登录后的数据;同时八爪鱼还具备采集Cookie自定义功能,首次登录以后,可以自动记住cookie,免去多次输入密码的繁琐,支持更多网站的采集。
软件特色
1、满足多种业务场景
适合产品、运营、销售、数据分析、政府机关、电商从业者、学术研究等多种身份职业
2、舆情监控
全方位监测公开信息,抢先获取舆论趋势
3、市场分析
获取用户真实行为数据,全面把握顾客真实需求
4、产品研发
强力支撑用户调研,准确获取用户反馈和偏好
5、风险预测
高效信息采集和数据清洗,及时应对系统风险
八爪鱼采集器安装教程
1.双击安装文件,选择安装路径,默认是【C:\Program Files\Octopus】,单击【浏览】修改,然后单击【安装】开始安装
2.如图,八爪鱼采集器正在安装中
3.很快就可以安装完成了
常见问题
问题1:
八爪鱼能采什么数据?
回答:
八爪鱼是一款通用的网页数据采集器, 通过内置浏览器访问网页并采集数据,满足以下2个条件的数据均可采集:
① 网页上公开显示的数据、通过账号密码登录后可以查看到的数据。
② 可以用鼠标复制粘贴下来的数据、网页上没显示但是网页源码中有的数据。
问题2:
八爪鱼能采集XX网站吗?
回答:
八爪鱼可以采集99%的网站。有2种采集方式:
① 使用八爪鱼提供的模板采集:八爪鱼客户端中内置了很多网站的采集模板,在客户端中搜索是否有XX网站的模板,如果有,直接使用即可。
② 自定义配置采集规则:如果没有想要的模板,可以自己配置采集规则。
问题3:
八爪鱼能采集XX行业的数据吗?
回答:
可以,但是首先需明确XX行业的数据存在于哪个网站上。
例如,电商行业的数据在淘宝/京东/亚马逊等等电商网站上有,那么采集电商行业的数据,就转化成采集淘宝/京东/亚马逊的网站了,此时参见问题2。
问题4:
八爪鱼是否可以实时采集?数据源一更新,马上就将其采集下来?
回答:
通过八爪鱼云采集的定时采集功能,可以满足实时采集的需求,实现数据源一更新,马上就将其采集下来。
了解网站数据的更新频率,相对应地在八爪鱼中对任务设置定时采集。支持按 星期 / 月 / 时间间隔 设置定时,最短可1分钟启动1次云采集。到了设置的定时采集点,八爪鱼就会全自动进行数据采集。
问题5:
任务停止后,下次采集时可以从停止的地方继续采集吗?
回答:
目前不可以,任务停止后,下次采集会从头开始采集,不能实现断点续采。
断点续采功能正在开发中,尽请期待。
更新日志
迭代功能
优化数据预览刷新机制
优化全部字段面板
Bug修复
修复复制粘贴步骤的问题
修复数据预览二级面板点选按钮异常问题
修复自动识别后登录显示异常问题
修复修改循环步骤方式页面异常跳转问题
修复字段预览显示排序不正确问题
∨ 展开