八爪鱼采集器新手攻略
的有关信息介绍如下:八爪鱼采集器使用说明
本文档是八爪鱼采集器的详细使用说明书,因为八爪鱼团队一直在不断地对系统进行改进和升级,所以最新版本界面及功能可能与本文档有细微差别,我们也一直努力保持本文档适用于最新版本的系统,如果您在使用过程中有任何问题,请发送邮件至support@skieer.com.
下载安装
八爪鱼采集器目前只支持安装在windows操作系统上,为了确保稳定运行并达到最好性能,建议您开启windows自动更新,并且升级window系统到最新版本,本系统需要.NetFramework的支持,请确保您的系统已经安装了.NetFramework,具体请参考以下提示:
本软件需要.NET3.5SP1支持,Win7已经内置支持,XP系统需要安装,软件会在安装时自动检测是否安装了.NET3.5SP1,如果没有安装则会自动从微软官方在线安装,国内在线安装速度很慢,建议先从以下下载页面的网盘下载链接安装.NET3.5SP1,然后再安装八爪鱼采集器,有任何安装使用问题,请加官方QQ群反馈:61570666
下载页面地址:/download
如果您下载的是压缩文件,请先解压缩,您将看到如下图所示安装文件,在安装前请先仔细阅读“安装前必读.txt”,然后双击setup.exe,一般情况下,选择默认设置,点几次下一步,即可完成安装。
如果您的操作系统缺少.NETFramework,则会提示安装,这会需要等待一段时间,如果您希望能快速安装,请根据以上提示,先自行安装.NETFramework,再安装八爪鱼采集器。
如何启动
完成安装后,您可以在桌面或者开始菜单找到如下图所示快捷方式,双击即可启动八爪鱼采集器。
注册账号
第一次打开八爪鱼采集器,会打开登录界面,如果您还没有注册“视界”通行证,那么需要点击登录界面上的“免费注册”链接,完成账号注册,注册过程中,请注意必须提供真实正确的Email地址,这个邮箱将用于接收账户激活邮件,也是您忘记密码时用来找回密码的唯一途径。注册完成后,登录您的邮箱就可以收到一份激活邮件,如果您没有看到,请检查您的垃圾邮箱,您的邮箱有可能会阻止激活邮件的接收。如果确信没有收到激活邮件,请打开视界科技网站:http://www.bazhuayu.com/,登录您刚注册的账号,登陆后,点击自己的名字转入用户中心,可以重发激活邮件。点击激活邮件中的链接,将会自动激活您的账号。这时候,您就可以使用该账号登录八爪鱼采集器了。
八爪鱼采集器界面介绍
如果您是第一次使用八爪鱼采集器,系统会自动播放使用指南,主要是介绍界面构成,以及主要的使用流程,该指南仅在第一次使用时播放一次,所以如果您是第一次使用,请务必仔细看完。这里也将对指南中的内容作一个详细的介绍。
导航菜单区介绍:
菜单导航区分三部分,快速开始:用来创建新采集任务,点击快速开始,再点击里面的创建任务就可以创建一个新的采集任务。我的任务:您所创建的所有任务都可以在我的任务下面找到,在我的任务列表里面,鼠标左键单击可以选中一个任务,双击即可打开这个任务。任务状态:可以查看正在执行的任务,等待执行的任务,以及执行完成和终止的任务,还可以启动,停止任务,对于采集完成的任务,还可以导出采集到的数据。
视频教程区:这里有最简单的介绍视频,还有从采集一个简单网页到循环采集,再到高级设置等很多从入门到精通所需要了解的视频知识,对于新手来说,先看视频,再跟着视频进行练习,是学习八爪鱼采集器最快最好的方法,特别是对于一些使用过其他采集器的用户来说,八爪鱼采集器是全新的,其操作方式和内部原理,和一般的采集器有非常大的不同,使用过其他采集器所形成的思维模式和经验,不仅不能直接用在八爪鱼采集器上,反而可能影响快速掌握八爪鱼的使用,所以建议大家一定要仔细跟着视频进行练习,再开始自己配置采集任务。
对于一些客户,特别是企业客户而言,时间就是金钱,效率就是生命,另外企业总是有各种各样很特殊的需求,对于数据采集的速度,稳定性,采集规模,采集范围等也有比一般客户更高的要求,我们对此,提供了各种各样的服务:
定制化数据需求:客户只需要告诉我们您需要的数据,以及具体的各项要求,我们就会在一两天之内提供您要的数据。
获取数据包:有些数据属于很多客户都需要的数据,如企业名录,行业数据,等等,对于已经采集好的数据,特别是不随时间变化的数据,我们都有完整的数据包可供客户直接下载。
DataAPI:很多企业客户也会有自己的内部系统,希望能和数据采集系统自动对接,以便实现数据的自动化采集,同步,企业数据服务(DataAPI)就是为企业量身定做的数据接口,利用DataAPI,数据可以全自动进入企业内部系统,并且提供更加稳定的数据支持,比如采集网站改版,网站不稳定等因素也不会影响数据接口的稳定性。
获取采集规则:我们收集整理了很多网友写好的采集规则,这样如果有人跟您有一样或者类似的需求并且已经写好了规则,您就可以直接导入该规则来使用,而不用花时间自己配置采集规则,这将节省很多时间,另外如果规则稍微不同,也可以通过对导入的规则适当修改来实现自己的需求。
如果使用过程中有任何问题,可以随时到论坛求助。另外也可以加入QQ群提问:61570666
活动区:八爪鱼团队将不断推出各种帮助用户的活动,参与活动可以轻松地获取积分等奖励,例如每天点一下签到,或者推荐好友注册使用八爪鱼采集器,不仅自己可以获取积分奖励,被推荐的好友也能获取积分奖励。
八爪鱼采集器使用方法
使用八爪鱼采集器,最常用的就是配置采集任务,配置一个采集任务,只需要简单的4个步骤。按照上面介绍的,先点击快速开始,然后点击新建任务,系统将会打开新建任务向导。
第一步:设置基本信息
这一步主要是输入任务的名字,新建或者选择一个任务分组,然后输入一些备注信息,备注信息可以为采集的网址,或者任何一段有助于您知道这个任务用途的话,分组,名字,备注用以辅助用户对任务进行管理。可以把采集一类信息的任务放到一个分组里面,在备注里写上采集的网站地址,再加上一些文字,说明采集了什么样的数据。这样以后随时打开这个任务就知道是做什么的了。在任务比较多的时候,这些信息用途很大。
第二步:设计工作流程
八爪鱼工作原理和人的思维模式很相似,所以设计八爪鱼采集器的工作流程其实就相当于把人采集一个网站数据的过程分成一些动作和步骤,把这些步骤组织起来就能完成采集工作。比如,如果一个人去一个网页上采集一些数据,通常的做法是:先打开网页,等待网页加载完毕之后,选中要采集的数据,然后鼠标右键复制,或者按住Ctrl+C复制。如果用八爪鱼采集器来做这件事情也是一样,第一步,从左边的工具条中拖动“打开网页”这个步骤,拖动到流程设计器中间,当出现一个可以释放的标志后,松开鼠标左键,该步骤就会变成流程的第一个步骤,如上图所示,然后选中该步骤,在流程设计器右边,每当选中一个步骤时,这里将显示选中步骤的一些具体配置信息,比如选中打开网页之后,将会看到设定要打开的网页的地址(URL)的输入框,在这里输入要打开的URL,点保存,在任何一个步骤被保存的时候,八爪鱼采集器会在下面的浏览器中模拟执行该步骤。另外,选中一个流程步骤的时候,打开下面的“工作流程帮助”将会看到这个步骤的说明,以及每个配置项如何配置的帮助信息。打开网页之后,当鼠标在下面的浏览器上移动时,可以看到有个颜色会选中一些页面元素,并且随着鼠标移动,在需要采集的数据上点击,就会打开一个选项对话框,选择提取文字,就会采集选中的元素的文本。其它选项也是类似的原理和操作方式。在提取一个字段之后,系统会自动增加一个提取数据的步骤,如果采集多个字段,这些字段会出现在该采集步骤的配置项中(参考上图)。
第三步:设置执行计划
当设定好采集规则之后,便可以选择执行计划,如果只是一次性采集数据,那么就可以选择手动,或者一次,手动的话可以进行单机采集,也可以进行云采集,单机采集就是利用本地计算机进行采集,云采集就是不用本地计算机,利用八爪鱼的云采集服务器采集,这样不仅可以实现定时采集,还有很多优势,比如采集速度最快可以加速100倍,不用担心IP被封,网络不稳定等,还可以关掉自己电脑,八爪鱼云采集服务器集群将为您完成所有的采集工作。
关于云采集和单机采集的区别,以及各个定时选项的用法,可以鼠标移动上去,会有详细的提示,这里就不重复描述了。
第四步:完成配置
其实经过以上三步,采集任务就配置好了,第四步,主要是用来测试配置是否正确,第一个选项,检查任务,将打开任务测试界面,点击开始测试按钮,即可开始测试,同时,测试跟单机采集其实是同一个界面,如果测试过程发现没有按照期望运行,或者网站出现没有预料的问题,比如采集的字段不存在,网页样式有很大变化等,都可以随时停止测试,继续修改任务配置,然后重新进行测试,在经过几次测试修改之后,如果确定任务已经没有问题,就可以点击完成。进入任务列表,选中配置好的任务,进行采集了。如果是单机采集,则采集将立即开始在本地计算机执行,采集完成后会有提示完成,点击导出数据按钮即可导出所有采集到的数据。如果在执行计划界面选择了手动启动,并且点击了云采集,则任务会立即在云采集服务器上启动执行,如果执行计划选择的是定时自动启动,则不需要手动启动,到了指定的时间该任务就会自动启动。
更多使用说明
本文档是对八爪鱼采集器一个简单的介绍,主要适用于刚开始学习使用八爪鱼采集器的用户,当然八爪鱼采集器还有很多更强大的功能没在本文档中讲解,关于更多使用说明请查看视频教程及其他文档。