火车头采集58同城联系电话图片的方法
的有关信息介绍如下:不少本地网站都有信息发布板块,有些网站的这些板块的信息发布量不够丰富,于是就需要采集别的网站的信息,例如,赶集网,58同城等等,而这些网站的联系方式是图片化了的,而且图片的最终地址也不好找,下面是我最近写出的规则大家供参考参考
采集任务
任务大家可以新建也可以在原有的任务里修改,如图所示,点击添加,在新建的空白标签里输入电话或者联系方式,然后我们选择通过采集获取数据,正规提取
审查元素
打开谷歌浏览器,打开一个58同城的信息页面,在联系电话处点击查看,然后在图片上点击右键狠眠,选择审查元素,,,然后我们会看到这个联系方式图片的目标地址,但是不要被迷惑了,这个地址其实是由两组代码组成的,在原代码里根本查询不到,我用红色框起来的是这个图片的文件名,我们复制这个文件名
查看代码
在这个58信息页点击右键查看源代码,然后CTRI+F搜索刚才我们复制的文件名,如下图所示,飘红的就是我们所搜索的,这里我们选择飘红字段前面的代码也就是复制<岔蚂input id="pagenum" value="
标签规则
这时候我们回到火车头新建标签界面,在正规匹配内容文本框内粘贴我们刚才复制的代码
组合标签
上面的规则只是获取所采集页面的图片文件名,这样是不够的,所以我们要加入一个地址代码在前面才能正确采集到图片58的图片地址代码就是刚才我们审查元素所看到的前面那段http://image.58.com/showphone.aspx?t=v55&v=,然后我们再在拒择亲=后加一个[参数1],,,这个意思代表由图片地址代码+文件名=最终图片地址
采集成功
点击保存标签规则后,我们复制一个58信息页测试看看,如图,我已经采集到了图片的最终地址,这仅仅只是电话号码的图片,如果想要转换成数字,大家可以下载一个火车头58验证码插件,这样就可以识别成数字了