传奇sf,传奇私服发布网,新开一秒传奇
当前位置:网站首页 > 传奇私服 > 正文

快速制作规则及获取规则提取器api

作者:admin发布时间:2021-07-31分类:传奇私服浏览:141评论:9


导读:前面文章的测试案例都用到了集搜客提供的规则提取器,在网页抓取工作中,调试正则表达式或者都是特别繁琐的,耗时耗力,工作枯燥,如果有一个工具可以快速生成规则,而且可以可视化的即时验证,...

快速制作规则及获取规则提取器api

前面文章的测试案例都用到了集搜客提供的规则提取器,在网页抓取工作中,调试正则表达式或者都是特别繁琐的,耗时耗力,工作枯燥,如果有一个工具可以快速生成规则,而且可以可视化的即时验证,就能把程序员解放出来,投入到创造性工作中。

1.引言

前面文章的测试案例都用到了集搜客提供的规则提取器,在网页抓取工作中,调试正则表达式或者都是特别繁琐的,耗时耗力,工作枯燥,如果有一个工具可以快速生成规则,而且可以可视化的即时验证,就能把程序员解放出来,投入到创造性工作中。

之前文章所用的例子中的规则都是固定的,如何自定义规则再结合提取器提取我们想要的网页内容呢?对于程序员来说,理想的目标是掌握一个通用的爬虫框架,每增加一个新目标网站就要跟着改代码,这显然不是好工作模式。这就是本篇文章的主要内容了,本文使用一个案例说明怎样将新定义的采集规则融入到爬虫框架中。也就是用可视化的集搜客爬虫软件针对亚马逊图书商品页做一个采集规则,并结合规则提取器抓取网页内容。

2.安装集搜客爬虫软件

2.1.前期准备

进入集搜客官网产品页面,下载对应版本。我的电脑上已经安装了,所以这里只需下载爬虫。

2.2安装爬虫

打开–点击菜单工具–附加组件–点击右上角附加组件的工具–选择从文件安装附加组件-选中下载好的爬虫xpi文件–立即安装

下一步

下一步

3.开始制作抓取规则

3.1运行规则定义软件

点击浏览器菜单:工具-MS谋数台弹出MS谋数台窗口。

3.2做规则

在网址栏输入我们要采集的网站链接,然后回车。当页面加载完成后,在工作台页面依次操作:命名主题名-创建规则-新建整理箱-在浏览器菜单选择抓取内容,命名后保存。

4.申请规则提取器

打开集搜客Gooseeke官网,注册登陆后进入会员中心-API-申请API

5.结合提取器API敲一个爬虫程序

5.1引入Gooseeker规则提取器模块gooseeker.py

(下载地址:https://github.com/FullerHua/gooseeker/tree/master/core),选择一个存放目录,这里为E:\demo\gooseeker.py

5.2与gooseeker.py同级创建一个.py后缀文件

如这里为E:\Demo\third.py,再以记事本打开,敲入代码:注释:代码中的31d24931e043e2d5364d03b8ff9cc77e就是APIKEY,用你申请的代替;amazon_book_pc是规则的主题名,也用你的主题名代替

标签:传奇私服登录器 资源读取规则


已有9位网友发表了看法:

欢迎 发表评论: