前嗅ForeSpider脚本教程-链接抽取:应用场景及链接在源码的html标签里写脚本

2022-11-24 0 568

那时,小贴士给我们增添的讲义为:前嗅ForeSpiderJAVA讲义中,镜像抽出的应用领域情景,和镜像在源码的html条码里写JAVA的两栖作战讲义。概要如下表所示:

一.应用领域情景

当须要全自动加进镜像时,可加进镜像JAVA。

在“镜像JAVA处”,可能将加进的类为extractor 、result、url、grabDoc、dom。

二.镜像在源码的html条码里

镜像门牌号可在源码中搜寻到。在最终目标页面滑鼠,优先选择“查阅源码”,按键点选“ctrl+F”,搜寻最终目标镜像具体边线。最终目标镜像存有于条码中。

1.镜像须要循环式

情景:比如说缩放等规律性完全相同的一连串最终目标镜像,存有于两个大的ul条码或是div条码里。

前嗅ForeSpider脚本教程-链接抽取:应用场景及链接在源码的html标签里写脚本

在该网页滑鼠优先选择“查阅示例”,搜寻第二条镜像的镜像门牌号,功能定位最终目标统计数据边线。

前嗅ForeSpider脚本教程-链接抽取:应用场景及链接在源码的html标签里写脚本

将该源码粘贴到notepad++中,优先选择语言为html,搜索最终目标统计数据的具体边线“ul”条码的id值。

前嗅ForeSpider脚本教程-链接抽取:应用场景及链接在源码的html标签里写脚本

由图可知,列表页文章镜像位于每个li中的a条码的href中。

JAVA实例:暂无。

2.镜像不循环式

前嗅ForeSpider脚本教程-链接抽取:应用场景及链接在源码的html标签里写脚本

页面滑鼠优先选择“查阅示例”,功能定位镜像具体边线。

前嗅ForeSpider脚本教程-链接抽取:应用场景及链接在源码的html标签里写脚本

因条码名,和父级

的class属性都在多处存有,因此须要再向上搜寻节点,直到id为tab2-list的。

JAVA实例:

var div = DOM.FindId(“tab2-list”);//先搜寻div

var a = DOM.FindClass(“more”,”a”,div );//从上一行找到的div开始搜寻,class属性为more的a条码。

url u;

u.urlname = “http://www.bgpc.gov.cn”+a.href;    //拼接完整的镜像门牌号

u.title = “更多”;    //填写title

u.entryId = CHANN.id;

u.tmplId = 2;

RESULT.AddLink(u);

相关文章

发表评论
暂无评论
官方客服团队

为您解决烦忧 - 24小时在线 专业服务