QueryList内容采集工具使用方法详解

近日使用采集工具QueryList V3,好不容易将代码写出来,结果发现一旦数量多了起来,就直接卡死。。。

无奈之下又得升级到V4版本重新写。。。虽说卡顿问题依旧有,但比起上个版本还要好得多,就是代码又复杂了点。

接下来就以小刀网为例子:

绿色软件地址:https://xd.x6d.com/html/23.html

然后获取列表li的div如图:


得出就是:.list-soft li

接着就是链接与标题了。

因为V4版本的是直接从定位列表li那里开始的,所以我们直接填div点


结果就是:

链接:.list-img a

标题:.list-info a.soft-title 也可以是链接

封图:.list-img img

然后到了内容页:


这里因为不是循环列表的,所以要尽可能的填上相对的div,不然其他位置也有相同div就容易出错。

结果:

标题:.article-title 这里是为了覆盖列表的标题,防止有其他文字

内容:.article-content

如果要将附件直接插进内容的话,就不需要过滤内容反之填上:div a -.copyright -.article-down

这里是过滤掉DIV属性,和链接、版权说明、下载链接

附件是循环得,所以规则是按照列表文章那种方式获取定位

附件:.article-down a 这里如果不添加附件的话就不填,

上面附件定位填的话就填取值:data-url


这个得看附件链接是什么属性的,是href就选择href

提取码也是一样,这里没有就不说了。

最终表格如下:


发表评论