运行一个非常短的测

Dive into business data optimization and best practices.
Post Reply
phonedata
Posts: 107
Joined: Mon Dec 23, 2024 3:20 am

运行一个非常短的测

Post by phonedata »

此时,试爬取来确保提取所需的信息并不是一个坏主意。要做到这一点: 从复制 XPath 信息的页面的 URL 处启动爬虫程序。 大约 10-15 秒后停止爬虫并转到 SF 的“自定义”选项卡,将过滤器设置为“提取”(如果您以某种方式调整了名称,则设置为其他名称),然后在提取器字段中查找数据(向右滚动)。


如果操作正确,我将在抓取的第一个 URL 旁边看到我想 阿塞拜疆号码数据 要捕获的文本。宾果 ssd:私人:var:文件夹:解决提取问题并控制抓取 从表面上看,在我的例子中一切看起来都很好。


然而,您可能会注意到,列出的其他 URL 没有包含提取的文本。当特定页面上的代码略有不同,或者移动到 SF 网站的其他部分时,可能会发生这种情况。我有几种方法可以解决这个问题: 分别抓取其他批次的页面,执行相同的过程,但使用从其他 URL 之一获取的 XPath 代码。


切换到使用正则表达式或 XPath 以外的选项来帮助扩大参数并可能获取我在其他页面上寻找的信息。 完全忽略页面并将其排除在抓取范围之外。 在这种情况下,我将根据当前设置排除无法获取信息的页面,并将 SF 锁定到我们想要的内容中。


这可能是另一个实验点,但是您不需要太多的经验就可以了解出现问题时想要采取的方向。 为了将 SF 锁定到我想要获取数据的 URL,我将使用“配置”菜单项下的“包含”和“排除”选项。


我将从包含的选项开始。g 在这里,我可以使用正则表达式配置 SF 以仅抓取网站上的特定 URL。



如果 SF 处于松散状态,它将抓取启动文件夹内的所有内容,包括我想要的数据。从爬行的角度来看,上述改进更为有效,同时也降低了我成为网站害虫的可能性。玩得好就好。 完整爬取和提取示例 在我拨号爬行之后,情况现在看起来是这样的: ssd:私人:var:文件夹:m2:wh1vdy452ps54mq15f_w0jlh0000gn:T:MjDfb8:SEOSpiderUI.png 现在我已经 99.9% 准备好了!最后的抓取配置是降低速度以避免对网站产生负面影响(或限制)。
Post Reply