运行一个非常短的测

phonedata · Post by **phonedata** » Sat Feb 22, 2025 4:25 am

此时，试爬取来确保提取所需的信息并不是一个坏主意。要做到这一点：从复制 XPath 信息的页面的 URL 处启动爬虫程序。大约 10-15 秒后停止爬虫并转到 SF 的“自定义”选项卡，将过滤器设置为“提取”（如果您以某种方式调整了名称，则设置为其他名称），然后在提取器字段中查找数据（向右滚动）。

如果操作正确，我将在抓取的第一个 URL 旁边看到我想阿塞拜疆号码数据要捕获的文本。宾果 ssd:私人:var:文件夹:解决提取问题并控制抓取从表面上看，在我的例子中一切看起来都很好。

然而，您可能会注意到，列出的其他 URL 没有包含提取的文本。当特定页面上的代码略有不同，或者移动到 SF 网站的其他部分时，可能会发生这种情况。我有几种方法可以解决这个问题：分别抓取其他批次的页面，执行相同的过程，但使用从其他 URL 之一获取的 XPath 代码。

切换到使用正则表达式或 XPath 以外的选项来帮助扩大参数并可能获取我在其他页面上寻找的信息。完全忽略页面并将其排除在抓取范围之外。在这种情况下，我将根据当前设置排除无法获取信息的页面，并将 SF 锁定到我们想要的内容中。

这可能是另一个实验点，但是您不需要太多的经验就可以了解出现问题时想要采取的方向。为了将 SF 锁定到我想要获取数据的 URL，我将使用“配置”菜单项下的“包含”和“排除”选项。

我将从包含的选项开始。g 在这里，我可以使用正则表达式配置 SF 以仅抓取网站上的特定 URL。

如果 SF 处于松散状态，它将抓取启动文件夹内的所有内容，包括我想要的数据。从爬行的角度来看，上述改进更为有效，同时也降低了我成为网站害虫的可能性。玩得好就好。完整爬取和提取示例在我拨号爬行之后，情况现在看起来是这样的： ssd:私人:var:文件夹:m2:wh1vdy452ps54mq15f_w0jlh0000gn:T:MjDfb8:SEOSpiderUI.png 现在我已经 99.9% 准备好了！最后的抓取配置是降低速度以避免对网站产生负面影响（或限制）。