关于网页抓取数据的 8 个误解

已发表: 2023-11-17

网络抓取（从网络上自动收集数据的过程）已经存在相当长一段时间了，其起源可以追溯到万维网的早期。但直到今天，刮痧对于一些人来说仍然是一个新现象。由于缺乏知识和错误信息，它经常被误解和神话所笼罩，这可能会导致许多用户放弃从目标网站收集有价值的信息。

因此，让我们澄清事实并揭穿有关网络抓取的八个最常见的误解。

网络抓取的合法性是一个敏感话题。如果您输入“网络抓取合法吗？” 在 Google 搜索中，您会在论坛中找到数千篇文章和讨论，试图回答这个永无止境的问题。

简而言之，网络抓取本身是合法的，没有法律另有规定。事实上，截至 2022 年，美国第九巡回上诉法院裁定，如果数据不隐藏在登录后面（公开可用），则您可以抓取数据，并且您抓取的内容不受知识产权保护，而且也不受知识产权保护。不涉及个人信息。

此外，您还必须注意网站的指南，特别是服务条款 (ToS)。它们充当您和目标网站之间的合同。尽管除非您明确同意，否则它们很少具有法律约束力，但某些服务条款包括禁止访问者提取任何类型数据的抓取政策。

然而，网络抓取的事情并不总是那么简单，每个用例都是单独考虑的。因此，如果不确定，寻求法律建议总是一个好主意。

网络抓取通常与高级编码相关，这也是人们避免这种自动数据收集方法的常见原因。

但这是一个很大的误解。虽然当您深入代码时，网络抓取可能会变得困难，但许多任务不需要或只需要很少的编程知识。一切都取决于您选择的工具和项目参数。

网页抓取的另一种选择是使用商业抓取工具。它们花费一两美元，几乎不需要任何编码经验，而且您可以获得处理隐藏 IP 地址等技术细节的服务。或者您可以使用网页抓取浏览器扩展。它们提供了一个用户友好的界面，允许您直观地提取数据，并选择预制的抓取模板。

有些人确信——您可以在不采取预防措施的情况下抓取任何网站。但这真的是真的吗？不完全是这样：网络抓取可能会带来各种挑战。其中大部分都与您的 IP 地址有关。

Amazon 或 Petco 等热门网站受到良好保护，可防止类似机器人的活动。他们使用严格的反机器人系统，例如 CAPTCHA、DataDome 或 Cloudflare。因此，如果您不更改 IP 地址，您可能会触发它们并导致您的 IP 被阻止。

这就是代理发挥作用的地方。代理服务器通过自身路由您的流量，同时更改您的 IP 和位置。例如，您居住在美国，但想要向位于英国的网站发送请求以访问特定于区域的内容。对于网络抓取任务，您应该使用住宅代理 - 它们很难检测到，并且会根据每个请求进行轮换，并且能够在选定的时间间隔内保留相同的地址。

然而，并非每个提供商都提供可与受良好保护的网站配合使用的代理。因此，要找到用于网络抓取的最佳住宅代理，您应该研究提供商代理池的大小、支持的位置定位选项、价格和客户支持等因素。

从技术上讲，您可以抓取任何您想要的网站。但事实上，这并不完全正确。

大多数网站都会设置名为 robots.txt 的指令，旨在显示用户可以抓取的内容、频率以及哪些页面是禁止访问的。此外，如上所述，另一个关键准则是服务条款，其中有时包括抓取政策。

如果您不遵守这些准则和其他网络抓取实践，网站所有者可能会阻止您的抓取工具。更不用说，大量的网络抓取可能会导致网站流量激增，并可能导致服务器崩溃。

网络抓取与黑客攻击没有任何共同之处。原因如下。

网络抓取是获取公开信息的过程，如果您不触及受版权保护的数据或个人数据，那么它在任何方面都不违法。您抓取的数据被许多企业和个人使用。例如，您可以抓取价格信息以提供有竞争力的价格。

然而，黑客攻击涉及侵入某人的计算机，这是他们的财产。政府实体制定了法律，要求人们对此类行为负责。这是一种涉及窃取私人信息并利用其谋取个人利益的非法活动

虽然网络抓取比手动收集信息要快得多，但您仍然需要告诉抓取工具要做什么。如果您自己构建一个，则需要考虑多个步骤。

首先，确定您的目标网页 - 抓取工具不会为您执行此操作。例如，您可以抓取电子商务商店来获取产品信息。这将需要收集必要的 URL。然后，选择一个可以获取 HTML 代码的工具。对于此步骤，您必须在请求中提供抓取器端点或 URL。

警告：数据会很混乱，因此为了使其可读，您需要获取一个解析库并命令您的抓取工具构建结果。此外，网站往往会经常变化，因此您需要根据需要调整您的抓取工具。

有些人交替使用术语“网络抓取”、“网络爬行”和 API（应用程序编程接口）。然而，这三者在很多方面都有所不同。

无需详细说明，网络抓取是从网站提取数据的过程。您可以获取任何信息，从书籍列表、出版商、书店的价格到聚合平台中的航班信息数据。

另一方面，网络爬行会遍历网站以绘制其结构。它不如网络抓取那么精确，并且通常作为一个准备步骤。爬行的主要目的是对数据进行编目和索引。

API 是一种以编程方式与网站或应用程序交互的方法。例如，Reddit 等一些网站提供官方 API，他们会向您收费，但您不必处理 IP 地址禁令等数据收集问题。然而，此类工具在收集信息方面更加有限。

人们普遍认为只有大型企业才会使用网络抓取，但与此相反，个人用户也可以出于各种目的收集数据。

例如，您可以监控加密货币价格并查看是否出售、购买或保留您的虚拟货币。或者，您可以通过从 Reddit 等平台收集数据来进行情绪分析。您可以抓取整个子版块、赞成票和反对票，为您提供新的或验证现有的商业想法。这些只是如何利用网络抓取来发挥优势的几个示例。

结论

总之，网络抓取是提取大量数据的一种有价值且合法的方式。尽管它被各种神话所包围，但这不应该阻止您从网络上收集信息。