Back to Question Center
0

刮与Python和BeautifulSoup网站 - Semalt忠告

1 answers:

互联网上有足够多的关于如何抓取网站的信息和博客正常。我们需要的不仅仅是访问这些数据,还有收集,分析和组织数据的可扩展的方式。 Python和BeautifulSoup是抓取网站和提取数据的两个奇妙的工具。在网络抓取中,数据可以很容易地提取出来,并以您需要的格式显示。如果你是一个热衷投资者,重视他/她的时间和金钱,你一定要加快网络抓取过程,并尽可能优化。

入门

我们将要使用Python和BeautifulSoup作为主要的抓取语言。

  • 1.对于Mac用户,Python预先安装在OS X中,只需要打开Terminal并键入 python -version 。这样,他们将能够看到Python 2.7版本。
  • 2.对于Windows用户,我们建议通过其官方站点安装Python。
  • 3 - servidores vps baratos.接下来,您必须在pip的帮助下访问BeautifulSoup库。这个包管理工具是专门为Python制作的。

在终端中,需要插入以下代码:

easy_install pip

pip install BeautifulSoup4

刮Rules规则:

你应该注意的主要刮rules规则是:

  • 1.在开始抓取之前,您必须查看网站的规则和规定。.所以要非常小心!
  • 2.你不应该过于积极地要求网站的数据。确保你使用的工具行为合理。否则,你可以打破这个网站。
  • 3.每秒一个请求是正确的做法。
  • 4.博客或网站的布局可随时更改,您可能需要重新访问该网站,并在需要时重新编写自己的代码。

检查页面

将光标悬停在价格页面上以了解应该完成的操作。阅读与HTML和Python相关的文本,并从结果中,您将看到HTML标签内的价格。

这些HTML标签通常以

→→的形式出现。

导出到Excel CSV

提取数据后,下一步是将其保存为脱机状态。 Excel逗号分隔格式是这方面的最佳选择,您可以轻松地在Excel表格中打开它。但首先,您将不得不导入Python CSV模块和日期时间模块以正确记录您的数据。

从日期时间导入到日期时间 导入csv

高级刮Techniques技术

BeautifulSoup是最简单,最全面的网页抓取工具之一。但是,如果您需要收集大量的数据,请考虑一些其他的选择:

  • 1. Scrapy是一个功能强大且令人惊叹的python抓取框架。
  • 2.您也可以将代码与公共API集成。您的数据的效率将是重要的。例如,您可以尝试Facebook图表API,这有助于隐藏数据,并不会在Facebook页面上显示。
  • 3.此外,您可以使用MySQL等后端程序,并以极高的准确性大量存储数据。
  • 4. DRY代表“不要重复自己”,你可以尝试使用这种技术自动执行常规任务。

December 8, 2017