爬虫代理脚本推荐_怎么用VBA或网络爬虫程序抓取网站数据

① Python什么爬虫库好用

请求库：
1. requests 这个库是爬虫最常用的一个库
2. Selenium Selenium 是一个自动化测试工具，利用它我们可以驱动浏览器执行特定的动作，如点击、下拉等操作对于一些用JS做谊染的页面来说，这种抓取方式是非常有效的。
3.ChomeDrive 安装了这个库，才能驱动Chrome浏览器完成相应的操作
4.GeckoDriver 使用W3C WebDriver兼容客户端与基于Gecko的浏览器进行交互的代理。
5.PhantomJS PhantomJS 是一个无界面、可脚本编程的 WebKit 浏览器引擎，它原生支持多种Web标准：Dom操作，css选择器，json，Canvas以及SVG。
6.aiohttp 之前接收requests库是一个阻塞式HTTP请求库，当我们发送一个请求后。程序会一直等待服务器响应，直到服务器响应后，程序才会最下一步处理。其实，这个过程比较耗时间。如果程序可以在等待的过程中做一些其他的事情，如进行请求的调度，响应的处理等，那么爬虫的效率就会比之前的那种方式有很大的提升。而aiohttp就是这样一个提供异步web服务的库。使用说这个库用起来还是相当方便的。
解析库：
1.lxml lxml是python的一个解析库，这个库支持HTML和xml的解析，支持XPath的解析方式，而且效率也是非常高的，深受广大程序员的热爱
2.Beautiful Soup Beautiful Soup也是python里一个HTML或XMl的解析库，它可以很方便的懂网页中提取数据，拥有强大的API和多种解析方式。
3.pyquery 同样是一个强大的网页解析工具，它提供了和 jQuery 类似的语法来解析HTML 文梢，

数据库：
1.mysql 数据库
2.MongoDB Mo goDB 是由＋＋语言编写的非关系型数据库，是一个基于分布式文件存储的开源数据库系统内容存储形式类似 JSON 对象，它的字段值可以包含其他文档、数组及文档数组，非常灵活
3.Redis 是一个基于存的高效的非关系型数据库，

存储库：
1.PyMySOL
2.PyMongo
3.redis-py
4.RedisDump

web库：
1.Flask 是一个轻量级的Web服务程序，它简单，易用，灵活
2.Tornado 是一个支持异步的Web框架，通过使用非阻塞I/O流，可以支持成千上万的开放式连接。

② 怎么用VBA或网络爬虫程序抓取网站数据

VBA网抓常用方法
1、xmlhttp/winhttp法：
用xmlhttp/winhttp模拟向服务器发送请求，接收服务器返回的数据。
优点：效率高，基本无兼容性问题。
缺点：需要借助如fiddler的工具来模拟http请求。
2、IE/webbrowser法：
创建IE控件或webbrowser控件，结合htmlfile对象的方法和属性，模拟浏览器操作，获取浏览器页面的数据。
优点：这个方法可以模拟大部分的浏览器操作。所见即所得，浏览器能看到的数据就能用代码获取。
缺点：各种弹窗相当烦人，兼容性也确实是个很伤脑筋的问题。上传文件在IE里根本无法实现。
3、QueryTables法：
因为它是excel自带，所以勉强也算是一种方法。其实此法和xmlhttp类似，也是GET或POST方式发送请求，然后得到服务器的response返回到单元格内。
优点：excel自带，可以通过录制宏得到代码，处理table很方便
。代码简短，适合快速获取一些存在于源代码的table里的数据。
缺点：无法模拟referer等发包头

也可以利用采集工具进行采集网页端的数据，无需写代码。

③ “2022 年”崔庆才 Python3 爬虫教程 - 代理的使用方法

前面我们介绍了多种请求库，如 urllib、requests、Selenium、Playwright 等用法，但是没有统一梳理代理的设置方法，本节我们来针对这些库来梳理下代理的设置方法。

在本节开始之前，请先根据上一节了解一下代理的基本原理，了解了基本原理之后我们可以更好地理解和学习本节的内容。

另外我们需要先获取一个可用代理，代理就是 IP 地址和端口的组合，就是 : 这样的格式。如果代理需要访问认证，那就还需要额外的用户名密码两个信息。

那怎么获取一个可用代理呢？

使用搜索引擎搜索 “代理” 关键字，可以看到许多代理服务网站，网站上会有很多免费或付费代理，比如快代理的免费 HTTP 代理：https://www.kuaidaili.com/free/ 上面就写了很多免费代理，但是这些免费代理大多数情况下并不一定稳定，所以比较靠谱的方法是购买付费代理。付费代理的各大代理商家都有套餐，数量不用多，稳定可用即可，我们可以自行选购。

另外除了购买付费 HTTP 代理，我们也可以在本机配置一些代理软件，具体的配置方法可以参考 https://setup.scrape.center/proxy-client，软件运行之后会在本机创建 HTTP 或 SOCKS 代理服务，所以代理地址一般都是 127.0.0.1: 这样的格式，不同的软件用的端口可能不同。

这里我的本机安装了一部代理软件，它会在本地 7890 端口上创建 HTTP 代理服务，即代理为 127.0.0.1:7890。另外，该软件还会在 7891 端口上创建 SOCKS 代理服务，即代理为 127.0.0.1:7891，所以只要设置了这个代理，就可以成功将本机 IP 切换到代理软件连接的服务器的 IP 了。

在本章下面的示例里，我使用上述代理来演示其设置方法，你也可以自行替换成自己的可用代理。

设置代理后，测试的网址是 http://httpbin.org/get，访问该链接我们可以得到请求的相关信息，其中返回结果的 origin 字段就是客户端的 IP，我们可以根据它来判断代理是否设置成功，即是否成功伪装了 IP。

好，接下来我们就来看下各个请求库的代理设置方法吧。

首先我们以最基础的 urllib 为例，来看一下代理的设置方法，代码如下：

运行结果如下：

这里我们需要借助 ProxyHandler 设置代理，参数是字典类型，键名为协议类型，键值是代理。注意，此处代理前面需要加上协议，即 http:// 或者 https://，当请求的链接是 HTTP 协议的时候，会使用 http 键名对应的代理，当请求的链接是 HTTPS 协议的时候，会使用 https 键名对应的代理。不过这里我们把代理本身设置为了 HTTP 协议，即前缀统一设置为了 http://，所以不论访问 HTTP 还是 HTTPS 协议的链接，都会使用我们配置的 HTTP 协议的代理进行请求。

创建完 ProxyHandler 对象之后，我们需要利用 build_opener 方法传入该对象来创建一个 Opener，这样就相当于此 Opener 已经设置好代理了。接下来直接调用 Opener 对象的 open 方法，即可访问我们所想要的链接。

运行输出结果是一个 JSON，它有一个字段 origin，标明了客户端的 IP。验证一下，此处的 IP 确实为代理的 IP，并不是真实的 IP。这样我们就成功设置好代理，并可以隐藏真实 IP 了。

如果遇到需要认证的代理，我们可以用如下的方法设置：

这里改变的只是 proxy 变量，只需要在代理前面加入代理认证的用户名密码即可，其中 username 就是用户名，password 为密码，例如 username 为 foo，密码为 bar，那么代理就是 foo:[email protected]:7890。

如果代理是 SOCKS5 类型，那么可以用如下方式设置代理：

此处需要一个 socks 模块，可以通过如下命令安装：

这里需要本地运行一个 SOCKS5 代理，运行在 7891 端口，运行成功之后和上文 HTTP 代理输出结果是一样的：

结果的 origin 字段同样为代理的 IP，代理设置成功。

对于 requests 来说，代理设置非常简单，我们只需要传入 proxies 参数即可。

这里以我本机的代理为例，来看下 requests 的 HTTP 代理设置，代码如下：

运行结果如下：

和 urllib 一样，当请求的链接是 HTTP 协议的时候，会使用 http 键名对应的代理，当请求的链接是 HTTPS 协议的时候，会使用 https 键名对应的代理，不过这里统一使用了 HTTP 协议的代理。

运行结果中的 origin 若是代理服务器的 IP，则证明代理已经设置成功。

如果代理需要认证，那么在代理的前面加上用户名和密码即可，代理的写法就变成如下所示：

这里只需要将 username 和 password 替换即可。

如果需要使用 SOCKS 代理，则可以使用如下方式来设置：

这里我们需要额外安装一个包 requests[socks]，相关命令如下所示：

运行结果是完全相同的：

另外，还有一种设置方式，即使用 socks 模块，也需要像上文一样安装 socks 库。这种设置方法如下所示：

使用这种方法也可以设置 SOCKS 代理，运行结果完全相同。相比第一种方法，此方法是全局设置的。我们可以在不同情况下选用不同的方法。

httpx 的用法本身就与 requests 的使用非常相似，所以其也是通过 proxies 参数来设置代理的，不过与 requests 不同的是，proxies 参数的键名不能再是 http 或 https，而需要更改为 http:// 或 https://，其他的设置是一样的。

对于 HTTP 代理来说，设置方法如下：

对于需要认证的代理，也是改下 proxy 的值即可：

这里只需要将 username 和 password 替换即可。

运行结果和使用 requests 是类似的，结果如下：

对于 SOCKS 代理，我们需要安装 httpx-socks 库，安装方法如下：

这样会同时安装同步和异步两种模式的支持。

对于同步模式，设置方法如下：

对于异步模式，设置方法如下：

和同步模式不同的是，transport 对象我们用的是 AsyncProxyTransport 而不是 SyncProxyTransport，同时需要将 Client 对象更改为 AsyncClient 对象，其他的不变，运行结果是一样的。

Selenium 同样可以设置代理，这里以 Chrome 为例来介绍其设置方法。

对于无认证的代理，设置方法如下：

运行结果如下：

代理设置成功，origin 同样为代理 IP 的地址。

如果代理是认证代理，则设置方法相对比较繁琐，具体如下所示：

这里需要在本地创建一个 manifest.json 配置文件和 background.js 脚本来设置认证代理。运行代码之后，本地会生成一个 proxy_auth_plugin.zip 文件来保存当前配置。

运行结果和上例一致，origin 同样为代理 IP。

SOCKS 代理的设置也比较简单，把对应的协议修改为 socks5 即可，如无密码认证的代理设置方法为：

运行结果是一样的。

对于 aiohttp 来说，我们可以通过 proxy 参数直接设置。HTTP 代理设置如下：

如果代理有用户名和密码，像 requests 一样，把 proxy 修改为如下内容：

这里只需要将 username 和 password 替换即可。

对于 SOCKS 代理，我们需要安装一个支持库 aiohttp-socks，其安装命令如下：

我们可以借助于这个库的 ProxyConnector 来设置 SOCKS 代理，其代码如下：

运行结果是一样的。

另外，这个库还支持设置 SOCKS4、HTTP 代理以及对应的代理认证，可以参考其官方介绍。

对于 Pyppeteer 来说，由于其默认使用的是类似 Chrome 的 Chromium 浏览器，因此其设置方法和 Selenium 的 Chrome 一样，如 HTTP 无认证代理设置方法都是通过 args 来设置的，实现如下：

运行结果如下：

同样可以看到设置成功。

SOCKS 代理也一样，只需要将协议修改为 socks5 即可，代码实现如下：

运行结果也是一样的。

相对 Selenium 和 Pyppeteer 来说，Playwright 的代理设置更加方便，其预留了一个 proxy 参数，可以在启动 Playwright 的时候设置。

对于 HTTP 代理来说，可以这样设置：

在调用 launch 方法的时候，我们可以传一个 proxy 参数，是一个字典。字典有一个必填的字段叫做 server，这里我们可以直接填写 HTTP 代理的地址即可。

运行结果如下：

对于 SOCKS 代理，设置方法也是完全一样的，我们只需要把 server 字段的值换成 SOCKS 代理的地址即可：

运行结果和刚才也是完全一样的。

对于有用户名和密码的代理，Playwright 的设置也非常简单，我们只需要在 proxy 参数额外设置 username 和 password 字段即可，假如用户名和密码分别是 foo 和 bar，则设置方法如下：

这样我们就能非常方便地为 Playwright 实现认证代理的设置。

以上我们就总结了各个请求库的代理使用方式，各种库的设置方法大同小异，学会了这些方法之后，以后如果遇到封 IP 的问题，我们可以轻松通过加代理的方式来解决。

本节代码：https://github.com/Python3WebSpider/ProxyTest

④ python爬取大量数据(百万级)

当用python爬取大量网页获取想要的数据时，最重要的问题是爬虫中断问题，python这种脚本语言，一中断

进程就会退出，怎么在中断后继续上次爬取的任务就至关重要了。这里就重点剖析这个中断问题。

第一个问题: 简单点的用动态代理池就能解决，在爬取大量数据的时候，为了速度不受影响，建议使用一些缓

存的中间件将有效的代理 ip 缓存起来，并定时更新。这里推荐 github 这个仓库

https://github.com/jhao104/proxy_pool ，它会做ip有效性验证并将 ip 放入 redis ，不过实现过于复杂

了，还用到了 db ，个人觉得最好自己修改一下。困难点的就是它会使用别的请求来进行判断当前的ip是否

是爬虫，当我们过于聚焦我们的爬虫请求而忽略了其他的请求时，可能就会被服务器判定为爬虫，进而这个ip

会被列入黑名单，而且你换了ip一样也会卡死在这里。这种方式呢，简单点就用 selenium + chrome 一个一个

去爬，不过速度太慢了。还是自己去分析吧，也不会过复杂的。

第二个问题： 网络连接超时是大概率会遇到的问题，有可能是在爬取的时候本地网络波动，也有可能是爬

取的服务端对ip做了限制，在爬取到了一定量级的时候做一些延迟的操作，使得一些通用的 http 库超时

（ urllib ）。不过如果是服务端动的手脚一般延迟不会太高，我们只需要人为的设置一个高一点的

timeout 即可（30 秒），最好在爬取开始的时候就对我们要用的爬取库进行一层封装，通用起来才好改

动。

第三个问题: 在解析大量静态页面的时候，有些静态页面的解析规则不一样，所以我们就必须得做好断点

续爬的准备了（ PS : 如果简单的忽略错误可能会导致大量数据的丢失，这就不明智了）。那么在调试的过

程中断点续爬有个解决方案，就是生产者和消费者分离，生产者就是产生待爬 url 的爬虫，消费者就是爬取

最终数据的爬虫。最终解析数据就是消费者爬虫了。他们通过消息中间件连接，生产者往消息中间件发送待

爬取的目标信息，消费者从里面取就行了，还间接的实现了个分布式爬取功能。由于现在的消费中间件都有

ack 机制，一个消费者爬取链接失败会导致消息消费失败，进而分配给其他消费者消费。所以消息丢失的

概率极低。不过这里还有个 tips ，消费者的消费超时时间不能太长，会导致消息释放不及时。还有要开启

消息中间价的数据持久化功能，不然消息产生过多而消费不及时会撑爆机器内存。那样就得不偿失了。

第四个问题： 这种情况只能 try except catch 住了，不好解决，如果单独分析的话会耗费点时间。但在

大部分数据 （99%） 都正常的情况下就这条不正常抛弃就行了。主要有了第三个问题的解决方案再出现这

种偶尔中断的问就方便多了。

希望能帮到各位。

爬虫代理脚本推荐

与爬虫代理脚本推荐相关的内容