爬虫更换访问地址_有时候进行爬虫抓取会被封IP有没有办法更换IP

‘壹’ 如何处理python爬虫ip被封

如何处理python爬虫ip被封
1、爬虫降低访问速度
由于上文所说的访问速度过快会引起IP被封，那么最直观的办法便是降低访问速度，这样就能避免了我们的IP被封的问题。只是呢，降低速度，爬虫的效率就降低，主要还是要降低到什么程度?
在这一点上吗，我们首先要测试出网站设置的限制速度阈值，如此一来我们才能设置合理的访问速度，建议不要设固定的访问速度，可以设置在一个范围之内，避免过于规律而被系统检测到，从而导致IP被封。
2、爬虫切换IP访问
降低了访问速度，在所难免的影响到了爬取的抓取效率，无法高效的抓取，如此一来的抓取速度与人工抓取有何区别呢?都没有了使用爬虫抓取的优势了。既然单个爬虫被控制了速度，但是我们可以使用多个爬虫同时去抓取啊!是的，我们可以使用多线程，多进程，配合使用代理，不同的线程使用不同的IP地址，就像是同时有不同的用户在访问，如此一来就能大大的提高爬虫的爬取效率了。

‘贰’ 如何解决爬虫ip被封的问题

爬虫是一种按照一定规则，自动抓取网络数据的程序或脚本，它能够快速实现抓取、整理任务，大大节省时间成本。因为爬虫的频繁抓取，会对服务器造成巨大负载，服务器为了保护自己，自然要作出一定的限制，也就是我们常说的反爬虫策略，来阻止爬虫的继续采集。

如何防止ip被限制
1.对请求Headers进行限制
这应该是最常见的，最基本的反爬虫手段，主要是初步判断你是不是真实的浏览器在操作。
这个一般很好解决，把浏览器中的Headers信息复制上去就OK了。
特别注意的是，很多网站只需要userAgent信息就可以通过，但是有的网站还需要验证一些其他的信息，例如知乎，有一些页面还需要authorization的信息。所以需要加哪些Headers，还需要尝试，可能还需要Referer、Accept-encoding等信息。
2.对请求IP进行限制
有时我们的爬虫在爬着，突然冒出页面无法打开、403禁止访问错误，很有可能是IP地址被网站封禁，不再接受你的任何请求。
3.对请求cookie进行限制
当爬虫遇到登陆不了、没法保持登录状态情况，请检查你的cookie.很有可能是你爬虫的cookie被发现了。
以上便是关于反爬虫策略，对于这几个方面，爬虫要做好应对的方法，不同的网站其防御也是不同的。

‘叁’ 使用爬虫采集网站时，怎么样解决被封ip的问题

1.IP必须需要，，ADSL。如果有条件，其实可以跟机房多申请外网IP。
2.在有外网IP的机器上，部署代理服务器。
3.你的程序，使用轮训替换代理服务器来访问想要采集的网站。
好处：
1.程序逻辑变化小，只需要代理功能。
2.根据对方网站屏蔽规则不同，你只需要添加更多的代理就行了。
3.就算具体IP被屏蔽了，你可以直接把代理服务器下线就OK，程序逻辑不需要变化。
方法2.
有小部分网站的防范措施比较弱，可以伪装下IP，修改X-Forwarded-for（貌似这么拼。。。）即可绕过。
大部分网站么，如果要频繁抓取，一般还是要多IP。我比较喜欢的解决方案是国外VPS再配多IP，通过默认网关切换来实现IP切换，比HTTP代理高效得多，估计也比多数情况下的ADSL切换更高效。
方法3.
ADSL + 脚本，监测是否被封，然后不断切换 ip
设置查询频率限制
正统的做法是调用该网站提供的服务接口。
方法4.
8年多爬虫经验的人告诉你，国内ADSL是王道，多申请些线路，分布在多个不同的电信区局，能跨省跨市更好，自己写好断线重拨组件，自己写动态IP追踪服务，远程硬件重置（主要针对ADSL猫，防止其宕机），其余的任务分配，数据回收，都不是大问题。我的已经稳定运行了好几年了，妥妥的！
方法5.
1 user agent 伪装和轮换
2 使用代理 ip 和轮换
3 cookies 的处理，有的网站对登陆用户政策宽松些
友情提示：考虑爬虫给人家网站带来的负担，be a responsible crawler
方法6.
尽可能的模拟用户行为：
1、UserAgent经常换一换；
2、访问时间间隔设长一点，访问时间设置为随机数；
3、访问页面的顺序也可以随机着来
方法8.
网站封的依据一般是单位时间内特定IP的访问次数.
我是将采集的任务按目标站点的IP进行分组通过控制每个IP 在单位时间内发出任务的个数,来避免被封.当然,这个前题是你采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了.
方法9.
1. 对爬虫抓取进行压力控制；
2. 可以考虑使用代理的方式访问目标站点。
-降低抓取频率，时间设置长一些，访问时间采用随机数
-频繁切换UserAgent（模拟浏览器访问）
-多页面数据，随机访问然后抓取数据
-更换用户IP

‘肆’ 为什么做爬虫需要大量IP地址

爬虫被封号IP可以说是所有爬虫工程师务必要迈过的一道坎，在爬虫工作的过程中，经常会遇到封IP的麻烦事，究竟要如何爬才不会被封号呢？
许多人觉得往往被封IP，是由于爬取得太快了，的确是这样。那好吧，我就一而再、再而三地放慢速度，终于不被封号了。但这速度和蜗牛没有什么差别了，爬虫也失去它存在的价值！
有的人利用代理IP来做爬虫，提高速度爬，被封号；再换一个IP，再被封号；接着换，还是被封号，总之封了一个IP，还有千千万万IP，工作效率终于提高了。但这种方法也有个致命的问题，上哪找这么多高效稳定的代理IP？
有的人写了个爬虫爬取网上的代理IP，然后筛选验证，最后封装在IP池里。结果发现，这种方法效率太低，IP质量太低，当然花费的成本也最低，只不过时间成本会很高很高。代理ip是爬虫的基础，而高匿ip代理更是爬虫代理的重中之重，完全马虎不得。

‘伍’ 有时候进行爬虫抓取，会被封IP，有没有办法更换IP

1、IP必须需要，如果有条件，建议一定要使用代理IP。
有外网IP的机器上，部署爬虫代理服务器。
你的程序，使用轮训替换代理服务器来访问想要采集的网站。

2、ADSL+脚本，监测是否被封，然后不断切换ip
设置查询频率限制正统的做法是调用该网站提供的服务接口。

3、useragent伪装和轮换
使用代理ip和轮换
cookies的处理，有的网站对登录用户政策宽松些

4、网站封的依据一般是单位时间内特定IP的访问次数.将采集的任务按目标站点的IP进行分组通过控制每个IP在单位时间内发出任务的个数,来避免被封.当然,这个前题采集很多网站.如果只是采集一个网站,那么只能通过多外部IP的方式来实现了.

5、对爬虫抓取进行压力控制；可以考虑使用代理的方式访问目标站点。
降低抓取频率，时间设置长一些，访问时间采用随机数
频繁切换UserAgent（模拟浏览器访问）
多页面数据，随机访问然后抓取数据
使用http例如IPIDEA，这是最直接有效的方法！

‘陆’ 更换IP有什么好处

一开始没有接触过代理IP的用户，对代理IP不太信赖，觉得是要利用换IP软件来更改的，那么这种IP以及自身的IP安全不能获得保障。
事实上并不是大家想的这样，IP代理的安全系数是特别高的，在运用过程中根本无须担忧会出现其他的隐私信息泄露，由于运用了代理之后，用户自身的个人IP是处在一种隐藏状态，直接可见的IP是属于代理服务器的。这就是众多用户使用IP代理主要的一个原因，它确保了客户隐私的安全。
1、提升网络爬虫效率。现如今随着工作效率的要求，不仅是运用单一的网络爬虫，以便更好地提升网络爬虫的效率，可以用众多网络爬虫进行爬取，这就必须大量的IP，还必须IP进行更改，自然不可缺少代理IP。
2、解决IP限制。现如今绝大多数网站都是有反爬虫技术，最普遍的限制便是IP访问次数。如果本地IP被这些网站封了，就可以用代理IP换IP后继续网络爬虫。

‘柒’ 爬虫怎么解决封IP

网络爬虫为什么被封？当中最直接的因素的就是访问速度过快，这个不要说爬取抓取了，就算用户自己点击太快也是会被提示访问频率过快的。网络爬虫的访问速度若是一直都很快，而且都使用同一个IP地址访问，这是很快IP便会被封的。
面对这个问题，网络爬虫通常是怎么处理的呢？不外乎是两类方法，首位降低访问速度，其次切换IP访问。
爬虫降低访问速度
鉴于上文所指的访问速度过快会引起IP被封，那么最直接的办法就是降低访问速度，这样就能防止了我们的IP被封的问题。但呢，降低速度，爬虫的效率就降低，关键还是要降低到什么程度？
在这一点上，我们首先要检测出网站设置的限制速度阈值，这样我们才可以设置合理的访问速度，建议不要设固定的访问速度，可以设置在一个范围之内，预防过于规律而被系统检测到，进而导致IP被封。
爬虫切换IP访问
降低了访问速度，在所难免的影响到了爬取的抓取效率，无法高效的抓取，这样的抓取速度与人工抓取有什么区别呢？都没有了使用爬虫抓取的优势了。
即然单个爬虫被控制了速度，但我们可以使用多个爬虫同时去抓取啊！是的，我们可以使用多线程，多进程，这里要配合使用代理，不一样的线程使用不同的IP地址，就好像同时有不同的用户在访问，这样就能极大地提高爬虫的爬取效率了。

‘捌’ python 爬虫ip被封锁怎么办

1. 检查cookies
当出现无法保持登陆状态或者直接无法登陆站点的情况时，可以先去对cookies进行检查，这种情况有可能是cookies出现问题所导致的。
2. 检查JavaScript
当站点页面缺少信息或出现空白时，可以去检查网站创建页面的JavaScript。
3. 更换IP地址
如果出现403forbidden或者页面无法打开的问题，那么就很有可能是IP已经被站点服务器所封禁，遇到这种情况就需要更换自己的IP地址，目前来说最为方便的就是使用代理IP，例如IPIDEA，可以随时更换新的IP地址来确保爬虫的工作效率。

爬虫更换访问地址

与爬虫更换访问地址相关的内容