爬蟲腳本運行_如何利用Python爬蟲從網頁上批量獲取想要的信息

『壹』 python爬蟲pyspider使用方法是什麼

【導語】pyspider是Binux做的一個爬蟲架構的開源化實現，主要功能有是：抓取、更新調度多站點的特定的頁面;需要對頁面進行結構化信息提取;靈活可擴展，穩定可監控，那麼進行使用時，python爬蟲pyspider使用方法必須提前了解，下面就來具體看看吧。

1、pyspider以去重調度，隊列抓取，異常處理，監控等功能作為框架，只需提供給抓取腳本，並保證靈活性。最後加上web的編輯調試環境，以及web任務監控，即成為了這套框架。pyspider的設計基礎是：以python腳本驅動的抓取環模型爬蟲。

2、各個組件間使用消息隊列連接，除了scheler是單點的，fetcher 和 processor 都是可以多實例分布式部署的。 scheler
負責整體的調度控制。

3、任務由 scheler 發起調度，fetcher 抓取網頁內容， processor
執行預先編寫的python腳本，輸出結果或產生新的提鏈任務(發往 scheler)，形成閉環。

4、每個腳本可以靈活使用各種python庫對頁面進行解析，使用框架API控制下一步抓取動作，通過設置回調控制解析動作。

以上就是python爬蟲pyspider使用方法的一些介紹，沒太看明白的小夥伴可以結合以上的圖片，相信對於pyspider框架的理解有一定的幫助，更多技能學習，歡迎持續關注!

『貳』油猴爬蟲方案

目前很多知名的網站都增加一些反爬蟲手段，使得編寫爬蟲時並不那麼理想，有些網站很難破解其反爬技術。如利用puppeteer技術操作頁面時，往往出現一些載入異常，容易被網站檢測程序探測到而拒絕響應。

瀏覽器擴展程序油猴(tampermonkey)似乎可以做很多事件，對分析網頁與事件處理有大的能力空間。由於油猴是在用戶手動打開的瀏覽器下運行的，完全是與真人操作類似，可能不那麼容易被檢測到。

思路是這樣的：

第一步：人工啟動瀏覽器，導航到要抓取數據的頁面；（這一步是唯一人工干擾的）

第二步：油猴自動啟動，分析頁面，處理頁面數據；

第三步：將獲得的數據通過GM_xmlhttpRequest介面推送到後台數據接收服務，將數據入庫；

第三步：獲得「下一頁」標簽元素，觸發下一頁請求；返回第二步重復運行；

第四步：沒有「下一頁」時，程序退出。

上述方案的缺點很明顯，那就是第一步必須是人工啟動瀏覽，導航到具體頁面，沒有計劃任務。

當然這不是大問題，還是利用油猴，編寫一個計劃任務的腳本來解決上述問題，即利用js定時器，觸發指定的頁面。更進一步，我們有好多爬蟲腳本，這時我們就做一個任務隊列，讓js定時器通過導航到指定頁面來啟動對應的js腳本。js定時器的@match值為 http://*/* 。

具體做法是：

一、編輯js定時器(計劃任務)，實現定時打開指定網站；

二、讓瀏覽器始終打開；

三、部分需要登錄的網站，先行登錄；並讓定時器第間隔一段時間（如半小時）刷新一下網站的一個非數據頁面。

四、爬蟲腳本執行完後，盡量關閉頁簽，以節省電腦資源。

『叄』網路爬蟲是什麼具體要學哪些內容

簡單來講，爬蟲就是一個探測機器，它的基本操作就是模擬人的行為去各個網站溜達，點點按鈕，查查數據，或者把看到的信息背回來。就像一隻蟲子在一幢樓里不知疲倦地爬來爬去。

你可以簡單地想像：每個爬蟲都是你的「分身」。就像孫悟空拔了一撮汗毛，吹出一堆猴子一樣。

你每天使用的網路，其實就是利用了這種爬蟲技術：每天放出無數爬蟲到各個網站，把他們的信息抓回來，然後化好淡妝排著小隊等你來檢索。
搶票軟體，就相當於撒出去無數個分身，每一個分身都幫助你不斷刷新 12306 網站的火車余票。一旦發現有票，就馬上拍下來，然後對你喊：土豪快來付款。

那麼，像這樣的爬蟲技術一旦被用來作惡有多可怕呢？

正好在上周末，一位黑客盆友御風神秘兮兮地給我發來一份《中國爬蟲圖鑒》，這哥們在騰訊雲鼎實驗室主要負責加班，順便和同事們開發了很多黑科技。比如他們搞了一個威脅情報系統，號稱能探測到全世界的「爬蟲」都在做什麼。

我吹著口哨打開《圖鑒》，但一分鍾以後，我整個人都不好了。

我看到了另一個「平行世界」：

就在我們身邊的網路上，已經密密麻麻爬滿了各種網路爬蟲，它們善惡不同，各懷心思。而越是每個人切身利益所在的地方，就越是爬滿了爬蟲。

看到最後，我發現這哪裡是《中國爬蟲圖鑒》，這分明是一份《中國焦慮圖鑒》。

這是爬蟲經常光顧的微博地址。

『肆』 python爬蟲如何解決http error 503問題

從表面上看，Python爬蟲程序運行中出現503錯誤是伺服器的問題，其實真正的原因在程序，由於Python腳本運行過程中讀取的速度太快，明顯是自動讀取而不是人工查詢讀取，這時伺服器為了節省資源就會給Python腳本反饋回503錯誤。其實只要把爬取的速度放慢一點就好了。比如讀取一條記錄或幾條記錄後適當添加上time.sleep(10)，這樣就基本上不會出現503錯誤了。我本人在使用中一般是在每一次讀取後都運行time.sleep(1)或time.sleep(3)，具體的數值根據不同的網站確定。

『伍』如何用Python做爬蟲

在我們日常上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片保存下載，或者用戶用來做桌面壁紙，或者用來做設計的素材。

我們最常規的做法就是通過滑鼠右鍵，選擇另存為。但有些圖片滑鼠右鍵的時候並沒有另存為選項，還有辦法就通過就是通過截圖工具截取下來，但這樣就降低圖片的清晰度。好吧其實你很厲害的，右鍵查看頁面源代碼。

我們可以通過python來實現這樣一個簡單的爬蟲功能，把我們想要的代碼爬取到本地。下面就看看如何使用python來實現這樣一個功能。

『陸』 python爬蟲如何保存進度下次執行腳本時能恢復

抓取的話你肯定有自己設定的抓取順序，在報錯或停止或線程死掉時候記錄最後抓取的url，待再次打開時從這開始。
如果這比較難實現，可以用傳統辦法，記錄下抓取的url，作為己抓過的數據，待再次運行程序時進行比較跳過這些即可。

『柒』如何用Python做爬蟲

1）首先你要明白爬蟲怎樣工作。

想像你是一隻蜘蛛，現在你被放到了互聯「網」上。那麼，你需要把所有的網頁都看一遍。怎麼辦呢？沒問題呀，你就隨便從某個地方開始，比如說人民日報的首頁，這個叫initial pages，用$表示吧。

在人民日報的首頁，你看到那個頁面引向的各種鏈接。於是你很開心地從爬到了「國內新聞」那個頁面。太好了，這樣你就已經爬完了倆頁面（首頁和國內新聞）！暫且不用管爬下來的頁面怎麼處理的，你就想像你把這個頁面完完整整抄成了個html放到了你身上。

突然你發現，在國內新聞這個頁面上，有一個鏈接鏈回「首頁」。作為一隻聰明的蜘蛛，你肯定知道你不用爬回去的吧，因為你已經看過了啊。所以，你需要用你的腦子，存下你已經看過的頁面地址。這樣，每次看到一個可能需要爬的新鏈接，你就先查查你腦子里是不是已經去過這個頁面地址。如果去過，那就別去了。

好的，理論上如果所有的頁面可以從initial page達到的話，那麼可以證明你一定可以爬完所有的網頁。

那麼在python里怎麼實現呢？
很簡單

import Queue

initial_page = "初始化頁"

url_queue = Queue.Queue()
seen = set()

seen.insert(initial_page)
url_queue.put(initial_page)

while(True): #一直進行直到海枯石爛
if url_queue.size()>0:
current_url = url_queue.get() #拿出隊例中第一個的url
store(current_url) #把這個url代表的網頁存儲好
for next_url in extract_urls(current_url): #提取把這個url里鏈向的url
if next_url not in seen:
seen.put(next_url)
url_queue.put(next_url)
else:
break

寫得已經很偽代碼了。

所有的爬蟲的backbone都在這里，下面分析一下為什麼爬蟲事實上是個非常復雜的東西——搜索引擎公司通常有一整個團隊來維護和開發。

2）效率
如果你直接加工一下上面的代碼直接運行的話，你需要一整年才能爬下整個豆瓣的內容。更別說Google這樣的搜索引擎需要爬下全網的內容了。

問題出在哪呢？需要爬的網頁實在太多太多了，而上面的代碼太慢太慢了。設想全網有N個網站，那麼分析一下判重的復雜度就是N*log(N)，因為所有網頁要遍歷一次，而每次判重用set的話需要log(N)的復雜度。OK，OK，我知道python的set實現是hash——不過這樣還是太慢了，至少內存使用效率不高。

通常的判重做法是怎樣呢？Bloom Filter. 簡單講它仍然是一種hash的方法，但是它的特點是，它可以使用固定的內存（不隨url的數量而增長）以O(1)的效率判定url是否已經在set中。可惜天下沒有白吃的午餐，它的唯一問題在於，如果這個url不在set中，BF可以100%確定這個url沒有看過。但是如果這個url在set中，它會告訴你：這個url應該已經出現過，不過我有2%的不確定性。注意這里的不確定性在你分配的內存足夠大的時候，可以變得很小很少。一個簡單的教程:Bloom Filters by Example

注意到這個特點，url如果被看過，那麼可能以小概率重復看一看（沒關系，多看看不會累死）。但是如果沒被看過，一定會被看一下（這個很重要，不然我們就要漏掉一些網頁了！）。 [IMPORTANT: 此段有問題，請暫時略過]

好，現在已經接近處理判重最快的方法了。另外一個瓶頸——你只有一台機器。不管你的帶寬有多大，只要你的機器下載網頁的速度是瓶頸的話，那麼你只有加快這個速度。用一台機子不夠的話——用很多台吧！當然，我們假設每台機子都已經進了最大的效率——使用多線程（python的話，多進程吧）。

3）集群化抓取
爬取豆瓣的時候，我總共用了100多台機器晝夜不停地運行了一個月。想像如果只用一台機子你就得運行100個月了...

那麼，假設你現在有100台機器可以用，怎麼用python實現一個分布式的爬取演算法呢？

我們把這100台中的99台運算能力較小的機器叫作slave，另外一台較大的機器叫作master，那麼回顧上面代碼中的url_queue，如果我們能把這個queue放到這台master機器上，所有的slave都可以通過網路跟master聯通，每當一個slave完成下載一個網頁，就向master請求一個新的網頁來抓取。而每次slave新抓到一個網頁，就把這個網頁上所有的鏈接送到master的queue里去。同樣，bloom filter也放到master上，但是現在master只發送確定沒有被訪問過的url給slave。Bloom Filter放到master的內存里，而被訪問過的url放到運行在master上的Redis里，這樣保證所有操作都是O(1)。（至少平攤是O(1)，Redis的訪問效率見:LINSERT – Redis)

考慮如何用python實現：
在各台slave上裝好scrapy，那麼各台機子就變成了一台有抓取能力的slave，在master上裝好Redis和rq用作分布式隊列。

代碼於是寫成

#slave.py

current_url = request_from_master()
to_send = []
for next_url in extract_urls(current_url):
to_send.append(next_url)

store(current_url);
send_to_master(to_send)

#master.py
distributed_queue = DistributedQueue()
bf = BloomFilter()

initial_pages = "www.renmingribao.com"

while(True):
if request == 'GET':
if distributed_queue.size()>0:
send(distributed_queue.get())
else:
break
elif request == 'POST':
bf.put(request.url)

好的，其實你能想到，有人已經給你寫好了你需要的：darkrho/scrapy-redis · GitHub

4）展望及後處理
雖然上面用很多「簡單」，但是真正要實現一個商業規模可用的爬蟲並不是一件容易的事。上面的代碼用來爬一個整體的網站幾乎沒有太大的問題。

但是如果附加上你需要這些後續處理，比如

有效地存儲（資料庫應該怎樣安排）

有效地判重（這里指網頁判重，咱可不想把人民日報和抄襲它的大民日報都爬一遍）

有效地信息抽取（比如怎麼樣抽取出網頁上所有的地址抽取出來，「朝陽區奮進路中華道」），搜索引擎通常不需要存儲所有的信息，比如圖片我存來幹嘛...

及時更新（預測這個網頁多久會更新一次）

如你所想，這里每一個點都可以供很多研究者十數年的研究。雖然如此，
「路漫漫其修遠兮,吾將上下而求索」。

所以，不要問怎麼入門，直接上路就好了：）

『捌』 mac上用xcode怎麼寫python爬蟲

mac用來寫python爬蟲可以
Linux下運行Python程序，一般說來有以下兩種形式，其實和Windows下基本一樣。
一、在IDLE中運行
在終端窗口輸入$ python進入互動式運行環境，然後就可以邊輸入邊執行代碼了：
>>> print 'Hello Python'
Hello Python>>>退出使用Ctrl-D。
二、以腳本方式運行
在py腳本所在目錄下輸入

『玖』如何利用Python爬蟲從網頁上批量獲取想要的信息

稍微說一下背景，當時我想研究蛋白質與小分子的復合物在空間三維結構上的一些規律，首先得有數據啊，數據從哪裡來？就是從一個涵蓋所有已經解析三維結構的蛋白質-小分子復合物的資料庫裡面下載。這時候，手動一個個去下顯然是不可取的，我們需要寫個腳本，能從特定的網站選擇性得批量下載需要的信息。python是不錯的選擇。

import urllib #python中用於獲取網站的模塊
import urllib2, cookielib

有些網站訪問時需要cookie的，python處理cookie代碼如下：
cj = cookielib.CookieJar ( )
opener = urllib2.build_opener( urllib2.HttpCookieProcessor(cj) )
urllib2.install_opener （opener）

通常我們需要在網站中搜索得到我們需要的信息，這里分為二種情況：

1. 第一種，直接改變網址就可以得到你想要搜索的頁面：

def GetWebPage( x ): #我們定義一個獲取頁面的函數，x 是用於呈遞你在頁面中搜索的內容的參數
url = 'http://xxxxx/xxx.cgi?&' + 『你想要搜索的參數』 # 結合自己頁面情況適當修改
page = urllib2.urlopen(url)
pageContent = page.read( )
return pageContent #返回的是HTML格式的頁面信息

2.第二種，你需要用到post方法，將你搜索的內容放在postdata裡面，然後返回你需要的頁面

def GetWebPage( x ): #我們定義一個獲取頁面的函數，x 是用於呈遞你在頁面中搜索的內容的參數
url = 'http://xxxxx/xxx' #這個網址是你進入搜索界面的網址
postData = urllib.urlencode( { 各種『post』參數輸入 } ) #這裡面的post參數輸入需要自己去查
req= urllib2.Request (url, postData)
pageContent = urllib2.urlopen (req). read( )
return pageContent #返回的是HTML格式的頁面信息

在獲取了我們需要的網頁信息之後，我們需要從獲得的網頁中進一步獲取我們需要的信息，這里我推薦使用 BeautifulSoup 這個模塊， python自帶的沒有，可以自行網路谷歌下載安裝。 BeautifulSoup 翻譯就是『美味的湯』，你需要做的是從一鍋湯裡面找到你喜歡吃的東西。

import re # 正則表達式，用於匹配字元
from bs4 import BeautifulSoup # 導入BeautifulSoup 模塊

soup = BeautifulSoup（pageContent） #pageContent就是上面我們搜索得到的頁面

soup就是 HTML 中所有的標簽（tag）BeautifulSoup處理格式化後的字元串，一個標準的tag形式為：

hwkobe24

通過一些過濾方法，我們可以從soup中獲取我們需要的信息：

（1） find_all ( name , attrs , recursive , text , **kwargs)
這裡面，我們通過添加對標簽的約束來獲取需要的標簽列表，比如 soup.find_all ('p') 就是尋找名字為『p』的標簽，而soup.find_all (class = "tittle") 就是找到所有class屬性為"tittle" 的標簽，以及soup.find_all ( class = re.compile('lass')) 表示 class屬性中包含『lass』的所有標簽，這里用到了正則表達式（可以自己學習一下，非常有用滴）

當我們獲取了所有想要標簽的列表之後，遍歷這個列表，再獲取標簽中你需要的內容，通常我們需要標簽中的文字部分，也就是網頁中顯示出來的文字，代碼如下：

tagList = soup.find_all (class="tittle") #如果標簽比較復雜，可以用多個過濾條件使過濾更加嚴格

for tag in tagList:
print tag.text
f.write ( str(tag.text) ) #將這些信息寫入本地文件中以後使用

（2）find( name , attrs , recursive , text , **kwargs )

它與 find_all( ) 方法唯一的區別是 find_all() 方法的返回結果是值包含一個元素的列表,而 find() 方法直接返回結果

（3）find_parents( ) find_parent( )

find_all() 和 find() 只搜索當前節點的所有子節點,孫子節點等. find_parents() 和 find_parent() 用來搜索當前節點的父輩節點,搜索方法與普通tag的搜索方法相同,搜索文檔搜索文檔包含的內容

（4）find_next_siblings() find_next_sibling()

這2個方法通過 .next_siblings 屬性對當 tag 的所有後面解析的兄弟 tag 節點進代, find_next_siblings() 方法返回所有符合條件的後面的兄弟節點,find_next_sibling() 只返回符合條件的後面的第一個tag節點

（5）find_previous_siblings() find_previous_sibling()

這2個方法通過 .previous_siblings 屬性對當前 tag 的前面解析的兄弟 tag 節點進行迭代, find_previous_siblings()方法返回所有符合條件的前面的兄弟節點, find_previous_sibling() 方法返回第一個符合條件的前面的兄弟節點

（6）find_all_next() find_next()

這2個方法通過 .next_elements 屬性對當前 tag 的之後的 tag 和字元串進行迭代, find_all_next() 方法返回所有符合條件的節點, find_next() 方法返回第一個符合條件的節點

（7）find_all_previous() 和 find_previous()

這2個方法通過 .previous_elements 屬性對當前節點前面的 tag 和字元串進行迭代, find_all_previous() 方法返回所有符合條件的節點, find_previous()方法返回第一個符合條件的節點

具體的使用方法還有很多，用到這里你應該可以解決大部分問題了，如果要更深入了解可以參考官方的使用說明哈！

爬蟲腳本運行

與爬蟲腳本運行相關的內容