您現(xiàn)在的位置： 365建站網(wǎng) > 365文章 > Python網(wǎng)絡(luò)爬蟲原理(代理/超時(shí)/重定向/Proxy/headers設(shè)置/httplib/urllib實(shí)現(xiàn))

Python網(wǎng)絡(luò)爬蟲原理(代理/超時(shí)/重定向/Proxy/headers設(shè)置/httplib/urllib實(shí)現(xiàn))

文章來源：365jz.com 點(diǎn)擊數(shù)：1105 更新時(shí)間：2018-01-31 11:35 參與評(píng)論

初識(shí)網(wǎng)絡(luò)爬蟲

從本章開始，將正式涉及Python爬蟲的開發(fā)。本章主要分為兩個(gè)部分：一部分是網(wǎng)絡(luò)爬蟲的概述，幫助大家詳細(xì)了解網(wǎng)絡(luò)爬蟲；另一部分是HTTP請(qǐng)求的Python實(shí)現(xiàn)，幫助大家了解Python中實(shí)現(xiàn)HTTP請(qǐng)求的各種方式，以便具備編寫HTTP網(wǎng)絡(luò)程序的能力。

3.1　網(wǎng)絡(luò)爬蟲概述

本節(jié)正式進(jìn)入Python爬蟲開發(fā)的專題，接下來從網(wǎng)絡(luò)爬蟲的概念、用處與價(jià)值和結(jié)構(gòu)等三個(gè)方面，讓大家對(duì)網(wǎng)絡(luò)爬蟲有一個(gè)基本的了解。

3.1.1　網(wǎng)絡(luò)爬蟲及其應(yīng)用

隨著網(wǎng)絡(luò)的迅速發(fā)展，萬維網(wǎng)成為大量信息的載體，如何有效地提取并利用這些信息成為一個(gè)巨大的挑戰(zhàn)，網(wǎng)絡(luò)爬蟲應(yīng)運(yùn)而生。網(wǎng)絡(luò)爬蟲（又被稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機(jī)器人），是一種按照一定的規(guī)則，自動(dòng)地抓取萬維網(wǎng)信息的程序或者腳本。下面通過圖3-1展示一下網(wǎng)絡(luò)爬蟲在互聯(lián)網(wǎng)中起到的作用：

網(wǎng)絡(luò)爬蟲按照系統(tǒng)結(jié)構(gòu)和實(shí)現(xiàn)技術(shù)，大致可以分為以下幾種類型：通用網(wǎng)絡(luò)爬蟲、聚焦網(wǎng)絡(luò)爬蟲、增量式網(wǎng)絡(luò)爬蟲、深層網(wǎng)絡(luò)爬蟲。

實(shí)際的網(wǎng)絡(luò)爬蟲系統(tǒng)通常是幾種爬蟲技術(shù)相結(jié)合實(shí)現(xiàn)的。

搜索引擎（Search Engine），例如傳統(tǒng)的通用搜索引擎baidu、

Yahoo和Google等，是一種大型復(fù)雜的網(wǎng)絡(luò)爬蟲，屬于通用性網(wǎng)絡(luò)爬蟲的范疇。但是通用性搜索引擎存在著一定的局限性：

1）不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求，通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。

圖3-1　網(wǎng)絡(luò)爬蟲

2）通用搜索引擎的目標(biāo)是盡可能大的網(wǎng)絡(luò)覆蓋率，有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進(jìn)一步加深。

3）萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展，圖片、數(shù)據(jù)庫、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn)，通用搜索引擎往往對(duì)這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力，不能很好地發(fā)現(xiàn)和獲取。

4）通用搜索引擎大多提供基于關(guān)鍵字的檢索，難以支持根據(jù)語義信息提出的查詢。

為了解決上述問題，定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲應(yīng)運(yùn)而生。

聚焦爬蟲是一個(gè)自動(dòng)下載網(wǎng)頁的程序，它根據(jù)既定的抓取目標(biāo)，有選擇地訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接，獲取所需要的信息。與通用爬蟲不同，聚焦爬蟲并不追求大的覆蓋，而將目標(biāo)定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁，為面向主題的用戶查詢準(zhǔn)備數(shù)據(jù)資源。

說完了聚焦爬蟲，接下來再說一下增量式網(wǎng)絡(luò)爬蟲。增量式網(wǎng)絡(luò)爬蟲是指對(duì)已下載網(wǎng)頁采取增量式更新和只爬行新產(chǎn)生的或者已經(jīng)發(fā)生變化網(wǎng)頁的爬蟲，它能夠在一定程度上保證所爬行的頁面是盡可能新的頁面。和周期性爬行和刷新頁面的網(wǎng)絡(luò)爬蟲相比，增量式爬蟲只會(huì)在需要的時(shí)候爬行新產(chǎn)生或發(fā)生更新的頁面，并不重新下載沒有發(fā)生變化的頁面，可有效減少數(shù)據(jù)下載量，及時(shí)更新已爬行的網(wǎng)頁，減小時(shí)間和空間上的耗費(fèi)，但是增加了爬行算法的復(fù)雜度和實(shí)現(xiàn)難度。

例如：想獲取趕集網(wǎng)的招聘信息，以前爬取過的數(shù)據(jù)沒有必要重復(fù)爬取，只需要獲取更新的招聘數(shù)據(jù)，這時(shí)候就要用到增量式爬蟲。

最后說一下深層網(wǎng)絡(luò)爬蟲。Web頁面按存在方式可以分為表層網(wǎng)頁和深層網(wǎng)頁。表層網(wǎng)頁是指傳統(tǒng)搜索引擎可以索引的頁面，以超鏈接可以到達(dá)的靜態(tài)網(wǎng)頁為主構(gòu)成的Web頁面。深層網(wǎng)絡(luò)是那些大部分內(nèi)容不能通過靜態(tài)鏈接獲取的、隱藏在搜索表單后的，只有用戶提交一些關(guān)鍵詞才能獲得的Web頁面。例如用戶登錄或者注冊(cè)才能訪問的頁面?？梢韵胂筮@樣一個(gè)場景：爬取貼吧或者論壇中的數(shù)據(jù)，必須在用戶登錄后，有權(quán)限的情況下才能獲取完整的數(shù)據(jù)。

本書除了通用性爬蟲不會(huì)涉及之外，聚焦爬蟲、增量式爬蟲和深層網(wǎng)絡(luò)爬蟲的具體運(yùn)用都會(huì)進(jìn)行講解。下面展示一下網(wǎng)絡(luò)爬蟲實(shí)際運(yùn)用的一些場景：

1）常見的BT網(wǎng)站，通過爬取互聯(lián)網(wǎng)的DHT網(wǎng)絡(luò)中分享的BT種子信息，提供對(duì)外搜索服務(wù)。例如http://www.cilisou.cn/，如圖3-2所示。

圖3-2　磁力搜網(wǎng)站首頁

2）一些云盤搜索網(wǎng)站，通過爬取用戶共享出來的云盤文件數(shù)據(jù)，對(duì)文件數(shù)據(jù)進(jìn)行分類劃分，從而提供對(duì)外搜索服務(wù)。例如http://www.pansou.com/，如圖3-3所示。

圖3-3　盤搜網(wǎng)站首頁

3.1.2　網(wǎng)絡(luò)爬蟲結(jié)構(gòu)

下面用一個(gè)通用的網(wǎng)絡(luò)爬蟲結(jié)構(gòu)來說明網(wǎng)絡(luò)爬蟲的基本工作流程，如圖3-4所示。

圖3-4　網(wǎng)絡(luò)爬蟲結(jié)構(gòu)

網(wǎng)絡(luò)爬蟲的基本工作流程如下：

1）首先選取一部分精心挑選的種子URL。

2）將這些URL放入待抓取URL隊(duì)列。

3）從待抓取URL隊(duì)列中讀取待抓取隊(duì)列的URL，解析DNS，并且得到主機(jī)的IP，并將URL對(duì)應(yīng)的網(wǎng)頁下載下來，存儲(chǔ)進(jìn)已下載網(wǎng)頁庫中。此外，將這些URL放進(jìn)已抓取URL隊(duì)列。

4）分析已抓取URL隊(duì)列中的URL，從已下載的網(wǎng)頁數(shù)據(jù)中分析出其他URL，并和已抓取的URL進(jìn)行比較去重，最后將去重過的URL放入待抓取URL隊(duì)列，從而進(jìn)入下一個(gè)循環(huán)。

這便是一個(gè)基本的通用網(wǎng)絡(luò)爬蟲框架及其工作流程，在之后的章節(jié)我們會(huì)用Python實(shí)現(xiàn)這種網(wǎng)絡(luò)爬蟲結(jié)構(gòu)。

3.2　HTTP請(qǐng)求的Python實(shí)現(xiàn)

通過上面的網(wǎng)絡(luò)爬蟲結(jié)構(gòu)，我們可以看到讀取URL、下載網(wǎng)頁是每一個(gè)爬蟲必備而且關(guān)鍵的功能，這就需要和HTTP請(qǐng)求打交道。接下來講解Python中實(shí)現(xiàn)HTTP請(qǐng)求的三種方式：urllib2/urllib、httplib/urllib以及Requests。

3.2.1　urllib2/urllib實(shí)現(xiàn)

urllib2和urllib是Python中的兩個(gè)內(nèi)置模塊，要實(shí)現(xiàn)HTTP功能，實(shí)現(xiàn)方式是以u(píng)rllib2為主，urllib為輔。

1.首先實(shí)現(xiàn)一個(gè)完整的請(qǐng)求與響應(yīng)模型

urllib2提供一個(gè)基礎(chǔ)函數(shù)urlopen，通過向指定的URL發(fā)出請(qǐng)求來獲取數(shù)據(jù)。最簡單的形式是：

import urllib2 response=urllib2.urlopen('http://www.zhihu.com')
html=response.read()
print html

其實(shí)可以將上面對(duì)http://www.zhihu.com的請(qǐng)求響應(yīng)分為兩步，一步是請(qǐng)求，一步是響應(yīng)，形式如下：

import urllib2 # 請(qǐng)求

request=urllib2.Request('http://www.zhihu.com')
# 響應(yīng)

response = urllib2.urlopen(request)
html=response.read()
print html

上面這兩種形式都是GET請(qǐng)求，接下來演示一下POST請(qǐng)求，其實(shí)大同小異，只是增加了請(qǐng)求數(shù)據(jù)，這時(shí)候用到了urllib。示例如下：

import urllib
import urllib2 url = 'http://www.xxxxxx.com/login'
postdata = {'username' : 'qiye', 'password' : 'qiye_pass'} # info 需要被編碼為urllib2能理解的格式，這里用到的是urllib
data = urllib.urlencode(postdata)
req = urllib2.Request(url, data)
response = urllib2.urlopen(req)
html = response.read()

但是有時(shí)會(huì)出現(xiàn)這種情況：即使POST請(qǐng)求的數(shù)據(jù)是對(duì)的，但是服務(wù)器拒絕你的訪問。這是為什么呢問題出在請(qǐng)求中的頭信息，服務(wù)器會(huì)檢驗(yàn)請(qǐng)求頭，來判斷是否是來自瀏覽器的訪問，這也是反爬蟲的常用手段。

2.請(qǐng)求頭headers處理

將上面的例子改寫一下，加上請(qǐng)求頭信息，設(shè)置一下請(qǐng)求頭中的

User-Agent域和Referer域信息。

import urllib
import urllib2 url = 'http://www.xxxxxx.com/login'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
referer='http://www.xxxxxx.com/'
postdata = {'username' : 'qiye',

'password' : 'qiye_pass'} # 將user_agent,referer寫入頭信息

headers={'User-Agent':user_agent,'Referer':referer} data = urllib.urlencode(postdata)
req = urllib2.Request(url, data,headers)
response = urllib2.urlopen(req)
html = response.read()

也可以這樣寫，使用add_header來添加請(qǐng)求頭信息，修改如下：

import urllib
import urllib2 url = 'http://www.xxxxxx.com/login'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
referer='http://www.xxxxxx.com/'
postdata = {'username' : 'qiye', 'password' : 'qiye_pass'} data = urllib.urlencode(postdata)
req = urllib2.Request(url)
# 將user_agent,referer寫入頭信息

req.add_header('User-Agent',user_agent)
req.add_header('Referer',referer)
req.add_data(data)
response = urllib2.urlopen(req)
html = response.read()

print item.name+':'+item.value

但是有時(shí)候會(huì)遇到這種情況，我們不想讓urllib2自動(dòng)處理，我們想自己添加Cookie的內(nèi)容，可以通過設(shè)置請(qǐng)求頭中的Cookie域來做：

import urllib2 opener = urllib2.build_opener()
opener.addheaders.append( ( 'Cookie', 'email=' + "xxxxxxx@163.com" ) )
req = urllib2.Request( "http://www.zhihu.com/" )
response = opener.open(req)
print response.headers
retdata = response.read()

4.Timeout設(shè)置超時(shí)

在Python2.6之前的版本，urllib2的API并沒有暴露Timeout的設(shè)置，要設(shè)置Timeout值，只能更改Socket的全局Timeout值。示例如下：

import urllib2 import socket
socket.setdefaulttimeout(10) # 10 秒鐘后超時(shí)

urllib2.socket.setdefaulttimeout(10) # 另一種方式

在Python2.6及新的版本中，urlopen函數(shù)提供了對(duì)Timeout的設(shè)置，示例如下：

import urllib2 request=urllib2.Request('http://www.zhihu.com')
response = urllib2.urlopen(request,timeout=2)
html=response.read()
print html

5.獲取HTTP響應(yīng)碼

對(duì)于200OK來說，只要使用urlopen返回的response對(duì)象的

getcode（）方法就可以得到HTTP的返回碼。但對(duì)其他返回碼來說，

urlopen會(huì)拋出異常。這時(shí)候，就要檢查異常對(duì)象的code屬性了，示例如下：

import urllib2 try:
response = urllib2.urlopen('http://www.google.com')
print response
except urllib2.HTTPError as e:
if hasattr(e, 'code'):
print 'Error code:',e.code

6.重定向

urllib2默認(rèn)情況下會(huì)針對(duì)HTTP 3XX返回碼自動(dòng)進(jìn)行重定向動(dòng)作。要檢測是否發(fā)生了重定向動(dòng)作，只要檢查一下Response的URL

和Request的URL是否一致就可以了，示例如下：

import urllib2 response = urllib2.urlopen('http://www.zhihu.cn')
isRedirected = response.geturl() == 'http://www.zhihu.cn'

如果不想自動(dòng)重定向，可以自定義HTTPRedirectHandler類，示例如下：

import urllib2 class RedirectHandler(urllib2.HTTPRedirectHandler):
def http_error_301(self, req, fp, code, msg, headers):
pass
def http_error_302(self, req, fp, code, msg, headers):
result = urllib2.HTTPRedirectHandler.http_error_301(self, req, fp, code, msg, headers)
result.status = code
result.newurl = result.geturl()
return result
opener = urllib2.build_opener(RedirectHandler)
opener.open('http://www.zhihu.cn')

7.Proxy的設(shè)置

在做爬蟲開發(fā)中，必不可少地會(huì)用到代理。urllib2默認(rèn)會(huì)使用環(huán)境變量http_proxy來設(shè)置HTTP Proxy。但是我們一般不采用這種方式，

而是使用ProxyHandler在程序中動(dòng)態(tài)設(shè)置代理，示例代碼如下：

import urllib2 proxy = urllib2.ProxyHandler({'http': '127.0.0.1:8087'})
opener = urllib2.build_opener([proxy,])
urllib2.install_opener(opener)
response = urllib2.urlopen('http://www.zhihu.com/')
print response.read()

這里要注意的一個(gè)細(xì)節(jié)，使用urllib2.install_opener（）會(huì)設(shè)置

urllib2的全局opener，之后所有的HTTP訪問都會(huì)使用這個(gè)代理。這樣使用會(huì)很方便，但不能做更細(xì)粒度的控制，比如想在程序中使用兩個(gè)不同的Proxy設(shè)置，這種場景在爬蟲中很常見。比較好的做法是不使用install_opener去更改全局的設(shè)置，而只是直接調(diào)用opener的open方法代替全局的urlopen方法，修改如下：

import urllib2 proxy = urllib2.ProxyHandler({'http': '127.0.0.1:8087'})
opener = urllib2.build_opener(proxy,)
response = opener.open("http://www.zhihu.com/")
print response.read()

3.2.2　httplib/urllib實(shí)現(xiàn)

httplib模塊是一個(gè)底層基礎(chǔ)模塊，可以看到建立HTTP請(qǐng)求的每一步，但是實(shí)現(xiàn)的功能比較少，正常情況下比較少用到。在Python爬蟲開發(fā)中基本上用不到，所以在此只是進(jìn)行一下知識(shí)普及。下面介紹一下常用的對(duì)象和函數(shù)：

·創(chuàng)建HTTPConnection對(duì)象：class httplib.HTTPConnection（host[，port[，strict[，timeout[，source_address]]]]）。

·發(fā)送請(qǐng)求：HTTPConnection.request（method，url[，body[，headers]]）。

·獲得響應(yīng)：HTTPConnection.getresponse（）。

·讀取響應(yīng)信息：HTTPResponse.read（[amt]）。

·獲得指定頭信息：HTTPResponse.getheader（name[，default]）。

·獲得響應(yīng)頭（header，value）元組的列表：

HTTPResponse.getheaders（）。

·獲得底層socket文件描述符：HTTPResponse.fileno（）。

·獲得頭內(nèi)容：HTTPResponse.msg。

·獲得頭http版本：HTTPResponse.version。

·獲得返回狀態(tài)碼：HTTPResponse.status。

·獲得返回說明：HTTPResponse.reason。

接下來演示一下GET請(qǐng)求和POST請(qǐng)求的發(fā)送，首先是GET請(qǐng)求的示例，如下所示：

import httplib
conn =None
try:
conn = httplib.HTTPConnection("www.zhihu.com")
conn.request("GET", "/")
response = conn.getresponse()
print response.status, response.reason
print '-' * 40 headers = response.getheaders()
for h in headers:
print h
print '-' * 40 print response.msg
except Exception,e:
print e
finally:
if conn:
conn.close()

POST請(qǐng)求的示例如下：

import httplib, urllib
conn = None
try:
params = urllib.urlencode({'name': 'qiye', 'age': 22})
headers = {"Content-type": "application/x-www-form-urlencoded"
, "Accept": "text/plain"} conn = httplib.HTTPConnection("www.zhihu.com", 80, timeout=3)
conn.request("POST", "/login", params, headers)
response = conn.getresponse()
print response.getheaders() # 獲取頭信息

print response.status
print response.read()
except Exception, e:
print e
finally:
if conn:
conn.close()

3.2.3　更人性化的Requests

Python中Requests實(shí)現(xiàn)HTTP請(qǐng)求的方式，是本人極力推薦的，也是在Python爬蟲開發(fā)中最為常用的方式。Requests實(shí)現(xiàn)HTTP請(qǐng)求非常簡單，操作更加人性化。

Requests庫是第三方模塊，需要額外進(jìn)行安裝。Requests是一個(gè)開源庫，源碼位于GitHub：https://github.com/kennethreitz/requests，希望大家多多支持作者。使用Requests庫需要先進(jìn)行安裝，一般有兩種安裝方式：

·使用pip進(jìn)行安裝，安裝命令為：pip install requests，不過可能不是最新版。

·直接到GitHub上下載Requests的源代碼，下載鏈接為：https://github.com/kennethreitz/requests/releases。將源代碼壓縮包進(jìn)行解壓，然后進(jìn)入解壓后的文件夾，運(yùn)行setup.py文件即可。

如何驗(yàn)證Requests模塊安裝是否成功呢？在Python的shell中輸入import requests，如果不報(bào)錯(cuò)，則是安裝成功。如圖3-5所示。

圖3-5　驗(yàn)證Requests安裝

1.首先還是實(shí)現(xiàn)一個(gè)完整的請(qǐng)求與響應(yīng)模型

以GET請(qǐng)求為例，最簡單的形式如下：

import requests

r = requests.get('http://www.baidu.com')
print r.content

大家可以看到比urllib2實(shí)現(xiàn)方式的代碼量少。接下來演示一下

POST請(qǐng)求，同樣是非常簡短，更加具有Python風(fēng)格。示例如下：

import requests
postdata={'key':'value'} r = requests.post('http://www.xxxxxx.com/login',data=postdata)
print r.content

HTTP中的其他請(qǐng)求方式也可以用Requests來實(shí)現(xiàn)，示例如下：

·r=requests.put（'http://www.xxxxxx.com/put'，data={'key':'value'}）

·r=requests.delete（'http://www.xxxxxx.com/delete'）

·r=requests.head（'http://www.xxxxxx.com/get'）

·r=requests.options（'http://www.xxxxxx.com/get'）

接著講解一下稍微復(fù)雜的方式，大家肯定見過類似這樣的URL：

http://zzk.cnblogs.com/s/　blogpost?Keywords=blog:qiyeboy&pageindex=1，就是在網(wǎng)址后面緊跟著“?”，“?”后面還有參數(shù)。那么這樣的GET請(qǐng)求該如何發(fā)送呢？肯定有人會(huì)說，直接將完

整的URL帶入即可，不過Requests還提供了其他方式，示例如下：

import requests
payload = {'Keywords': 'blog:qiyeboy','pageindex':1} r = requests.get('http://zzk.cnblogs.com/s/blogpost', params=payload)
print r.url

通過打印結(jié)果，我們看到最終的URL變成了：

http://zzk.cnblogs.com/s/blogpostKeywords=blog:qiyeboy&pageindex=1。

2.響應(yīng)與編碼

還是從代碼入手，示例如下：

import requests
r = requests.get('http://www.baidu.com')
print 'content-->'+r.content
print 'text-->'+r.text
print 'encoding-->'+r.encoding
r.encoding='utf-8'
print 'new text-->'+r.text

其中r.content返回的是字節(jié)形式，r.text返回的是文本形式，

r.encoding返回的是根據(jù)HTTP頭猜測的網(wǎng)頁編碼格式。

輸出結(jié)果中：“text-->”之后的內(nèi)容在控制臺(tái)看到的是亂碼，“encoding-->”之后的內(nèi)容是ISO-8859-1（實(shí)際上的編碼格式是UTF-8），由于Requests猜測編碼錯(cuò)誤，導(dǎo)致解析文本出現(xiàn)了亂碼。

Requests提供了解決方案，可以自行設(shè)置編碼格式，r.encoding=‘utf-8’設(shè)置成UTF-8之后，“new text-->”的內(nèi)容就不會(huì)出現(xiàn)亂碼。但是這種手動(dòng)的方式略顯笨拙，下面提供一種更加簡便的方式：chardet，這是一個(gè)非常優(yōu)秀的字符串/文件編碼檢測模塊。安裝方式如下：

pip install chardet

安裝完成后，使用chardet.detect（）返回字典，其中confidence

是檢測精確度，encoding是編碼形式。示例如下：

import requests
r = requests.get('http://www.baidu.com')
print chardet.detect(r.content)
r.encoding = chardet.detect(r.content)['encoding'] print r.text

直接將chardet探測到的編碼，賦給r.encoding實(shí)現(xiàn)解碼，r.text輸出就不會(huì)有亂碼了。

除了上面那種直接獲取全部響應(yīng)的方式，還有一種流模式，示例

如下：

import requests
r = requests.get('http://www.baidu.com',stream=True)
print r.raw.read(10)

設(shè)置stream=True標(biāo)志位，使響應(yīng)以字節(jié)流方式進(jìn)行讀取，

r.raw.read函數(shù)指定讀取的字節(jié)數(shù)。

3.請(qǐng)求頭headers處理

Requests對(duì)headers的處理和urllib2非常相似，在Requests的get

函數(shù)中添加headers參數(shù)即可。示例如下：

import requests
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers={'User-Agent':user_agent} r = requests.get('http://www.baidu.com',headers=headers)
print r.content

4.響應(yīng)碼code和響應(yīng)頭headers處理

獲取響應(yīng)碼是使用Requests中的status_code字段，獲取響應(yīng)頭使用Requests中的headers字段。示例如下：

import requests

r = requests.get('http://www.baidu.com')
if r.status_code == requests.codes.ok:
print r.status_code# 響應(yīng)碼

print r.headers# 響應(yīng)頭

print r.headers.get('content-type')# 推薦使用這種獲取方式，獲取其中的某個(gè)字段

print r.headers['content-type']# 不推薦使用這種獲取方式

else:
r.raise_for_status()

上述程序中，r.headers包含所有的響應(yīng)頭信息，可以通過get函數(shù)獲取其中的某一個(gè)字段，也可以通過字典引用的方式獲取字典值，但是不推薦，因?yàn)槿绻侄沃袥]有這個(gè)字段，第二種方式會(huì)拋出異常，第一種方式會(huì)返回None。r.raise_for_status（）是用來主動(dòng)地產(chǎn)生一個(gè)異常，當(dāng)響應(yīng)碼是4XX或5XX時(shí)，raise_for_status（）函數(shù)會(huì)拋出異常，而響應(yīng)碼為200時(shí)，raise_for_status（）函數(shù)返回None。

5.Cookie處理

如果響應(yīng)中包含Cookie的值，可以如下方式獲取Cookie字段的值，示例如下：

import requests
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers={'User-Agent':user_agent} r = requests.get('http://www.baidu.com',headers=headers)
# 遍歷出所有的cookie字段的值

for cookie in r.cookies.keys():
print cookie+':'+r.cookies.get(cookie)

如果想自定義Cookie值發(fā)送出去，可以使用以下方式，示例如下：

import requests
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers={'User-Agent':user_agent} cookies = dict(name='qiye',age='10')
r = requests.get('http://www.baidu.com',headers=headers,cookies=cookies)
print r.text

還有一種更加高級(jí)，且能自動(dòng)處理Cookie的方式，有時(shí)候我們不需要關(guān)心Cookie值是多少，只是希望每次訪問的時(shí)候，程序自動(dòng)把Cookie的值帶上，像瀏覽器一樣。Requests提供了一個(gè)session的概念，在連續(xù)訪問網(wǎng)頁，處理登錄跳轉(zhuǎn)時(shí)特別方便，不需要關(guān)注具體細(xì)節(jié)。使用方法示例如下：

import Requests
loginUrl = 'http://www.xxxxxxx.com/login'
s = requests.Session()
#首先訪問登錄界面，作為游客，服務(wù)器會(huì)先分配一個(gè)cookie
r = s.get(loginUrl,allow_redirects=True)
datas={'name':'qiye','passwd':'qiye'}
#向登錄鏈接發(fā)送post請(qǐng)求，驗(yàn)證成功，游客權(quán)限轉(zhuǎn)為會(huì)員權(quán)限

r = s.post(loginUrl, data=datas,allow_redirects= True)
print r.text

上面的這段程序，其實(shí)是正式做Python開發(fā)中遇到的問題，如果沒有第一步訪問登錄的頁面，而是直接向登錄鏈接發(fā)送Post請(qǐng)求，系統(tǒng)會(huì)把你當(dāng)做非法用戶，因?yàn)樵L問登錄界面時(shí)會(huì)分配一個(gè)Cookie，需要將這個(gè)Cookie在發(fā)送Post請(qǐng)求時(shí)帶上，這種使用Session函數(shù)處理Cookie的方式之后會(huì)很常用。

6.重定向與歷史信息

處理重定向只是需要設(shè)置一下allow_redirects字段即可，例如

r=requests.get（‘http://www.baidu.com’，allow_redirects=True）。將allow_redirects設(shè)置為True，則是允許重定向；設(shè)置為False，則是禁止重定向。如果是允許重定向，可以通過r.history字段查看歷史信息，即訪問成功之前的所有請(qǐng)求跳轉(zhuǎn)信息。示例如下：

import requests
r = requests.get('http://github.com')
print r.url
print r.status_code
print r.history

打印結(jié)果如下：

https:// github.com/ 200 (<Response [301]>,)

上面的示例代碼顯示的效果是訪問GitHub網(wǎng)址時(shí)，會(huì)將所有的HTTP請(qǐng)求全部重定向?yàn)镠TTPS。

7.超時(shí)設(shè)置

超時(shí)選項(xiàng)是通過參數(shù)timeout來進(jìn)行設(shè)置的，示例如下：

requests.get('http://github.com', timeout=2)

8.代理設(shè)置

使用代理Proxy，你可以為任意請(qǐng)求方法通過設(shè)置proxies參數(shù)來配置單個(gè)請(qǐng)求：

import requests
proxies = { "http": "http://0.10.1.10:3128", "https": "http://10.10.1.10:1080", } requests.get("http://example.org", proxies=proxies)

也可以通過環(huán)境變量HTTP_PROXY和HTTPS_PROXY來配置代

理，但是在爬蟲開發(fā)中不常用。你的代理需要使用HTTP Basic
Auth，可以使用http://user：password@host/語法：

proxies = { "http": "http://user:pass@10.10.1.10:3128/", }

小結(jié)

本章主要講解了網(wǎng)絡(luò)爬蟲的結(jié)構(gòu)和應(yīng)用，以及Python實(shí)現(xiàn)HTTP請(qǐng)求的幾種方法。希望大家對(duì)本章中的網(wǎng)絡(luò)爬蟲工作流程和Requests實(shí)現(xiàn)HTTP請(qǐng)求的方式重點(diǎn)吸收消化。