python爬蟲進階(模擬人為上網)

阿新 • • 發佈：2019-01-29

import random
import socket
import urllib2
import cookielib

ERROR = {
        '0':'Can not open the url,checck you net',
        '1':'Creat download dir error',
        '2':'The image links is empty',
        '3':'Download faild',
        '4':'Build soup error,the html is empty',
        '5':'Can not save the image to your disk',
    }

class BrowserBase(object): 

    def __init__(self):
        socket.setdefaulttimeout(20)

    def speak(self,name,content):
        print '[%s]%s' %(name,content)

    def openurl(self,url):
        """
        開啟網頁
        """
        cookie_support= urllib2.HTTPCookieProcessor(cookielib.CookieJar())
        self.opener = urllib2.build_opener(cookie_support,urllib2.HTTPHandler)
        urllib2.install_opener(self.opener)
        user_agents = [
                    'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',
                    'Opera/9.25 (Windows NT 5.1; U; en)',
                    'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',
                    'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)',
                    'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12',
                    'Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',
                    "Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7",
                    "Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 ",

                    ] 
       
        agent = random.choice(user_agents)
        self.opener.addheaders = [("User-agent",agent),("Accept","*/*"),('Referer','http://www.google.com')]
        try:
            res = self.opener.open(url)
            open('kim/' + '1.html', 'w+').write(res.read())
            print res.read()
        except Exception,e:
            self.speak(str(e)+url)
            raise Exception
        else:
            return res

if __name__=='__main__':
    splider=BrowserBase()
    splider.openurl('http://blog.csdn.net/luoshengkim?viewmode=contents')

References

python爬蟲進階(模擬人為上網)

import random import socket import urllib2 import cookielib ERROR = { '0':'Can not open the url,checck you net', '1':'Creat download dir e

Python爬蟲進階六之多進程的用法

maxsize clas 生產依然 queue consumer mac 裏的 filesize 前言在上一節中介紹了thread多線程庫。python中的多線程其實並不是真正的多線程，並不能做到充分利用多核CPU資源。如果想要充分利用，在python中大部分情況需要

python爬蟲進階（八）：分散式系統的高可用與高併發處理

一、應對高併發的基本思路 1、加快單機的速度，例如使用Redis，提高資料訪問頻率；增加CPU的核心數，增大記憶體； 2、增加伺服器的數量，利用叢集。二、分散式系統的設計 1、無狀態應用本身沒有狀態，狀態全部通過配置檔案或者叢集的服務端提供並與之同步。比如不同

python爬蟲進階使用多執行緒爬取小說

Python多執行緒，thread標準庫。都說Python的多執行緒是雞肋，推薦使用多程序。 Python為了安全考慮有一個GIL。每個CPU在同一時間只能執行一個執行緒 GIL的全稱是Global Interpreter

python爬蟲進階（十）：日誌系統、守護執行緒以及驗證碼處理

一、日誌系統首先，關日誌系統的設計參考這篇部落格。 1、日誌系統基本用途（1）多執行緒情況下，debug除錯非常困難（2）錯誤出現可能有一些隨機性（3）效能分析（4）錯誤記錄與分析（5）執行狀態的實時監測 2、日誌系統設計（1）錯誤級別：Debug，I

python爬蟲進階（一）：靜態網頁爬取

一、文章說明本文是在學習過程中的筆記分享，開發環境是win7，Python3，編輯器pycharm，文章中若有錯誤歡迎指出、積極討論。另外，推薦一個比較好的爬蟲教程二、課程基礎 1、HTML和CSS 爬蟲和網頁內容處處打交道，首先要掌握一部分前端內容。參考教程： 2、

python筆記26（爬蟲進階）

一、scrapy框架簡介 1、什麼是Scrapy？　　Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架，非常出名，非常強悍。所謂的框架就是一個已經被集成了各種功能（高效能非同步下載，佇列，分散式，解析，持久化等）的具有很強通用性的專案模板。對於框架的學習，重點是要學習其框架的特性、各個

1.25 Python知識進階 - 封裝

blog 對象 python erro tin 靜態屬性 elf int name 示例代碼： class Role(object): 　　count = 0 　　def __init__(self,name,role,weapon,life_value=10

python decorator 進階

ng- -a gin __call__ complex 產生 sel sin tac 轉自：http://www.cnblogs.com/xybaby/p/6274283.html 上一篇文章開始的時候提到 “一般來說，裝飾器是一個函數，接受一個函數（或者類）作為參數，

python-生成器進階~各種推導式

b- cnblogs keys opened pla one 偶數 print 實現列表推導式例一：30以內所有能被3整除的數列表推導式1 multiples = [i for i in range(30) if i % 3 is 0] print(multiple

python-生成器進階~生成器函數

logs 衣服 with 數據每次 log -a none open 監聽文件末尾追加的例子 def tail(): f = open(‘文件‘,‘r‘,encoding=‘utf-8‘) f.seek(0,2) while True:

python爬蟲之scrapy模擬登錄

這不 eight 搜索頁面 response dom cookie值知乎 blog 背景：　　初來乍到的pythoner，剛開始的時候覺得所有的網站無非就是分析HTML、json數據，但是忽略了很多的一個問題，有很多的網站為了反爬蟲，除了需要高可用代理IP地址池外，還

01月05日三周四次【Python基礎進階】

是個快速 files 函數 true 結果 lis pre 序列 1.8 遞歸列出目錄裏的文件1.9 匿名函數 1.8 遞歸列出目錄裏的文件 #### 遍歷目錄裏的文件(不支持子目錄文件) import os for i in os.listdir(‘C:/Users

01月11日四周四次【Python基礎進階】

顯示進階 col super 自定義方法總結總結類方法 3.1 3.1/3.2 類的繼承3.3 類的屬性總結3.4 類的方法總結 3.1/3.2 類的繼承類的繼承繼承是面向對象的重要特點之一繼承關系: 繼承是相對兩個類而言的父子關系,子類繼承父類所有的公有

Python入門+進階第1章 Python入門導學（無論何時，只要開始就不晚）

編寫程序開放 per python入門範圍工作 win 器）客戶 1、 Python入門導學 1.1 Python概念 Python（英國發音：/?pa?θ?n/ 美國發音：/?pa?θɑ?n/）是一個高層次的結合了解釋性、編譯性、互動性和面向對象的腳本語言。 P

01月12日四周五次【Python基礎進階】

python3.5 rc腳本（類的定義與腳本的結構）3.6 rc腳本（start方法）3.7 rc腳本（stop和status方法）3.8 rc腳本（以daemon方式啟動） 3.5 rc腳本（類的定義與腳本的結構）/3.6 rc腳本（start方法）/3.7 rc腳本（stop和status方法） imp

Python的進階：copy與deepcopy區別

對他可能並不會 ID wfq .html 因此陌生 iba copy()與deepcopy()之間的區分必須要涉及到python對於數據的存儲方式。首先直接上結論： —–我們尋常意義的復制就是深復制，即將被復制對象完全再復制一遍作為獨立的新個體單獨存在。所以改變原有

年薪500萬Python工程師進階之道：Python就業詳細信息？

image 建議假設他會有一個北京詳細信息 process 字符信息這是Python程序員或程序員總結the5fire，零門檻的方法進入初級，初級到中級，中級到高級。僅供參考前言在小組結束時，基於這個問題，我不喜歡最基本的問題，那就是比較大腦的無情來解決

Python入門+進階筆記（2）——Python基本類型

python入門 [ ] ber 布爾入門十六進制運算轉義基本數字（number） Python3中有int（整型）、float（浮點型）二進制：以0b開頭；八進制：以0o開頭；十六進制：以0x開頭。 bin:其他進制的數轉為二進制的數；int：其他進制的數

python購物車進階(函式)

購物車進階：用函式完成登入註冊以及購物車的功能。 1，啟動程式，使用者可選擇四個選項：登入，註冊，購物，退出。 2，使用者註冊，使用者名稱不能重複，註冊成功之後，使用者名稱密碼記錄到檔案中。 3，使用者登入，使用者名稱密碼從檔案中讀取，進行三次驗證，驗證不成功則退出整個程式。 4，使用者登入成

python爬蟲進階(模擬人為上網)

相關推薦