Python爬蟲實戰完整版

阿新 • • 發佈：2018-12-12

mongodb操作

有需要Python學習資料的小夥伴嗎?小編整理【一套Python資料、原始碼和PDF】，感興趣者可以加學習群：548377875，反正閒著也是閒著呢，不如學點東西啦~~

import pymongo

#連線資料庫例項(連線資料庫)---》獲取相應資料庫---》獲取相應collection集合(表)
client = pymongo.MongoClient(host='localhost',port=27017)

db = client.test        #也可用字典形式操作，如下
# db = client["test"]

collection  = db.students  #也可用字典形式操作，如下
# collection = db["students"]

student1 = {
    'id':'001',
    'name':'haha',
    'age':20,
    'gender':'male'
}
student2 = {
    'id': '002',
    'name': 'Mike',
    'age': 41,
    'gender': 'male'
}
#--------------------------------------------------------------------------
        #插入 insert into students(...) values('002',...)
        #若不指定 _id 欄位，系統預設會生成一個ObjectId
        #可插入一條或多條資料(列表形式)，python3不推薦使用insert
# collection.insert([student1,student2])
# collection.insert(student1)

        #官方推薦，分開使用，返回值不是ObjectId，而是InsertOneResult物件，我們可以呼叫其inserted_id屬性獲取_id。
# result = collection.insert_one(student2)
# print(result)
# print(result.inserted_id)

# result = collection.insert_many([student1,student2])
# print(result)
# print(result.inserted_ids)

#------------------------------------------------------------------
        #查詢 select * from students where id=002
        #查詢條件使用字典，可使用多欄位,find是多條查詢
# result_find = collection.find({"name":"lijingbo","age":20})
# print(result_find.next())   #返回一個遊標，遊標相當於迭代器，可使用next()獲取一條結果，或者使用迴圈遍歷等，遍歷結果是字典
        #find_one:單個查詢，返回字典型別
# result = collection.find_one({'age':20})
# print(result,type(result))
        #結合關係符進行查詢:$gt,$lt,$gte,$lte,$ne,$in,$nin
# result = collection.find({'age':{'$gt':18}})
# result = collection.find({'age':{'$in':[18,41]}})
        #結合特殊符號查詢：$regex
# result = collection.find({'name':{'$regex':'^M.*'}})  #正則
# result = collection.find({'name':{'$exists':True}})     #查詢含有name屬性的
# result = collection.find({'age':{'$mod':[5,0]}})        #求模，對5取餘=0
# result = collection.find({'$where':'obj.age==20'})       #查詢age為20的，obj是自身
# result = collection.find({'age':20}).count()                #統計
# result = collection.find().sort('age',pymongo.ASCENDING)      #按照指定欄位升序排列
# result = collection.find().sort('age',pymongo.DESCENDING)     #按照指定欄位升序排列
# result = collection.find().sort('age',pymongo.DESCENDING).skip(2)     #按照指定欄位升序排列，偏移2個(就是把最前面兩個跳過去了)
# result = collection.find().sort('age',pymongo.DESCENDING).skip(2).limit(5)    #限制得到5
# print(result)
# for r in result:
#     print(r['name'],r['age'])

#----------------------------------------------------------
        #更新 update students set name=haha where id=001
        #引數1：查詢條件(字典)；引數2：更新值(字典，鍵：'$set'，值：字典【也可直接使用外部字典】)
        #其他：upsert預設為False，為True時——若更新的原資料不存在，則插入資料
                #multi——預設為False只更新查詢到的第一條資料，為True時：更新全部查詢到的資料
        # $set：是mongodb內建函式，覆蓋原始資料
# collection.update({"id":"001"},{'$set':{'age':34}},upsert=True,multi=True)
# print(collection.find().next())
        #上面的官方也不推薦，可以使用下面的
# result = collection.update_one({'name':'haha'},{'$set':{'age':18}})
# result = collection.update_many({'name':'haha'},{'$set':{'age':18}})
# print(result)   #只修改一條資料，若該資料不修改就和修改條件一樣了，那有可能修改數為0
# print(result.matched_count,result.modified_count)


#-----------------------------------------------------
        #刪除,remove方法官方不推薦
# collection.remove({"id":"001"},justOne=1)
# result = collection.delete_one({'name':'Mike'})
# result = collection.delete_many({'name':'Mike'})
# print(result)
# print(result.deleted_count)

#---------------------------------------------------
        #組合方法
# result = collection.find_one_and_delete({'name':'haha'})
# result = collection.find_one_and_update({'name':'haha'},{'$set':{'age':45}})
# result = collection.find_one_and_replace({'name':'haha'})
# print(result)

MongoCache

將資料以字典的特性儲存快取到mongodb資料庫

匯入類庫

import pickle,zlib  #物件序列化    壓縮資料
from datetime import datetime,timedelta     #設定快取超時間間隔
from pymongo import MongoClient
from bson.binary import Binary      #MongoDB儲存二進位制的型別

建立MongoCache類

初始化init
- 連線mongodb資料庫
- 連線資料庫cache例項(沒有則建立)
- 連線集合webpage(沒有則建立)
- 建立timestamp索引，設定超時時間為30天

重寫__setitem__
- 資料經過pickle序列化
- zlib壓縮
- 經Binary轉化為mongodb需要的格式
- 新增格林威治時間
- 網址為鍵_id，結果為值，存入mongodb

使用下載的url(路由)作為key，存入系統預設的_id欄位，更新資料庫，若存在則更新，不存在則插入，_id唯一就可實現爬取的資料去重

用字典的形式向資料庫新增一條快取(資料)

重寫__getitem__
- 將快取資料按照item作為key取出(key仍然是下載的url)
- 根據_id(url)查詢(find_one)結果
- 解壓縮，反序列化
重寫__contains__
- 當呼叫in，not in ，會自動呼叫該方法判斷連結對應網址是否在資料庫中
- 可通過字典的查詢方式__getitem__直接查詢(self[item])
- 該函式返回布林值
方法clear
- 清空該集合中的資料

import pickle,zlib  #物件序列化    壓縮資料
from datetime import datetime,timedelta     #設定快取超時間間隔
from pymongo import MongoClient
from bson.binary import Binary      #MongoDB儲存二進位制的型別
from http_ljb.tiebaspider import TiebaSpider
from http_ljb.qiushispider import QiushiSpider

class MongoCache:
    def __init__(self,client=None,expires=timedelta(days=30)):
        '''
        初始化函式
        :param client: 資料庫連線(資料庫例項)
        :param expires: 超時時間
        '''
        self.client = MongoClient('localhost',27017)
        self.db = self.client.cache     #建立名為cache的資料庫
        web_page = self.db.webpage      #建立集合webpage並賦值給變數
        #建立timestamp索引，設定超時時間為30天，total_seconds會將days轉為秒
        self.db.webpage.create_index('timestamp',expireAfterSeconds=expires.total_seconds())

    def __setitem__(self, key, value):
        '''
        用字典的形式向資料庫新增一條快取(資料)
        :param key: 快取的鍵
        :param value: 快取的值
        :return:
        '''
        #資料---》pickle序列化---》zlib壓縮---》Binary轉化為mondodb需要的格式，使用格林威治時間
        record = {'result':Binary(zlib.compress(pickle.dumps(value))),'timestamp':datetime.utcnow()}
        #使用下載的url(路由)作為key，存入系統預設的_id欄位，更新資料庫，若存在則更新，不存在則插入，_id唯一就可實現爬取的資料去重
        self.db.webpage.update({'_id':key},{'$set':record},upsert=True)

    def __getitem__(self, item):
        '''
        將快取資料按照item作為key取出(key仍然是下載的url)
        :param item:鍵
        :return:
        '''
        record = self.db.webpage.find_one({'_id':item}) #查找出來就不是Binary了，不用進行轉化
        if record:
            return pickle.loads(zlib.decompress(record['result'])) #解壓縮，反序列化
        else:
            raise KeyError(item + 'does not exist')     #查詢不到就丟擲鍵錯誤異常

    def __contains__(self, item):
        '''
        當呼叫in，not in ，會自動呼叫該方法判斷連結對應網址是否在資料庫中
        :param item: 下載的url連結(路由)
        :return:
        '''
        try:
            self[item]      #這一步會呼叫__getitem__,找不到__getitem__會丟擲異常，在這裡進行捕獲異常只返回False，否則返回True
        except KeyError:
            return False
        else:
            return True

    def clear(self):
        '''
        清空該集合中的資料
        :return:
        '''
        self.db.webpage.drop()

爬取例項

呼叫貼吧爬取程式碼和百科爬取程式碼，使用mongodb儲存爬取資料

匯入爬取類
建立新類並繼承自爬取類
重寫儲存方法
- 建立MongoCache物件
- 網址為鍵，資料為值，以字典形式存入mongodb
重寫run方法
- 在儲存時，需多傳一個網址引數(為了在儲存方法中對應儲存)

import pickle,zlib  #物件序列化    壓縮資料
from datetime import datetime,timedelta     #設定快取超時間間隔
from pymongo import MongoClient
from bson.binary import Binary      #MongoDB儲存二進位制的型別
from http_ljb.tiebaspider import TiebaSpider
from http_ljb.qiushispider import QiushiSpider

class MongoCache:
    def __init__(self,client=None,expires=timedelta(days=30)):
        '''
        初始化函式
        :param client: 資料庫連線(資料庫例項)
        :param expires: 超時時間
        '''
        self.client = MongoClient('localhost',27017)
        self.db = self.client.cache     #建立名為cache的資料庫
        web_page = self.db.webpage      #建立集合webpage並賦值給變數
        #建立timestamp索引，設定超時時間為30天，total_seconds會將days轉為秒
        self.db.webpage.create_index('timestamp',expireAfterSeconds=expires.total_seconds())

    def __setitem__(self, key, value):
        '''
        用字典的形式向資料庫新增一條快取(資料)
        :param key: 快取的鍵
        :param value: 快取的值
        :return:
        '''
        #資料---》pickle序列化---》zlib壓縮---》Binary轉化為mondodb需要的格式，使用格林威治時間
        record = {'result':Binary(zlib.compress(pickle.dumps(value))),'timestamp':datetime.utcnow()}
        #使用下載的url(路由)作為key，存入系統預設的_id欄位，更新資料庫，若存在則更新，不存在則插入，_id唯一就可實現爬取的資料去重
        self.db.webpage.update({'_id':key},{'$set':record},upsert=True)

    def __getitem__(self, item):
        '''
        將快取資料按照item作為key取出(key仍然是下載的url)
        :param item:鍵
        :return:
        '''
        record = self.db.webpage.find_one({'_id':item}) #查找出來就不是Binary了，不用進行轉化
        if record:
            return pickle.loads(zlib.decompress(record['result'])) #解壓縮，反序列化
        else:
            raise KeyError(item + 'does not exist')     #查詢不到就丟擲鍵錯誤異常

    def __contains__(self, item):
        '''
        當呼叫in，not in ，會自動呼叫該方法判斷連結對應網址是否在資料庫中
        :param item: 下載的url連結(路由)
        :return:
        '''
        try:
            self[item]      #這一步會呼叫__getitem__,找不到__getitem__會丟擲異常，在這裡進行捕獲異常只返回False，否則返回True
        except KeyError:
            return False
        else:
            return True

    def clear(self):
        '''
        清空該集合中的資料
        :return:
        '''
        self.db.webpage.drop()

class TiebaMongo(TiebaSpider):
    def save_result(self, result,url_str):
        """
        重寫父類的該方法，將資料儲存到資料庫
        :param result:
        :param url_str:
        :return:
        """
        mc = MongoCache()
        mc[url_str] = result

    def run(self):
        url_lists = self.make_url()
        for url_str in url_lists:
            result_str = self.download_url(url_str)
            self.save_result(result=result_str,url_str=url_str)

# class QiushiMongo(QiushiSpider):
#     def save_result(self, result,url_str):
#         mc = MongoCache()
#         mc[url_str] = result
#
#     def run(self):
#         url_lists = self.make_url()
#         for url_str in url_lists:
#             result_str = self.download_url(url_str)
#             self.save_result(result=result_str,url_str=url_str)

# if __name__ == '__main__':
        #爬取貼吧並存到MongoDB
    # test = TiebaMongo('lol')
    # test.run()
        #爬取糗事並存到MongoDB
    # qiushi = QiushiMongo()
    # qiushi.run()
        #查詢MongoDB
    # mc = MongoCache()
    # print(mc['https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=2'])
    # print('https://tieba.baidu.com/f?kw=lol&ie=utf-8&pn=3' in mc)
    # cha = MongoCache()
    # print(cha[test.url_base])
    # print(mc["https://www.qiushibaike.com/8hr/page/2/"])

Python爬蟲實戰完整版

mongodb操作有需要Python學習資料的小夥伴嗎?小編整理【一套Python資料、原始碼和PDF】，感興趣者可以加學習群：548377875，反正閒著也是閒著呢，不如學點東西啦~~ import pymongo #連線資料庫例項(連線資料庫)---》獲取相應資料

爬蟲——實戰完整版

mongodb操作 1 import pymongo 2 3 #連線資料庫例項(連線資料庫)---》獲取相應資料庫---》獲取相應collection集合(表) 4 client = pymongo.MongoClient(host='localhost',port=27017) 5 6 d

python 中國裁決文書網爬蟲，完整版！！！

程式碼： import execjs import requests headers={ "Accept":"*/*", "Accept-Encoding":"gzip, deflate", "Accept-Language":"zh-CN,

決策樹——機器學習實戰完整版（python 3）

import matplotlib.pyplot as plt # boxstyle是文字框型別 fc是邊框粗細 sawtooth是鋸齒形 '''xy是終點座標 xytext是起點座標可能疑問：為什麼說是終點，但是卻是箭頭從這出發的？解答：arrowstyle="<-" 看到沒有，這是個反

python 爬蟲實戰4 爬取淘寶MM照片

寫真換行符 rip 多行 get sts tool -o true 本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片把每一個MM的寫真圖片按照文件夾保存到本地熟悉文件保存的過程 1.URL的格式在這裏我們用到的URL是 http:/

2017.08.10 Python爬蟲實戰之爬蟲攻防

ebs 1-1 間隔 ima pic setting fin 數據 del 1.創建一般的爬蟲：一般來說，小於100次訪問的爬蟲都無須為此擔心（1）以爬取美劇天堂為例，來源網頁：http://www.meijutt.com/new100.html，項目準備： scrapy

2017.08.10 Python爬蟲實戰之爬蟲攻防篇

5.1 inux ice 一個 1.0 ninja 多網站 alt bject 1.封鎖user-agent破解： user-agent是瀏覽器的身份標識，網站就是通過user-agent來確定瀏覽器類型的。有很多網站會拒絕不符合一定標準的user-agent請求網頁，如果

Python 爬蟲實戰（二）：使用 requests-html

分享 -html 調用交流 html 技術 python-re find 自己的 Python 爬蟲實戰（一）：使用 requests 和 BeautifulSoup，我們使用了 requests 做網絡請求，拿到網頁數據再用 BeautifulSoup 解析，就在前不久

Python 爬蟲實戰—盤搜搜

and 一個 ace 共享 urllib ring view 實戰 post 近期公司給了個任務：根據關鍵搜索百度網盤共享文件並下載。琢磨了幾天寫下了一段簡單的demo代碼，後期優化沒有處理。主要的思路：（1）根據關鍵字爬取盤搜搜的相關信息　　　　　　（2）解析並獲取

路飛學院-Python爬蟲實戰密訓班-第1章

bsp enc fin 以及 sign 模塊 nco comm soc 學習筆記：通過本章的學習，學習到了requests和BeautifulSoup模塊的安裝及使用方法。以及爬取給類網站的方法和知識點。 1、requests和Be

路飛學城-Python爬蟲實戰密訓-第1章

hidden 正則 lec color cookie pass __name__ 課程 type 正式的開始學習爬蟲知識，Python是一門接觸就會愛上的語言。路飛的課真的很棒，課程講解不是告訴你結論，而是在告訴你思考的方法和過程。第一章，學習了如何爬取汽車之家以及抽屜登

路飛學城—python爬蟲實戰密訓-—第1章

param 新聞之前 code col 程序 find ... 定義一.本節學習體會，心得：因為之前只是看了Python基礎的內容，以為爬蟲的內容自己會看不懂，但是視頻裏的老師講得很好，生動易懂。學習編程，就要親自練習，看視頻覺得懂了，自己親自做起來，就有了一點阻

路飛學成-Python爬蟲實戰密訓-第1章

https -- style odin 因此一個 div 標簽 htm 1，本節學習體會、心得：　　經過幾個月的努力學完了django。因此才選擇了這個爬蟲課程。經過第一章的學習，再次體會到了python的強大。之前一直為正則發愁，每次都要修改好幾次，才能匹配到。嚴重

路飛學城—python爬蟲實戰密訓-—第1章（作業）

找不到 sla 進行 lse sig -a 後來 spa fin 一：學習心得，體會感覺跟著視頻做的汽車之家，和抽屜網站登錄的爬蟲沒有那麽難。但做github登錄並獲取信息的，就覺得不太容易了，登錄操作挺簡單，和抽屜例子差不多，但獲取個人信息部分就感覺有點麻煩了，主要

路飛學成-Python爬蟲實戰密訓-第3章

請求 ref 流處理自己 ems 需要難點 crawl html 1，本節學習體會、心得：　　本章的內容非常多，scrapy框架的使用。對於學過django的人來說。可能要更好理解一些把。個人感覺還是挺簡單的。所有的知識點一聽就懂，唯一不好的就是時間太緊迫了，不的不

python選課系統完整版

都沒有自己的 data inpu new one image __file__ imp 一、需求角色:學校、學員、課程、講師要求:1. 創建北京、上海 2 所學校2. 創建linux , python , go 3個課程， linux\py 在北京開， go 在上海開

python爬蟲實戰：利用scrapy，短短50行代碼下載整站短視頻

start mongodb efi 本地 rtp 公司 loader 右鍵 more 近日，有朋友向我求助一件小事兒，他在一個短視頻app上看到一個好玩兒的段子，想下載下來，可死活找不到下載的方法。這忙我得幫，少不得就抓包分析了一下這個app，找到了視頻的下載鏈接，幫他解決

【Python爬蟲實戰專案一】爬取大眾點評團購詳情及團購評論

1 專案簡介從大眾點評網收集北京市所有美髮、健身類目的團購詳情以及團購評論,儲存為本地txt檔案。技術：Requests+BeautifulSoup 以美髮為例：http://t.dianping.com/list/beijing?q=美髮爬取內容包括：【團購詳情】團購名稱、原

Python爬蟲實戰：股票資料定向爬蟲

功能簡介目標：獲取上交所和深交所所有股票的名稱和交易資訊。輸出：儲存到檔案中。技術路線： requests—bs4–re 語言：python3.5 說明網站選擇原則：股票資訊靜態存在於html頁面中，非js程式碼生成，沒有Robbts

Python爬蟲實戰專案1 | 基礎爬蟲的實現（爬取100條百度百科詞條）

【基礎爬蟲篇】本篇講解一個比較簡單的Python爬蟲。這個爬蟲雖然簡單，但五臟俱全，大爬蟲有的模組這個基礎爬蟲都有，只不過大爬蟲做的更全面、多樣。 1.實現的功能：這個爬蟲實現的功能為爬取百度百科中的詞條資訊。爬取的結果見6。 2.背景知識：(1).Python語法；(2).Be

Python爬蟲實戰完整版

mongodb操作

MongoCache

匯入類庫

建立MongoCache類

爬取例項

相關推薦