爬蟲學習之14：多程序爬取簡書社會熱點資料儲存到mongodb

阿新 • • 發佈：2019-02-11

本程式碼爬取簡書社會熱點欄目10000頁的資料，使用多程序方式爬取，從簡書網頁可以看出，網頁使用了非同步載入，頁碼只能從response中推測出來，從而構造url，直接上程式碼：

import requests
from lxml import etree
import pymongo
from multiprocessing import Pool
import time

headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.112 Safari/537.36'
}

client = pymongo.MongoClient('localhost',27017)
mydb = client['mydb']
jianshu = mydb['jianshu_2']
num = 0
def get_jianshu_info(url):
    global num
    html = requests.get(url,headers=headers)
    selector = etree.HTML(html.text)
    infos = selector.xpath('//ul[@class="note-list"]/li')
    for info in infos:
        try:
            author = info.xpath('div/div/a[1]/text()')[0]
            title = info.xpath('div/a/text()')[0]
            abstract = info.xpath('div/p/text()')[0]
            comment = info.xpath('div/div/a[2]/text()')[1].strip()
            like = info.xpath('div/div/span/text()')[0].strip()
            data = {
                'author':author,
                'title':title,
                'abstract':abstract,
                'comment':comment,
                'like':like
            }
            jianshu.insert_one(data)
            num = num +1
            print("已爬取第{}條資訊".format(str(num)))
        except IndexError:
            pass

if __name__=='__main__':
    urls = ['https://www.jianshu.com/c/20f7f4031550?utm_medium=index-collections&utm_source=desktop&page={}'.format(str(i)) for i in range(1,10000)]
    pool = Pool(processes=8)
    start_time = time.time()
    pool.map(get_jianshu_info,urls)
    end_time = time.time()
    print("八程序爬蟲耗費時間：", end_time - start_time)

可以看到爬取的資訊已經儲存到了mongodb中：

爬蟲學習之14：多程序爬取簡書社會熱點資料儲存到mongodb

本程式碼爬取簡書社會熱點欄目10000頁的資料，使用多程序方式爬取，從簡書網頁可以看出，網頁使用了非同步載入，頁碼只能從response中推測出來，從而構造url，直接上程式碼：import re

Python爬蟲學習之正則表達式爬取個人博客

9.png turn () htm parent ast string 則表達式 urn 實例需求：運用python語言爬取http://www.eastmountyxz.com/個人博客的基本信息，包括網頁標題，網頁所有圖片的url，網頁文章的url、標題以及摘要。實

Python爬蟲系列之四：利用Python爬取PyODPS頁面並整合成PDF文件

文章架構開發場景在日常開發過程中，經常需要參考一些文件。對於線上文件，往往由於網速等原因，用起來總不是那麼（ma）順（fan）心。開發工具 Anaconda Python 2 實現方案基於 bs4 模組標籤解析爬取

Python爬蟲學習_多程序爬取58同城

思路：有多個頻道（類別），每個頻道下有多個商品連結，每個商品都有詳情頁。先將頻道連結中的多個商品連結爬下來放入資料庫中，再從資料庫中取出來每一個商品詳情頁連結，進行詳情頁中的資訊爬取首先是channel_extact.py,爬取不同頻道的連結 from bs4 impo

爬蟲學習之17：爬取拉勾網網招聘資訊（非同步載入+Cookie模擬登陸）

很多網站需要通過提交表單來進行登陸或相應的操作，可以用requests庫的POST方法，通過觀測表單原始碼和逆向工程來填寫表單獲取網頁資訊。本程式碼以獲取拉勾網Python相關招聘職位為例作為練習。開啟拉鉤網，F12進入瀏覽器開發者工具，可以發現網站使用了A

爬蟲學習之11：爬取豆瓣電影TOP250並存入資料庫

本次實驗主要測試使用PyMySQL庫寫資料進MySQL，爬取資料使用XPATH和正則表示式，在很多場合可以用XPATH提取資料，但有些資料項在網頁中沒有明顯特徵，用正則表示式反而反而更輕鬆獲取資料。直接上程式碼：from lxml import etree impo

爬蟲學習之18：使用selenium和chrome-headerless爬取淘寶網商品資訊（非同步載入網頁）

登入淘寶網，使用F12鍵觀察網頁結構，會發現淘寶網也是非同步載入網站。有時候通過逆向工程區爬取這類網站也不容易。這裡使用selenium和chrome-headerless來爬取。網上有結合selenium和PlantomJS來爬取的，但是最新版的Seleniu

六天搞懂“深度學習”之三：多層神經網路

為了克服單層神經網路只能解決線性可分問題的侷限性，神經網路進化為多層結構。然而，花費了將近30年的時間，才將隱藏層新增到單層神經網路中。很難理解為什麼花費了這麼長時間，其中的主要問題是學習規則。單層神經網路中的增量規則對於多層神經網路的訓練是無效的，這是因為訓練中在隱藏層產生的誤差並沒

Python學習筆記24：多程序

#多程序——程序間通訊（IPC：InterProcessCommunication）——程序之間無任何共享狀態 import multiprocessingfrom time import sleep, ctimeclass ClockProcess(multiprocessing.Process):

python爬蟲-使用多程序爬取美圖-人工智慧語言（高效爬蟲）

import os from multiprocessing.pool import Pool from urllib.parse import urlencode from hashlib import md5 import requests def loaDpage(fullurl):

Java學習之道：多執行緒——讓小球動起來(一)

在講執行緒之前，我們先來談談程序。在我接觸電腦的一段時間後，開始發現當開啟工作管理員後，會有一個程序的顯示，下面的映像名稱裡有很多的可執行檔案。這些可執行檔案有的是系統預設的，有的是我們開啟的，他們都會佔用一定記憶體。知道了程序，那麼什麼是執行緒呢？執行緒就是執行中程式

Python爬蟲系列之百度貼吧爬取

今天給的一個爬蟲小事例，貼吧段子爬取這樣一個小功能，資料呢僅僅娛樂，沒有惡意想法若有侵權，請私信刪除此次用到的一個解析庫Beautiful Soup，更輕量簡單地對資料進行解析，已獲得目標資料貼吧做的還是比較好，有一定的反爬機制，所以我們也應該有一定的應對措施

Python爬蟲實戰之Requests+正則表示式爬取貓眼電影Top100

import requests from requests.exceptions import RequestException import re import json # from multiprocessing import Pool # 測試了下這裡需要自己新增頭部否則得不到網頁 hea

python 多程序爬取妹子圖

程式碼需要自行修改的有：圖片儲存位置、程序池的容量（建議cpu幾個核就設定為少，我的是4核）可以在主函式簡單修改 ''' author:James-J time:2018/09/20 version: v2

【Python3 爬蟲學習筆記】動態渲染頁面爬取 2

動作鏈在互動操作中，一些互動動作都是針對某個節點執行的。比如，對於輸入框，我們就呼叫它的輸入文字和清空文字方法；對於按鈕，就呼叫它的點選方法。其實，還有另外一些操作，它們沒有特定的執行物件，比如滑鼠拖曳、鍵盤按鍵等，這些動作用另一種方式來執行，那就是動作鏈。

【Python3 爬蟲學習筆記】動態渲染頁面爬取 4 —— 使用Selenium爬取淘寶商品

並不是所有頁面都可以通過分析Ajax來完成抓取。比如，淘寶，它的整個頁面資料確實也是通過Ajax獲取的，但是這些Ajax介面引數比較複雜，可能會包含加密祕鑰等，所以如果想自己構造Ajax引數，還是比較困難的。對於這種頁面，最方便快捷的抓取方法就是通過Seleni

多程序爬取補天的廠商

最近工作上挺多事的，心有點亂，感覺是時候靜下心來了。之前就想找個爬取補天的廠商，又碰巧在一個論壇看到一篇文章，然後自己就改改了，算二次原創吧，自己加了多程序並且自動獲取最終頁數。 #coding=ut

Python網路爬蟲（四）：selenium+chrome爬取美女圖片

說明： Python版本：Python IDE：PyCharm chrome版本：我的版本63 chromedriver.exe：因為是模擬瀏覽器訪問，chrome需要再下載一個驅動，具體方式在我的上一篇部落格，內容很詳細。傳送門：Python網路爬蟲（

【Python3 爬蟲學習筆記】動態渲染頁面爬取 3 —— Selenium的使用 3

切換Frame 網頁中有一種節點叫作iframe，也就是子Frame，相當於頁面的子頁面，它的結構和外部頁面的結構完全一致。Selenium開啟頁面後，它預設是在父級Frame裡面操作，而此時如果頁面中海油子Frame，它是不能獲取到子Frame裡面的額節點的。

Python爬蟲模擬登入(四)：BeautifulSoup，爬取資料

登陸成功後爬取我們想要的資料；用到的庫：BeautifulSoupF12檢視網頁結構；程式碼，依次向下找節點；def getInfo(html): soup = BeautifulSo

爬蟲學習之14：多程序爬取簡書社會熱點資料儲存到mongodb

相關推薦