Python練習【利用線程池爬取電影網站信息】

阿新 • • 發佈：2019-02-11

blog name insert page 處理 RoCE 獲取信息 mat etime

功能實現

爬取貓眼電影TOP100(http://maoyan.com/board/4?offset=90)
    1). 爬取內容: 電影名稱，主演， 上映時間，圖片url地址保存到文件中;
    2). 文件名為topMovie.csv;
    3). 記錄方式:  電影名稱:主演:上映時間:圖片url地址:評分;
    4). 並爬取的信息保存在數據庫中;
    5). 使用多線程/線城池實現;

編程思路

1.利用多線程分配任務
2.編寫單線程的任務實現功能
    (1)獲取指定url頁面信息。
    (2)從指定信息中匹配所需的信息。
    (3)將獲取到的信息分別保存至文件並寫入數據庫中。

1.利用多線程分配任務

from multiprocessing.pool import ThreadPool
def main():
    # 需要訪問10個分頁，生成對應的urls列表
    urls = [getPageInfo(‘https://maoyan.com/board/4?offset=%s‘ % i)for i in range(0,91,10)]
    pool = ThreadPool(10)   # 創建線程池對象，上限為10個
    pool.map(getInfoInPage,urls) # 獲取信息並保存至文件
    pool.close() # 關閉線程池
    pool.join() # 等待子線程結束

2.單線程任務實現

獲取頁面信息

# 獲取頁面信息
def getPageInfo(url):
    pageObj = urlopen(url)
    pageInfo = pageObj.read().decode(‘utf-8‘)
    return pageInfo

保存頁面信息到文件moviePage

page = 0 # 定義全局變量便於分頁存儲
def savePageInfo(pageInfo):
    global page
    page += 1
    with open(‘doc/moviePage%s‘%(page),‘w‘,encoding=‘utf-8‘)as f:
        f.write(pageInfo)
    return pageInfo

建立數據庫連接

def connetion():
    return pymysql.connect(
        host=‘localhost‘,
        user=‘root‘,
        password=‘mysql‘,
        database=‘topMovie‘,
        charset=‘utf8‘,
        autocommit=True
    )

從單個頁面代碼中獲取所需數據

def getInfoInPage(page1):
    # 將獲取的html源碼加工為美味湯（便於獲取對應的信息）
    soup = BeautifulSoup(page1, ‘html.parser‘)
        # 遍歷單個頁面中 class 為 content 的div標簽
    for page in soup.find_all(‘div‘, {‘class‘: "content"}):
            # 遍歷content節點中的dd標簽
        for movie in page.find_all(‘dd‘):
            # 將soup節點轉化成字符串
            movieInfo = str(movie)
            # 篩選出需要的信息
            name = movie.find(‘p‘, {‘class‘: "name"}).text # 獲取電影名稱
            star = re.findall(r‘主演：(.*?)\s‘, movieInfo)[0] # 獲取主演
            releaseTime = re.findall(r‘上映時間：(.*?)<‘, movieInfo)[0] # 獲取上映時間
            imgUrl = re.findall(r‘"(http.*?)"‘, movieInfo)[0] # 獲取宣傳圖片地址
            score = movie.find(‘p‘, {‘class‘: "score"}).text # 獲取評分
            # 電影名稱: 主演:上映時間: 圖片url地址:評分;
            oneMovieInfo = ‘\n{0}:{1}:{2}:{3}:{4}‘.format(name, star, releaseTime, imgUrl, score)
            # 寫入文件
            with open(‘doc/topMovie.csv‘, ‘a+‘, encoding=‘utf-8‘)as f:
                f.write(oneMovieInfo)
            # 單個電影信息存入數據庫的sql語句
            insertSql = ‘insert into topmovie(電影名稱,主演,上映時間,圖片地址,評分) value("{0}","{1}","{2}","{3}","{4}")‘.format(name, star, releaseTime, imgUrl, score)
            lock.acquire() # 加上線程鎖，防止多線程公用連接出現問題
            cur.execute(insertSql) # 執行插入語句
            lock.release() # 解鎖

多線程公用數據庫的安全問題

多線程公用數據庫如果不進行安全處理，有時會因為

數據來不及回滾而其他線程進行數據操作，從而導致存儲出現問題

可以通過一下幾種方式調整：

1.讓每個線程擁有自己的連接。

2.利用線程鎖來保證單次操作的完整性。

這裏采用第二種方式在屬性插入語句前後進行加鎖和解鎖操作

            lock.acquire() # 加上線程鎖，防止多線程公用連接出現問題
            cur.execute(insertSql) # 執行插入語句
            lock.release() # 解鎖

修改後的主函數

def main():
    with open(‘doc/topMovie.csv‘,‘w‘,encoding=‘utf-8‘)as f:
            f.write(‘電影名稱: 主演:上映時間: 圖片url地址:評分;‘)
    # 創建連接和遊標
    global cur
    global lock
    conn = connetion()
    cur = conn.cursor()
    lock = threading.Lock()
    # 刪除並創建一個新表(刷新每次寫入的數據)
    dropSql = ‘drop table topMovie;‘
    cur.execute(dropSql)
    createSql = ‘create table topMovie(電影名稱 varchar(100),主演 varchar(100),上映時間 varchar(100),圖片地址 varchar(100),評分 varchar(100))default charset=utf8‘
    cur.execute(createSql)
    # 生成分頁的urls
    urls = [getPageInfo(‘https://maoyan.com/board/4?offset=%s‘ % i)for i in range(0,91,10)]
    # 實現多線程
    pool = ThreadPool(10)
    pool.map(getInfoInPage,urls) # 獲取信息並保存至文件
    # 關閉線程池並等待子線程結束
    pool.close()
    pool.join()
    # 關閉遊標和連接
    cur.close()
    conn.close()

完整代碼

import re
import threading
import time
from multiprocessing.pool import ThreadPool
import pymysql
from bs4 import BeautifulSoup
from urllib.request import urlopen
# 獲取頁面信息
def getPageInfo(url):
    pageObj = urlopen(url)
    pageInfo = pageObj.read().decode(‘utf-8‘)
    return pageInfo
page = 0
# 保存頁面信息到文件moviePage
def savePageInfo(pageInfo):
    global page
    page += 1
    with open(‘doc/moviePage%s‘%(page),‘w‘,encoding=‘utf-8‘)as f:
        f.write(pageInfo)
    return pageInfo

# 計時器
def timeCounter(fun):
    def wrapper(*args,**kwargs):
        startTime = time.time()
        res = fun(*args,**kwargs)
        endTime = time.time()
        print(fun.__name__+‘使用時間為%.2f‘%(endTime-startTime))
        return res
    return wrapper

# 建立數據庫連接
def connetion():
    return pymysql.connect(
        host=‘localhost‘,
        user=‘root‘,
        password=‘mysql‘,
        database=‘topMovie‘,
        charset=‘utf8‘,
        autocommit=True
    )

# 從單頁源碼中獲取所需要的信息,並分別存至數據庫和文件參數為頁面源碼（str）
def getInfoInPage(page1):
    soup = BeautifulSoup(page1, ‘html.parser‘)
    for page in soup.find_all(‘div‘, {‘class‘: "content"}):
        for movie in page.find_all(‘dd‘):
            # 將soup節點轉化成字符串
            movieInfo = str(movie)
            # 篩選出需要的信息
            name = movie.find(‘p‘, {‘class‘: "name"}).text
            star = re.findall(r‘主演：(.*?)\s‘, movieInfo)[0]
            releaseTime = re.findall(r‘上映時間：(.*?)<‘, movieInfo)[0]
            imgUrl = re.findall(r‘"(http.*?)"‘, movieInfo)[0]
            score = movie.find(‘p‘, {‘class‘: "score"}).text
            # 電影名稱: 主演:上映時間: 圖片url地址:評分;
            oneMovieInfo = ‘\n{0}:{1}:{2}:{3}:{4}‘.format(name, star, releaseTime, imgUrl, score)
            # 寫入文件
            with open(‘doc/topMovie.csv‘, ‘a+‘, encoding=‘utf-8‘)as f:
                f.write(oneMovieInfo)
            # 存入數據庫
            insertSql = ‘insert into topmovie(電影名稱,主演,上映時間,圖片地址,評分) value("{0}","{1}","{2}","{3}","{4}")‘.format(name, star, releaseTime, imgUrl, score)
            lock.acquire()
            cur.execute(insertSql)
            lock.release()
            print(oneMovieInfo)

@timeCounter
def main():
    with open(‘doc/topMovie.csv‘,‘w‘,encoding=‘utf-8‘)as f:
        f.write(‘電影名稱: 主演:上映時間: 圖片url地址:評分;‘)
    # 創建連接和遊標
    conn = connetion()
    global cur
    cur = conn.cursor()
    global lock
    lock = threading.Lock()
    # 創建一個新表
    dropSql = ‘drop table topMovie;‘
    cur.execute(dropSql)
    createSql = ‘create table topMovie(電影名稱 varchar(100),主演 varchar(100),上映時間 varchar(100),圖片地址 varchar(100),評分 varchar(100))default charset=utf8‘
    cur.execute(createSql)
    urls = [getPageInfo(‘https://maoyan.com/board/4?offset=%s‘ % i)for i in range(0,91,10)]
    pool = ThreadPool(10)
    # pool.map(savePageInfo,urls)
    pool.map(getInfoInPage,urls) # 獲取信息並保存至文件
    pool.close()
    pool.join()
    cur.close()
    conn.close()

顯示結果

數據庫

技術分享圖片

文件

技術分享圖片

Python練習【利用線程池爬取電影網站信息】

blog name insert page 處理 RoCE 獲取信息 mat etime 功能實現爬取貓眼電影TOP100(http://maoyan.com/board/4?offset=90) 1). 爬取內容: 電影名稱，主演，上映時間，圖片url地址保存

Python練習【爬取銀行網站信息】

pre == sts color mysql 遊標 pattern 保存 ride 功能實現爬取所有銀行的銀行名稱和官網地址(如果沒有官網就忽略)，並寫入數據庫；銀行鏈接: http://www.cbrc.gov.cn/chinese/jrjg/index.html

爬蟲系列3：Requests+Xpath 爬取租房網站信息並保存本地

imp 情侶 http \n 頻率 lazy desktop 火車 mode 數據保存本地參考前文爬蟲系列1：https://www.cnblogs.com/yizhiamumu/p/9451093.html 參考前文爬蟲系列2：https://www.cnblo

使用requests、re、BeautifulSoup、線程池爬取攜程酒店信息並保存到Excel中

備案 info imp lis sub host write count star import requests import json import re import csv import threadpool import time, random

python 爬取微博信息

微博爬蟲 python cookie 新浪微博爬取的話需要設計到登錄，這裏我沒有模擬登錄，而是使用cookie進行爬取。獲取cookie：代碼：#-*-coding:utf8-*- from bs4 import BeautifulSoup import requests impor

Python爬蟲小實踐：尋找失蹤人口，爬取失蹤兒童信息並寫成csv文件，方便存入數據庫

python tor enc mini 執行 gem view 獲取但是前兩天有人私信我，讓我爬這個網站，http://bbs.baobeihuijia.com/forum-191-1.html上的失蹤兒童信息，準備根據失蹤兒童的失蹤時的地理位置來更好的尋找失蹤兒童，這

python爬取北京租房信息

python 爬蟲租房助手發現官網的篩選方式不能滿足自己的需求，所以爬取相關網站制作出現在的東西來效果預覽-> <a href="https://virzc.com/2018/05/17/beijingrent/#more" target="_blan

Python爬蟲實戰專案2 | 動態網站的抓取（爬取電影網站的資訊）

1.什麼是動態網站？動態網站和靜態網站的區別在於，網頁中常常包含JS，CSS等動態效果的內容或者檔案，這些內容也是網頁的有機整體。但對於瀏覽器來說，它是如何處理這些額外的檔案的呢？首先瀏覽器先下載html檔案，然後根據需要，下載JS等額外檔案，它會自動去下載它們，如果我們要爬取這些網頁中的動態

Python scrapy實踐應用，爬取電影網站的影片資源並存入資料庫

知識點 scrapy 分頁爬取。 scrapy提取頁面元素之xpath表示式語法 scrapy 配合pymysql儲存爬取到的資料到mysql資料庫 scrapy.Request（……）向回撥方法傳遞額外資料資料庫儲存前先

python爬取主播信息

site 評論 ror sco 信息 __init__ ima href 成功之前學過python的爬蟲技術，現在回顧一下看看還會不會，果然有坑。先爬取了微博評論網友的id代碼如下 import requestsurl = ‘https://m.weibo.cn/ap

初學python3-爬取cnnvd漏洞信息

zip 技術 [0 string linux; sdc 開始時間還需要 2.x 　　因為工作需要cnnvd漏洞信息，以前用著集客搜、八爪魚之類的工具，但對其效果和速度都不滿意。最近開始接觸學習爬蟲，作為初學者，還需要慢慢完善。先記錄下第一個爬蟲。還想著在多進程和IP代理方

爬取12306車次信息

https pen __main__ 很多 ref ont ticket ica win #!/usr/bin/python2.7 # -*- coding:utf-8 -*- # 2017-10-19 """ 12306 搶票網頁分析 -

Java爬蟲爬取京東商品信息

1.2 image 商品 void code 更改 size pri name 以下內容轉載於《https://www.cnblogs.com/zhuangbiing/p/9194994.html》，在此僅供學習借鑒只用。 Maven地址 <dependency>

python3.5爬取電影網站電影下載連結

本文使用簡單的面向過程的程式設計思想，更容易理解。說明：本文使用了簡單的模組：requests和re模組，當然也可以使用urlib模組。開發環境是：Python3.5開發工具：VsCode程式碼如下：i

爬取起點小說信息

main 請求 .text web ttl 遍歷 import values for 沒有vip所以並沒爬取小說內容，這裏主要是解決起點小說字數的反反爬 import random import requests import re import csv from font

使用線程池多線程爬取鏈接，檢驗鏈接正確性

需求完成 cep gen -- 開始獲取url tool 可能我們網站大多數鏈接都是活鏈接都是運營配置的，而有的時候運營會將鏈接配置錯誤使訪問出錯，有時也會因為程序bug造成訪問出錯，因此對主站寫了個監控腳本，使用python爬取主站設置的鏈接並訪問，統計訪

使用線程池優化多線程編程

線程回收連接 eem popu sso 實例技術創建時間 Java中的對象是使用new操作符創建的，假設創建大量短生命周期的對象。這樣的方式性能很低下。為了解決問題，而發明了池技術。對於數據庫連接有連接池，對於線程則有線程池。本實例介紹兩種方式創建10

不用線程池，使用Semaphore信號量同樣也可以控制Thread多線程的並行數量。

for release map new dst sta 信號量 code tar static Semaphore sem = new Semaphore(100, 100); for (int i = 0; i <1000; i++)

在使用線程池時應特別註意對ThreadLocal的使用

log 並且重新 mac hive ava arch huang 線程池使用ThreadLocal並且有線程池時要特別註意，ThreadLocal是以線程為key的，而線程池裏面的線程是會被重新利用的，所以如果有使用線程池並且使用ThreadLocal來保存狀態信息時要

使用線程池進行爬蟲

線程 detail pip3 dsw ont form exce done pat import requests #pip3 install requests import re import hashlib import time from concurrent.fu

Python練習【利用線程池爬取電影網站信息】

編程思路

1.利用多線程分配任務

2.單線程任務實現

獲取頁面信息

保存頁面信息到文件moviePage

建立數據庫連接

從單個頁面代碼中獲取所需數據

多線程公用數據庫的安全問題

修改後的主函數

完整代碼

顯示結果

數據庫

文件

相關推薦