豆瓣爬蟲中的一些注意事項

阿新 • • 發佈：2018-12-03

實現時所用的知識點

1.建立程序池（加快爬去）和程序池佇列（實現程序之間的通訊）來完成抓取

2.利用佇列（這裡用list代替）實現去重

去重有兩部分。一部分是在爬去前判斷要怕去的url是否在以爬取的url佇列裡面；另一部分時當不在以爬取的佇列中時，將其放入帶爬取的佇列時，判斷是否在待爬取的佇列中，再的話則丟棄。

3.使用佇列模擬廣度優先遍歷實現url的爬取

4.程序池是爬取url時用的，程序池佇列時用來程序之間通訊的，去重佇列是用來去重的

將帶爬取的url和程序池佇列（傳遞url）放入程序池中爬取,這樣的URL是同一組url

# -*- coding: utf-8 -*-
"""
Created on Tue May 29 10:33:56 2018

@author: Administrator
"""
from bs4 import BeautifulSoup
import re
import basicSpider
from multiprocessing import Pool,Manager

def get_html(url):
    """
    獲取一頁的網頁原始碼資訊
    """
    headers = [("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36")]
    #proxy = {"http":"182.129.243.84:9000"}
    html = basicSpider.downloadHtml(url, headers=headers)
    return html

def get_movie_all(html):
    """
    獲取當前頁面中所有的電影的列表資訊
    """
    soup = BeautifulSoup(html, "html.parser")
    movie_list = soup.find_all('div', class_='bd doulist-subject')
    #print(movie_list)
    return movie_list

def get_movie_one(movie):
    """
    獲取一部電影的精細資訊，最終拼成一個大的字串
    """
    result = ""
    soup = BeautifulSoup(str(movie),"html.parser")
    title = soup.find_all('div', class_="title")
    soup_title = BeautifulSoup(str(title[0]), "html.parser")
    for line in soup_title.stripped_strings:
        result += line
    
    try:
        score = soup.find_all('span', class_='rating_nums')
        score_ = BeautifulSoup(str(score[0]), "html.parser")
        for line in score_.stripped_strings:
            result += "|| 評分："
            result += line
    except:
         result += "|| 評分：5.0"
         
    abstract = soup.find_all('div', class_='abstract')
    abstract_info = BeautifulSoup(str(abstract[0]), "html.parser")
    for line in abstract_info.stripped_strings:
        result += "|| "
        result += line    
    
    result += '\n'
    #print(result)
    return result

def save_file(movieInfo, lock):
    """
    寫檔案的操作,這裡使用的追加的方式來寫檔案
    """
    with open("doubanMovie.txt","ab") as f:
        #lock.acquire()
        f.write(movieInfo.encode("utf-8"))
        #lock.release()

def CrawlMovieInfo(url, q, lock):
    """
    抓取電影一頁資料，並寫入檔案
    """
    html = get_html(url)
    movie_list = get_movie_all(html)
    for it in movie_list:
        save_file(get_movie_one(it), lock)
        
    q.put(url) #已完成的url


if __name__ == "__main__":
    # 建立程序池和程序池佇列來完成抓取
    pool = Pool()
    q = Manager().Queue()
    lock = Manager().Lock()
    
    url = "https://www.douban.com/doulist/3516235/?start=225&sort=seq&sub_type="    
    CrawlMovieInfo(url)
    
    html = get_html(url)
	#正則表示式注意引號的使用
    pattern = re.compile('(https://www.douban.com/doulist/3516235/\?start=.*)"')
    itemUrls = re.findall(pattern, html)
#    for i in itemUrls:
#        print(i)
        
    # 兩步去重操作
    crawl_queue = []    # 待爬佇列
    crawled_queue = []  # 已爬取佇列
    for item in itemUrls:
        if item not in crawled_queue: 
            # 第一步去重，確定這些url不在已爬佇列中
            crawl_queue.append(item)
    #第二步去重，對待爬佇列去重
    crawl_queue = list(set(crawl_queue))
    
    # 模擬廣度優先遍歷
    while crawl_queue: #去待爬佇列中取值，直到待爬佇列為空
        url = crawl_queue.pop(0)#取出待爬佇列中第一個值
        #CrawlMovieInfo(url)
        pool.apply_async(func=CrawlMovieInfo, args=(url,q,lock))
        # 把已經處理完的url放入已經爬取的佇列中
        urlCompeted = q.get()
        crawled_queue.append(urlCompeted)
    
    
    pool.close()
    pool.join()

豆瓣爬蟲中的一些注意事項

實現時所用的知識點 1.建立程序池（加快爬去）和程序池佇列（實現程序之間的通訊）來完成抓取 2.利用佇列（這裡用list代替）實現去重去重有兩部分。一部分是在爬去前判斷要怕去的url是否在以爬取的url佇列裡面；另一部分時當不在以爬取的佇列中時，將其放入帶爬取的佇列時，判斷是否在待爬取

MathType使用技巧——在Pages中使用的一些注意事項

MathType不僅能與Windows系統中的Office完美相容，也能與蘋果系統中的辦公軟體相容，大大方便廣大蘋果使用者。但是MathType在Pages中使用時有一些操作與Win系統是不一樣，需要使用者加留心。在表格中的公式： 1.Pages 4.3（iWork 09版）。如果

Eclipse中檢視Java原始碼的方法及一些注意事項

在Eclipse中我們可以通過同時按Ctrl鍵點選要檢視的類或方法，就可以檢視該類或方法的原始碼了。但是，這是需要有前提的，那就是，我們有原始碼，並且配置了Eclipse的正確的查詢路徑。我們可以通過下面的方法檢視及修改Eclipse中檢視原始碼的路徑。現在我們把

MyBatis Generator在maven專案中使用的一些注意事項

一段時間沒使用ssm框架，用mybatis generator時出現了幾個BUG，寫下來，希望大家都不用再遇到這些BUG啦~本文的環境如下：1.使用SSM框架的Maven工程；2.使用Eclipse的Mybatis Generator 1.36外掛；BUG 1: Cannot

mybatis中mapper的用法以及一些注意事項

這幾天在公司做專案，到了收尾的階段，但是發現自己在使用mybatis的時候給自己留下了很多的坑，於是乎花了兩天的時間來除錯和重新構思自己寫下的mapper.xml檔案，總算是有些收穫，

在SQLSERVER中建立檢視的一些注意事項

建立檢視 :create view tableName (列別名)可有可無 with Attribute as fullselect {} with [checkOption] eg. create view view_card_trwith encryption(進行檢視

WSAEventselect模型中的一些注意事項（尤其是event和事件的關聯與重置；FD_WRITE事件的作用）

1. 需要包含winsock2.h，連結ws2_32.llib 2. 把#include <winsock2.h>放到最前面至於原因，那是因為windows.h這個標頭檔案已經包含了winsock.h,winsock.h和winsock2.h貌似有衝突

vue基礎中的注意事項，以及一些學習心得

vue中你不知道的東西、以及注意事項 v-html 使用 v-html的時候該指令中的值會覆蓋繫結標籤中原有的值，且使用v-html的時候不要將他設定為給使用者提供內容的地方，因為v-html很容易被XSS攻擊 v-bind 使用v-bind繫結屬性值為布林值的屬性時，如果資料為truthy，則該布林值屬

Android中用命令列檢視內嵌資料庫SQLite3的一些注意事項

進入手機模擬器的shell環境　　　連線好手機模擬器後，通過Android Studio的Teminal終端直接進入shell環境　　　　　　　 adb shell //進入手機模擬器的shell環境 s

關於浮動的一些注意事項

關於浮動：　　巨集觀地講，我們的web頁面和photoshop等設計軟體有本質的區別：web頁面的製作，是個“流”，必須從上而下，像“織毛衣”。而設計軟體，想往哪裡畫個東西，都能畫。　　行內元素和塊級元素的區別：（非常重要）行內元素：與其他行內元素並排；不能設定寬、高。預設的寬度，

專案配置過程中的注意事項

所有人將防火牆永久性關閉，防止出現拒絕訪問情況 systemctl status firewalld 檢視狀態 systemctl stop firewalld 暫時關閉防火牆 systemctl disable firewalld 永久關閉當遇到maven依賴報錯且不下載的時候，在倉

搜尋引擎優化的一些注意事項

4、評價網站實用性有哪些原則網站速度搜尋結果中的點選率使用者停留時間、訪問時長使用者跳出率回頭客的數量註冊使用者和非註冊使用者的比例使用者訪問來源分佈 5、什麼是pr值 PR即PageRank，也就是網頁級別

darknet訓練yolov3時的一些注意事項

訓練需要用到的檔案： 1) .data檔案。該檔案包含一些配置資訊，具體為訓練的總類別數，訓練資料和驗證資料的路徑，類別名稱，模型存放路徑等。例如coco.data classes= 80 # 訓練總類別數

golang中range在slice和map遍歷中的注意事項

package main import ( "fmt" ) func main() { slice := []int{0, 1, 2, 3} myMap := make(map[int]*int) for _,v :=range slice{ if v==1 {

char陣列和char指標的使用區別和一些注意事項

const用法 const char* p;表示p是一個指向常量字元的指標 char* const p;表示p是一個指向字元的常量指標，p是不允許改變的另外要注意的是 const char* p等價於 char const *p 也就是說const描述char和*p是等價的

關於Visual Studio 2013 配置OpenCV 的一些注意事項和執行問題

1.在visual studio上配置opencv的依賴項和執行庫. 1.開啟Vs，檔案->新建->專案 2. visual c++ -> Win32控制檯應用程式->確定（劃線的內容可以根據自己習慣更改） 3.直接下一步 4.選中空專案這個選項，然

vuex中mutaions注意事項

mutaion 遵循 vue 的響應式規則當store的內容有所變化，監視狀態的vue元件會自動更新，例如： // store.js ... state: { username: '', } // userInfo.vue <template> <div&g

移動端網頁佈局中需要注意事項以及解決方法總結

移動端網頁佈局中需要注意事項以及解決方法總結，這份對我們在佈局移動端網頁的時候非常有用！ winphone系統a、input標籤被點選時產生的半透明灰色背景怎麼去掉 <meta name="msapplication-tap-highlight"&nbs

MYBATIS中if test判斷中的注意事項

mybatis中有這樣一個SQL判斷， <if test="status != null and status !='' "> and a.STATUS = #{status,jdbcType=SMALLINT} </if> status是一個Byte型

啟用SAP Fiori之前的一些注意事項

Prerequisites Checklist Before you can install and configure SAP Fiori apps, you must ensure that the prerequisite software is installed and R

豆瓣爬蟲中的一些注意事項

將帶爬取的url和程序池佇列（傳遞url）放入程序池中爬取,這樣的URL是同一組url

相關推薦