豆瓣小組爬蟲

阿新 • • 發佈：2017-10-28

.html 不存在 lin rom 是否 inpu clas main safari

豆瓣小組上有很多小組裏面的圖片非常的好

所以我們給爬下來

if __name__=="__main__":
    url = raw_input(‘請輸入小組字符串代碼如:haixiuzu‘)
    beginPage = int(raw_input(‘請輸入起始頁碼‘))
    endPage= int(raw_input(‘請輸入結束頁碼‘))
    #構建url
    url = ‘https://www.douban.com/group/‘+url+‘/discussion?start=‘
    #獲取所有url
    getPageLink(url,beginPage,endPage)

先構建主頁url

接著用xpath獲取需要爬的帖子鏈接

def getPageLink(url,begin,end):
    """
    獲取小組主頁全部帖子鏈接
    :param url:
    :return:
    """
    #構建所有URL
    urlList = []
    #構建所有需要獲取的鏈接
    for page in range(begin,end+1):
        pn = (page - 1) * 25
        urlList.append(str(url)+str(pn))
    #構建head
    headers = {‘ 
User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36‘}
    #存放所有帖子鏈接
    linkList = []
    for i in urlList:
        Request =  urllib2.Request(i,headers=headers)
        html = urllib2.urlopen(Request).read()
        content=etree.HTML(html)
         
#用xpath獲取鏈接
        tempList=content.xpath(‘//td[@class="title"]/a/@href‘)
        for t in tempList:
            linkList.append(t)
    getImgLink(linkList)

接著獲取所有圖片的鏈接

def getImgLink(url):
    """
    獲取帖子裏所有圖片的鏈接
    :param url:
    :return:
    """
    headers = {
        ‘Connection‘: ‘keep-alive‘,
        ‘Upgrade-Insecure-Requests‘: ‘1‘,
        ‘Referer‘: ‘https://www.douban.com/group/haixiuzu/discussion?start=0‘,
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36‘
    }
    imgUrl = []
    for t in url:
        request = urllib2.Request(t,headers=headers)
        html = urllib2.urlopen(request).read()
        content = etree.HTML(html)
        #用xpath獲取所有圖片鏈接
        tempList = content.xpath(‘//div[@class="topic-content"]/div[@class="topic-figure cc"]/img/@src‘)
        for t in tempList:
            imgUrl.append(t)
    savaImg(imgUrl)

然後當然是保存所有圖片了

def savaImg(imgList):
    """
    保存圖片到本地
    :param imgList:
    :return:
    """
    headers = {
        ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100 Safari/537.36‘}
    #判斷目錄是否存在
    isExists = os.path.exists(‘img‘)
    #如果不存在創建
    if not isExists:
        os.makedirs(‘img‘)
    for t in imgList:
        request =  urllib2.Request(t,headers=headers)
        img = urllib2.urlopen(request).read()
        fileName = t[-10:]
        #寫圖片到指定目錄
        with open(‘img\\‘+fileName,"wb") as writ:
            writ.write(img)

以上僅供學習交流使用

豆瓣小組爬蟲

.html 不存在 lin rom 是否 inpu clas main safari 豆瓣小組上有很多小組裏面的圖片非常的好所以我們給爬下來 if __name__=="__main__": url = raw_input(‘請輸入小組字符串代碼如:haixiu

python爬取豆瓣小組700+話題加回復啦啦啦python open file with a variable name

技術分享 ash 寫入 blog ima ron tar 回復 -128 需求：爬取豆瓣小組所有話題（話題title，內容，作者，發布時間），及回復（最佳回復，普通回復，回復_回復，翻頁回復，0回復）解決：1. 先爬取小組下，所有的主題鏈接，通過定位nextp

基於python2的豆瓣Top250爬蟲練習

range turn 一個 open num dal python2 .com python 1 # coding=utf-8 2 import urllib 3 import re 4 #獲取源碼 5 def gethtml(pg): 6 url =

豆瓣讀書爬蟲（requests + re）

pandas 就是正則過程 data tle ppa 觀察嘗試　　前面整理了一些爬蟲的內容，今天寫一個小小的栗子，內容不深，大佬請忽略。內容包括對豆瓣讀書網站中的書籍的基本信息進行爬取，並整理，便於我們快速了解每本書的中心。一、爬取信息　　每當爬取某個網

豆瓣電影爬蟲+分析

豆瓣電影爬蟲和分析引言最近做了一個豆瓣電影的爬蟲並且進行了簡單的資料分析，我會在部落格裡面記錄下來。其實之前也做過一些爬蟲，但一直沒有寫部落格的習慣，太懶了。所以決定以後寫得一些小爬蟲或者什麼demo都記錄下來。 1.程式環境本文使用Python 3，用到了re，request

我的第一個豆瓣短評爬蟲

豆瓣上有著大量的影視劇的評論，所以說，要是想要實現對廣大人民群眾的觀點的分析，對一部片子的理解，綜合來看大家的評論是很有必要的。而短評作為短小精幹的快速評論入口，是值得一談的。所以先要實現對其的資料的爬取。目前來看，基本內容是可以爬取的。最大的問題在於速度。後續考慮準備運用多

我的豆瓣短評爬蟲的多執行緒改寫

對之前我的那個豆瓣的短評的爬蟲，進行了一下架構性的改動。儘可能實現了模組的分離。但是總是感覺不完美。暫時也沒心情折騰了。同時也添加了多執行緒的實現。具體過程見下。改動獨立出來的部分： MakeOpener MakeRes GetNum IO

豆瓣影評爬蟲

豆瓣影評爬蟲今天要爬取https://movie.douban.com/review/best/?start=0該網址的30條最受歡迎影評。我們可以看到影評比較長，需要展開才能完整顯示。但是在網頁原始碼中是沒有顯示完整影評的。所以我們考慮到這部分應該是非同步載入的方式顯示。所以開啟

爬蟲實戰—豆瓣圖書爬蟲

前情概要感覺以前寫爬蟲有點依賴github上的程式碼，和網上的教程，這次打算從頭開始寫一個爬蟲，不用太難但是一定要都是自己寫的，所以打算拿豆瓣開始練習。原始碼 https://github.com/Kratosssss/yt_learn

Golang語言快速上手到綜合實戰(Go語言、Beego框架、高併發聊天室、豆瓣電影爬蟲) 下載

Go是Google開發的一種編譯型，可並行化，並具有垃圾回收功能的程式語言。2015，Go迎來了全迸發的一年。時隔一年，回頭再看，Go已躋身主流程式語言行列。在國內，Go的熱度更是不凡。七牛雲、百度、滴滴等一線網際網路公司正在逐步將Go應用到自身的專案之中。講師本人之前在滴滴從事後臺開發時，

用Scrapy抓取豆瓣小組資料（一）

最近在coursera.org（線上學習平臺）上學SNA（Social Network Analysis，社交網路分析）。有興趣的同學可以去看一眼：https://class.coursera.org/sna-002/，課程講的很有意思，等回頭我上完全部課程打算再寫下

初試python爬蟲之：豆瓣電影爬蟲

因為課程需要，前兩天花了一天學習python並寫了一個豆瓣電影的爬蟲。課程要求是這樣的：爬取豆瓣網站上，電影排名在前50名的電影，包括電影名字，電影評分，電影簡介，爬下來的電影資料進行分類，按照不同分類儲存在資料庫/Excel中的不同表中。python的環境安裝配置，以及語法

Python專案實戰:復仇者聯盟4豆瓣影評爬蟲

前言相信大家在24號那晚都看了復仇者聯盟4的首映場吧,當時各大電影院真的是人滿為患,很多人都是漫威迷,現在基本上很多人都看完了

Python模擬登入豆瓣網，並爬取小組信息

count alias pass spa .post windows chrome apr ror import requests from bs4 import BeautifulSoup from PIL import Image headers = { ‘

簡易版爬蟲（豆瓣）

douban spa http sta imp bsp ont color run import requestsimport redef get_douban(): res_str = requests.get("https://movie.douban.com/t

python爬蟲練習1:豆瓣電影TOP250

import ria fff python top font beautiful code pen 項目1:實現豆瓣電影TOP250標題爬取: 1 from urllib.request import urlopen 2 from bs4 import Beaut

Python urllib2爬蟲豆瓣小說名稱和評分

log color .com imp fin com open cor douban #-*- coding:utf-8 -*- import urllib2 import re url = ‘https://book.douban.com/tag/%E5%B0%8F%

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

工具新的翻頁需求使用 html 頁面應該一個首先要明白爬網頁實際上就是：找到包含我們需要的信息的網址（URL）列表通過 HTTP 協議把頁面下載回來從頁面的 HTML 中解析出需要的信息找到更多這個的 URL，回到 2 繼續其次還要明白：一個好的列表應該：包含

Forward團隊-爬蟲豆瓣top250項目-需求分析

利用進行程序 ref war 參考資料豆瓣api per 運用一、　　需求：1、爬取豆瓣電影top250. 　　　　　2、獲取電影名稱,排名,分數,簡介,導演,演員。　　　　　3、將爬取到的數據保存，以便隨時查看。　　　　　3、可以將獲取到的數據展示給用戶。

豆瓣小組爬蟲

相關推薦