python爬取看雪論壇的所有主題帖的回覆訊息

阿新 • • 發佈：2018-11-27

最近因為實驗課題的需要，我們對看雪論壇的訊息回覆進行爬取，

https://bbs.pediy.com/（看雪論壇）

對於看雪論壇的訊息回覆檢視的一般順序為：

進入看雪論壇的主頁-----> 選擇檢視的主題-----> 選擇想要檢視的話題--------> 檢視該話題的所有回覆資訊

程式碼主要分三個模組，首先就是對所有的主題的的連結進行爬取

然後再對每個主題裡面的話題連結進行爬取，最後就是訪問話題的連結，爬取回復的訊息內容

from bs4 import BeautifulSoup
from urllib.request import urlopen
import random
import requests
import time
import thread6
import re


"""

2018-11-26

author:郭文博

"""
def get_url(url,headers):       #   首先是獲取到主頁面所有的主題連結網址

    Theme = {}


    """
        模擬瀏覽器來獲取網頁的html程式碼
        """


    timout = random.choice(range(80,100))

    request = requests.get(url,headers = headers)

    if(request.status_code!=200):

        print("獲取網址失敗")

    html = BeautifulSoup(request.text,"html.parser")

    theme = html.find_all("div",{"class":"card px-0"})

    for i in theme:

        themecontant = i.find_all("a")

        for j in themecontant:

            href = j['href']

            themeString = j.string

            if(themeString == None):

                continue

            themestring = themeString.strip()

            Theme[themestring] = href

    print(Theme)
    return  Theme





def get_topic_url(url,urldist,headers):    #   獲取每一個主題的所有話題的URL

    themeitemurl = {}

    listurl = []

    for value in urldist.values():

        themeurl = url + value

        # print(themeurl)

        request = requests.get(themeurl,headers = headers)

        if (request.status_code != 200):

            # print("獲取網址失敗")

            continue

        else:

            html = BeautifulSoup(request.text, "html.parser")

            urlhtml = html.find_all("nav")

            for i in urlhtml:

                urlcontant = i.find_all("li",{"class":"page-item"})

                for j in urlcontant:

                    itemhref = j.find_all("a")

                    for j in itemhref:

                        href = j['href']

                        themeString = j.string

                        if (themeString == None):

                            continue

                        themestring = themeString.strip()

                        themeitemurl[themestring] = href

        listurl.append(themeitemurl)

    print(listurl)

    return listurl


def get_contanturl(url,listurl,headers):        #  獲取每個話題的url

    contanturl = {}

    contanturllist = []

    for i in listurl:

        for values in i.values():

            URL = url + values

            request = requests.get(URL,headers = headers)

            if(request.status_code != 200):

                continue

            html = BeautifulSoup(request.text,"html.parser")

            htmlurl = html.find_all("tr")

            for k in htmlurl:

                htmlhref = k.find_all("div",{"class":"subject"})

                for href  in htmlhref:

                    a = href.find_all("a")

                    lena = len(a)

                    if(lena>1):

                        # print(a[1])

                        topicstring = a[1].string

                        if (topicstring == None):

                            continue

                        Topicstring = topicstring.strip()

                        contanturl[Topicstring] = a[1]['href']

                    else:

                        # print(a[0])

                        topicstring = a[0].string

                        if (topicstring == None):
                            continue

                        Topicstring = topicstring.strip()

                        contanturl[Topicstring] = a[0]['href']

                print(contanturl)

        contanturllist.append(contanturl)

        # print(contanturllist)

    print(contanturllist)

    return contanturllist


def get_contant(url,urllist,headers):         #   獲取每一個話題的所有論壇回覆

    contant = {}

    contantlist = []

    for i in urllist:

        for values in i.values():

            contanturl = url + values

            request = requests.get(contanturl,headers = headers)

            if(request.status_code != 200):

                continue

            html = BeautifulSoup(request.text,"html.parser")

            Name = html.find_all("tr",{"class":"post"})


            for k in Name:

                contantkey = ''

                contantvalue = ''

                td = k.find_all("td",{"class":"px-0"})

                for TD in td:

                    span = TD.find_all("span",{"class":"username font-weight-bold"})

                    Contant = TD.find_all("div",{"class":"message mt-1 break-all"})

                    for Span in span:

                        name = Span.find_all("a")

                        contantkey = name[0].string.strip()

                        contantvalue = Contant[0].string

                        contantValue = ''

                        if (contantvalue != None):

                            contantValue = contantvalue.strip()

            contant[contantkey] = contantValue

            print(contant)

        contantlist.append(contant)

    print(contantlist)

    return contantlist

if __name__ == "__main__":

    url = "https://bbs.pediy.com/"

    headers = {
        'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
        'Accept-Encoding': 'gzip, deflate, sdch',
        'Accept-Language': 'zh-CN,zh;q=0.8',
        'Connection': 'keep-alive',
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.235'
    }

    Theme = get_url(url,headers)

    topicurl = get_topic_url(url,Theme,headers)

    topiccontanturl = get_contanturl(url,topicurl,headers)

    get_contant(url,topiccontanturl,headers)

python爬取看雪論壇的所有主題帖的回覆訊息

最近因為實驗課題的需要，我們對看雪論壇的訊息回覆進行爬取， https://bbs.pediy.com/（看雪論壇）對於看雪論壇的訊息回覆檢視的一般順序為：進入看雪論壇的主頁-----> 選擇檢視的主題-----> 選擇想要檢視的話題--------> 檢視該話

項目實戰！我用Python爬取了14年所有的福彩3D信息

下載器 rap 寫入excel url req 理論 ola text port 前兩天，在網上看到一個有意思的問題：×××靠譜麽？為什麽還有那麽多的人相信×××？暫且不說，×××是否靠譜？×××也分人而異，江湖上騙術很多，有些甚至會誤以為×××的準確度可以很高，這些操盤

python 爬取某音樂平臺所有歌單資訊

# coding: utf-8 import requests import os from lxml import etree import json from spider_project.proxies import proxies import random cl

python爬取百度新聞所有的新聞的前1頁標題和URL地址

這是我自己寫的一個爬取百度新聞的一個程式碼，歡迎大家多來討論，謝謝！(自己已經測試可以使用，在文章最後見效果圖) ''' re模板：2.2.1 requests模板：2.18.4 bs4模板：4.

Python 爬取筆趣看小說

self obj download pat color windows http float web # -*- coding:utf-8 -*- from bs4 import BeautifulSoup import requests import sys cla

爬蟲系列（2）-----python爬取CSDN博客首頁所有文章

成功 -name 保存 eas attr eve lan url att 對於Python初學者來說，爬蟲技能是應該是最好入門，也是最能夠有讓自己有成就感的，今天在整理代碼時，整理了一下之前自己學習爬蟲的一些代碼，今天上第2個簡單的例子，python爬取CSDN博客首頁所有

Python爬取全書網小說，免費看小說

tle 3.6 tro con fin 保存 get 正在 url地址什麽是網絡爬蟲網絡爬蟲（又被稱為網頁蜘蛛，網絡機器人，在FOAF社區中間，更經常的稱為網頁追逐者），是一種按照一定的規則，自動地抓取萬維網信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自

誰當年還沒看過幾本小說！我用Python爬取全站的的小說！

nec 打印 b數技術分享 mon 結果鏈接 ons ide 然後再將請求發送出去，定義變量response，用read（）方法觀察，註意將符號解碼成utf-8的形式，省的亂碼：打印一下看結果：看到這麽

【python爬蟲-爬微博】爬取王思聰所有微博資料

1. 準備：代理IP 。網上有很多免費代理ip，如西刺免費代理IP http://www.xicidaili.com/，自己可找一個可以使用的進行測試；抓包分析。通過抓包獲取微博內容地址。當然web下的api地址可以通過瀏覽器獲得。以下是通過瀏覽器除錯獲得

python爬取古詩文網站詩文一欄的所有詩詞

寫在前面曾經，我們都有夢，關於文學，關於愛情，關於一場穿越世界的旅行，如今我們深夜飲酒，杯子碰在一起，都是夢破碎的聲音曾經，面對詩文如痴如醉，而如今，已漠眼闌珊，風起雲湧不再，嗚呼哀哉，索一首詩篇以慰藉爍爍華年卷一前幾日，發現古詩文網站，如獲至寶，便被一時私念驅使，將

Python爬取網頁所有小說

Python爬取網頁所有小說 python 2.7.15 練習beautifulsoup的使用不瞭解bs的可以先看一下這個bs文件一、看URL的規律因為是要爬取網頁上所有的小說，所以不僅要獲取網頁的URL，還要獲取網頁裡的連線們的URL。它們一般是有規律的，如果沒有的話就用

python 爬取《延禧攻略》所有的演員參演的電視劇

# -*- coding: utf-8 -*- #@Time :18-9-23 上午11:22 #@Author : LiMeng #@Email : [email protected] #@File : yanxigonglvu.py #Software:PyCh

python爬取美團所有結婚商家(包括詳情)

本文章主要介紹爬取美團結婚欄目所有商家資訊(電話) 第一步：爬取區域分析鞍山結婚頁面 https://as.meituan.com/jiehun/ 分析重慶結婚頁面 https://cq.meituan.com/jiehun/ 分析可得：url基本相同，我們只需爬取美團

如何使用Python爬取資料？看完這篇文章你就懂了！

前段時間小編髮了一篇有關於Python資料型別的文章，由於只是介紹了資料型別，我覺得遠遠不夠，所以呢我現在寫一篇用Python爬取資料的文章來補充。首先我會介紹如何使用scrapy抓取二手房資料，然後我會將抓下來的資料進行了一些簡單的分析和視覺化。最後奉上資料，感興趣的朋友可

python爬取電影原始碼，小編以後看電影再也不用VIP了（有程式碼）

小編有發爬取電影的視訊，今天小編再發一篇爬取電影的文章。不是小編懶，是小編真的不知道寫什麼了，見諒。如果小編Get到新的技能，一定發。是不是有好多的小夥伴跟好久好久以前的小編一樣，看一個電影充個會員，這個沒關係，最主要的是，充一個平臺的VIP還不行得有好幾個才可以。這麼貧窮的小編，當然只能看6分鐘的視訊

Python爬取雪球網金融資料

爬取目標：雪球網爬取內容：雪球網深滬股市情況使用工具：requests庫實現傳送請求、獲取響應。　　　　　　　json格式的動態載入資料實現資料解析、提取。　　　　　　　pymysql進行資料儲存思路：對該網站的動態載入資料的請求方式進行控制變數的傳送請求，最終得到實際

python 爬取網站獲得一個網站的所有連結

第一步，找個網站我這裡就找行業裡比較有名的收錄網站的網站酷113網第二步，開啟www.ku113.com 按下滑鼠右鍵點選檢視原始碼第三步，把原始碼複製下來儲存成一個檔案命名 ku113.html 第四步，執行以下python 程式我這裡用的py 2.7.13版

python爬蟲爬取大眾點評中所有行政區內的商戶將獲取資訊存於excle中

import xlwt ''' 爬取網頁時直接出現403，意思是沒有訪問許可權 ''' import requests from bs4 import BeautifulSoup #入口網頁 start_url = 'https://www.dianping.com/se

使用python爬取12306上面所有車次資料

在爬取12306之前需要做的工作就是: 1,分析請求過程 2,分析是否需要處理cookie 3,編寫程式碼 4,測試爬取網站是否有訪問次數限制 5,部署到正式伺服器上這裡重點寫如何分析請求過程: 這是12306上面查詢車次的介面,出發地和目的地是我們需要輸入的, 如

Python爬取網易雲音樂歌單內所有歌曲

一、目標：下載網易雲音樂熱門歌單二、用到的模組： requests，multiprocessing，re。三、步驟：（1）頁面分析：首先開啟網易雲音樂，選擇熱門歌單，可以看到以下歌單列表，然後開啟開發者工具本人對於Python學習建立了一個小小的學習圈子，為

python爬取看雪論壇的所有主題帖的回覆訊息

相關推薦