python爬蟲爬取NBA貼吧的所有精品貼

阿新 • • 發佈：2019-01-08

首先用直接的方法寫，先嚐試下能否爬取成功
#coding:utf-8
import urllib2,urllib
import re
'''
1.準備url地址
2.準備請求頭
3.建立請求物件
4.發起請求獲取第一頁原始碼，接收響應
5.通過第一頁原始碼，找到總頁數和標題
6.for迴圈執行總頁數次
    6.1 根據頁碼拼接完整的URL地址
    6.2 建立request物件，發起請求，接受響應
    6.3 根據正則匹配資料，包含使用者名稱和帖子內容
    6.4 去除、替換資料中的html標籤
    6.5 寫入本地檔案
'''
ide = raw_input('請輸入要爬取的帖子的編號：' 
)
#1準備url地址
url = 'https://tieba.baidu.com/p/'+ide
#2準備請求頭
headers = {
    'User-Agent':'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'
}
#3建立請求物件
request = urllib2.Request(url,headers=headers)
#4發起請求獲取第一頁原始碼，接受響應
response = urllib2.urlopen(request)
# 5.通過第一頁原始碼，找到總頁數和標題
 
#5.1準備正則
pattern = re.compile(r'<li class="l_reply_num.*?<span.*?<span class="red">(.*?)</span>',re.S)
#5.2查詢對應正則的資料
html = response.read()
rs = re.search(pattern,html)
#5.3把字串頁數轉換為數字
total = int(rs.group(1))
# 5.4 正則匹配標題
tit_pattern = re.compile(r'<h\d class="core_title_txt.*?>(.*?)</h\d>' 
,re.S)
#5.5從原始碼中搜索標題
rs = re.search(tit_pattern,html)
print rs.group(1)
title = rs.group(1)
#拼接檔名
#decode()解碼，網頁中的字元是utf-8編碼，在python中使用的字串都是Unicode編碼，所以需要轉換
filename = "%s.txt"%title.decode('utf-8')
#開啟檔案
file = open(filename,'w')
print '正在爬取%s,共%s頁資料'%(title,total)
#6.for迴圈執行總頁數次
for x in range(1,total+1):
    print '正在爬取第%s頁資料'%x
    # 6.1根據頁碼拼接完整的URL地址
getUrl = url+'?pn=%s'%x
    # 6.2建立request物件，發起請求，接受響應
request = urllib2.Request(getUrl,headers=headers)
    response = urllib2.urlopen(request)
    html = response.read()
    # 6.3根據正則匹配資料，包含使用者名稱和帖子內容
con_pattern = re.compile(r'<ul class="p_author.*?<li class="d_name.*?<a.*?>(.*?)</a>.*?<div id="post_content_.*?>(.*?)</div>',re.S)
    rs = re.findall(con_pattern,html)
    # 6.4去除、替換資料中的html標籤
    #1.使用者名稱中的img標籤
    #2.去除帖子內容中的img標籤
    #3.去掉帖子內容部分的空格
    #4.替換帖子中的內容部分
for r in rs:
        remove_img = re.compile(r'<img.*?>',re.S)
        remove_k = re.compile(r' {10}',re.S)
        replace_br = re.compile(r'<br>|<br/>',re.S)
        remove_ele = re.compile(r'<.*?>',re.S)
        #1 去除name中的img
name = re.sub(remove_img,'',r[0])
        #2 去除內容中的img
content = re.sub(remove_img,'',r[1])
        # 3 去除內容中的空格
content = re.sub(remove_k,'',content)
        # 4 替換內容的br
content = re.sub(replace_br,r'\n',content)
        # 5 去除所有標html籤
content = re.sub(remove_ele,'',content)
    # 6.5寫入本地檔案
file.write('---------------------------------------------------------')
        file.write('\n')
        file.write(name)
        file.write('\n')
        file.write(content)
file.close()
print '資料爬取完成！'
****************************************************************************************
#執行程式，能夠爬取成功，再進一步升級，用類和物件的方法來寫，作進一步的嘗試，先通過輸入編號，爬取一個帖子的內容

****************************************************************************************
#coding:utf-8
import urllib2
import re
#工具類
class Tools(object):
    #1.正則
remove_img = re.compile(r'<img.*?>',re.S)
    remove_k = re.compile(r' {10}')
    replace_br = re.compile(r'<br>|<br/>')
    remove_ele = re.compile(r'<.*?>',re.S)
    #替換文字的函式
def replace_txt(self,rs):
        name = re.sub(self.remove_img,'',rs[0])
        content = re.sub(self.remove_img,'',rs[1])
        content = re.sub(self.remove_k,'',content)
        content = re.sub(self.replace_br,r'\n',content)
        content = re.sub(self.remove_ele,r'',content)
        #返回替換完成的元組
return (name,content)
#百度貼吧爬蟲類
class BDTB(object):
    def __init__(self,numbers):
        #根據帖子編號拼接url地址
self.url = 'https://tieba.baidu.com/p/'+numbers
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:54.0) Gecko/20100101 Firefox/54.0'
}
        #初始化工具類物件
self.tool = Tools()
    #獲取某一頁的html原始碼
def get_page(self,pageNum):
        #根據頁碼拼接完整的url地址
getUrl = self.url+"?"+"pn=%s"%pageNum
        #建立request物件
request = urllib2.Request(getUrl,headers=self.headers)
        try:
            #發起請求接收響應
response = urllib2.urlopen(request)
        except(urllib2.HTTPError,Exception),e:
            print '獲取第%s頁資料失敗，原因%s'%(pageNum,e)
            return None
else:
            #如果沒有異常，返回html原始碼
return response.read()
    #從第一頁中提取總頁數和標題
def get_title_total(self,html):
        #1.準備正則
tit_pattern = re.compile(r'<h\d class="core_title_txt.*?>(.*?)</h\d>',re.S)
        # 2.查詢
tit_rs = re.search(tit_pattern,html)
        # 3 .記錄標題
self.title = tit_rs.group(1)
        #1 查詢總頁數正則
total_pattern = re.compile(r'<li class="l_reply_num.*?<span.*?<span class="red">(.*?)</span>',re.S)
        # 2 查詢
total_rs = re.search(total_pattern,html)
        # 3 記錄總頁數
self.total = int(total_rs.group(1))
    #從html原始碼中提取資料
def get_data(self,html):
        # 1 準備正則
pattern = re.compile(r'<ul class="p_author.*?<li class="d_name.*?<a.*?>(.*?)</a>.*?<div id="post_content_.*?>(.*?)</div>',re.S)
        # 2 查詢
results = re.findall(pattern,html)
        ok_results = []
        for rs in results:
            #替換資料中的html標籤
ok_rs = self.tool.replace_txt(rs)
            ok_results.append(ok_rs)
        #返回替換完成後的結果列表
return ok_results
    # 寫入本地檔案
def write_data(self,results):
        for rs in results:
            self.file.write('------------------------------------')
            self.file.write(rs[0])
            self.file.write('\n')
            self.file.write(rs[1])
            self.file.write('\n')
    #開始爬蟲函式
def start(self):
        #1.獲取第一頁的HTML原始碼
html = self.get_page(1)
        if html == None:
            print '連線百度失敗，請稍後重試、、、、、'
return
#2.從第一頁原始碼中獲取總頁數和標題
self.get_title_total(html)
        print '正在爬取帖子：%s，共%s頁資料。。。'%(self.title,self.total)
        #3.開啟檔案，用屬性記錄這個檔案物件，方便後面使用
filename = '%s.txt'%self.title.decode('utf-8')
        self.file = open(filename,'w')
        #for迴圈 迴圈總頁數次
for x in range(1,self.total+1):
            print '正在爬取第%s頁：'%x
            #1 根據頁碼獲取該頁的HTML原始碼
html = self.get_page(x)
            if html == None:
                continue
#2 從html原始碼中提取資料
results = self.get_data(html)
            #3 寫入本地檔案
self.write_data(results)
        #3 .關閉檔案
self.file.close()
if __name__ =='__main__':
    numbers = raw_input('請輸入要爬取的帖子編號：')
    bdtb = BDTB(numbers)
    bdtb.start()
*****************************************************************************************
#再進一步升級爬取所有精品貼內容

*****************************************************************************************
#coding:utf-8
import urllib2
import re
from tieba_class import  BDTB
import time
#爬取精品貼頁面所有的帖子編碼
class JPT(object):
    def __init__(self):
        self.url = 'https://tieba.baidu.com/f/good?kw=nba&tab=good'
self.headers = {
            'User-Agent': 'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50'
}
    #獲取精品貼的HTMl原始碼
def get_page(self):
        # 建立物件發起請求
request = urllib2.Request(self.url, headers=self.headers)
        try:
            response = urllib2.urlopen(request)
        except(urllib2.URLError, Exception), e:
            print '獲取精品貼失敗，%s' % e
        else:
            return response.read()
    def get_data(self,html):
        #1.準備正則
pattern = re.compile(r'<div class="threadlist_title.*?href="/p/(.*?)"',re.S)
        results = re.findall(pattern,html)
        return results
    def start(self):
        #1.獲取精品貼的HTML原始碼
html = self.get_page()
        #2.從精品貼原始碼中提取帖子編號
results = self.get_data(html)
        #for 迴圈遍歷帖子編號，爬取內容
        #建立BDTB物件，傳入帖子編號
for numbers in results:
            bdtb = BDTB(numbers)
            bdtb.start()
            time.sleep(2)
if __name__ == '__main__':
    jpt = JPT()
    jpt.start()

python爬蟲爬取NBA貼吧的所有精品貼

首先用直接的方法寫，先嚐試下能否爬取成功 #coding:utf-8 import urllib2,urllib import re ''' 1.準備url地址 2.準備請求頭 3.建立請求物件 4.發起請求獲取第一頁原始碼，接收響應 5.通過第一頁原始碼，找到總頁數和標題

python爬蟲爬取大眾點評中所有行政區內的商戶將獲取資訊存於excle中

import xlwt ''' 爬取網頁時直接出現403，意思是沒有訪問許可權 ''' import requests from bs4 import BeautifulSoup #入口網頁 start_url = 'https://www.dianping.com/se

Python爬蟲爬取NBA資料

爬取的網站為：stat-nba.com，本文爬取的是NBA2016-2017賽季常規賽至2017年1月7日的資料改變url_header和url_tail即可爬取特定的其他資料。原始碼如下： #coding=utf-8 import sys reload(sys) sy

Python爬蟲-爬取百度貼吧

方法 eba style name urlopen for pri url pen 爬取百度貼吧 ===================== ===== 結果示例： ===================================== 1 ‘‘‘ 2 爬去百

實戰python 爬蟲爬取百度貼吧圖片

#!/usr/bin/python import urllib,urllib2import re def getHtml(url): page = urllib2.urlopen(url) return page.read() def getImage(html): re_img = re.compil

python爬蟲爬取百度貼吧（入門練習）

需求說明：從控制檯輸入指定爬取的貼吧名稱，起始頁面，結束頁面，並在檔案中建立以貼吧名稱+“爬取內容” 為名字建立檔案件，裡面的每一個檔案都是爬取到的每一頁html檔案，檔名稱：貼吧名稱_page.html import urllib.reque

Python爬蟲爬取CSDND首頁的所有的文章

# -*- encoding: utf-8 -*- import re import urllib.request def function(): """Python爬蟲爬取CSDND首頁的所有的文章""" html="https://blog.csdn.n

python 爬蟲爬取所有上市公司公告資訊（一）

。，。前面我們已經瞭解了python中多執行緒，selenium，requests等爬蟲基本操作的知識，現在我們準備編寫一個規模較大的爬蟲，目的是爬取所有上市公司2015年至今的公告資訊。相較於前面幾個簡單的爬蟲功能程式碼，公告資訊爬蟲需要考慮更多的問題，現在可以預見到的

python 爬蟲爬取所有上市公司公告資訊（五）

。，。現在我們進過for迴圈，已經獲取到了每一個股票程式碼在2015年至今所有的公告內容連線和公告日期，且是以（日期，公告內容url）元組的形式加入到了爬取佇列中，在最內層迴圈結束後，我們編寫程式實現多執行緒和儲存公告內容的功能。公告最終在對應的json檔案裡是以鍵值對

python爬蟲爬取csdn部落格專家所有部落格內容

#coding:utf-8 import urllib2 from bs4 import BeautifulSoup import os import re #import sys #reload(sys) #sys.setdefaultencoding("utf-8") def getPage(hre

python 爬蟲爬取所有上市公司公告資訊（二）

。，。設計公告資訊爬蟲面臨的主要問題在上一篇文章已經敘述過了，這篇文章我們選擇合適的資料來源和爬取的方式首先選擇爬取的資料來源，這裡筆者經過多方比較，最終選擇了東方財富網作為公告爬蟲的資料來源。下面以飛馬國際為例（002210）我們可以看到，東方財富網專門設有網頁儲

Python爬蟲-爬取糗事百科段子

hasattr com ima .net header rfi star reason images 閑來無事，學學python爬蟲。在正式學爬蟲前，簡單學習了下HTML和CSS，了解了網頁的基本結構後，更加快速入門。 1.獲取糗事百科url http://www.qiu

python爬蟲爬取頁面源碼在本頁面展示

一個 nts ring 想要 strip code 空白列表 ngs python爬蟲在爬取網頁內容時，需要將內容連同內容格式一同爬取過來，然後在自己的web頁面中顯示，自己的web頁面為django框架首先定義一個變量html，變量值為一段HTML代碼 >&

python 爬蟲爬取證券之星網站

爬蟲周末無聊，找點樂子。。。#coding:utf-8 import requests from bs4 import BeautifulSoup import random import time #抓取所需內容 user_agent = ["Mozilla/5.0 (Windows NT 10.0

python爬蟲爬取海量病毒文件

tle format nbsp contex logs request spl tde __name__ 因為工作需要，需要做深度學習識別惡意二進制文件，所以爬一些資源。 # -*- coding: utf-8 -*- import requests import re

用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）

enc 用途 css選擇器狀態 csv文件表格 area 加密重要用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）在進行爬取前，首先要了解： 1、什麽是CSS選擇器？每一條css樣式定義由兩部分組成，形式如下： [code] 選擇器{樣式} [/code

python爬蟲——爬取古詩詞

爬蟲古詩詞實現目標 1.古詩詞網站爬取唐詩宋詞 2.落地到本地數據庫頁面分析通過firedebug進行頁面定位：源碼定位：根據lxml etree定位div標簽：# 通過 lxml進行頁面分析 response = etree.HTML(data

利用Python爬蟲爬取淘寶商品做數據挖掘分析實戰篇，超詳細教程

實戰趨勢 fat sts AI top 名稱 2萬安裝模塊項目內容本案例選擇>> 商品類目：沙發；數量：共100頁 4400個商品；篩選條件：天貓、銷量從高到低、價格500元以上。項目目的 1. 對商品標題進行文本分析詞雲可視化 2.

Python爬蟲 - 爬取百度html代碼前200行

http src mage bsp bubuko str 百度爬蟲圖片 Python爬蟲 - 爬取百度html代碼前200行 - 改進版, 增加了對字符串的.strip()處理 Python爬蟲 - 爬取百度html代碼前200行

簡易python爬蟲爬取boss直聘職位，並寫入excel

python爬蟲寫入excel1，默認城市是杭州，代碼如下#! -*-coding:utf-8 -*-from urllib import request, parsefrom bs4 import BeautifulSoupimport datetimeimport xlwt starttime = dat

python爬蟲爬取NBA貼吧的所有精品貼

相關推薦