python爬蟲四：爬取貼吧資料

阿新 • • 發佈：2018-12-31

# -*- coding: utf-8 -*-
import requests
import time
from bs4 import BeautifulSoup

import io
import sys
#sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='gbk') #改變標準輸出的預設編碼
#生活大爆炸吧
'''
 # 標題&帖子連結：
    <a rel="noreferrer" href="/p/4788526595" title="我的人物設計和製作" target="_blank" class="j_th_tit ">我的人物設計和製作</a>
    
#發帖人：
    <span class="tb_icon_author " title="主題作者: 新日落" data-field="{"user_id":2137596235}"><i class="icon_author"></i><span class="frs-author-name-wrap"><a rel="noreferrer" data-field="{"un":"\u65b0\u65e5\u843d"}" class="frs-author-name j_user_card " href="/home/main/?un=%E6%96%B0%E6%97%A5%E8%90%BD&ie=utf-8&fr=frs" target="_blank">新日落</a></span><span class="icon_wrap  icon_wrap_theme1 frs_bright_icons "></span>    </span>
#發帖日期：
  <span class="pull-right is_show_create_time" title="建立時間">2016-09</span>
  
  
#回覆數量：
    <div class="col2_left j_threadlist_li_left">
<span class="threadlist_rep_num center_text" title="回覆">73</span>
    </div>
'''
#抓取網頁的通用框架,獲取頁面的內容
def getHtml(url):
    try:
        r= requests.get(url,timeout=30)
        #狀態碼不是200就發出httpError的異常
        r.raise_for_status()
        #獲取正確的編碼格式
        # r.encoding=r.apparent_encoding
        r.encoding="utf-8"
        #列印內容
        return r.text


    except:
        return "wrong!"



#分析網頁的html檔案，整理資訊，儲存問列表檔案中
def get_content(url):
    #初始化一個列表來儲存所有的帖子資訊
    contents=[]

    #獲取網頁的內容
    html=getHtml(url)

    #將網頁內容格式化利用bs4庫
    soup = BeautifulSoup(html, 'lxml')

    #獲取所有的li標籤屬性為 j_thread_list clearfix，用列表接收
    liTags = soup.find_all('li', attrs={'class': ' j_thread_list clearfix'})
    print  (len(liTags))

    #迴圈這個內容li集合
    for li in liTags:

        #將爬取到了每一條資訊。儲存到字典裡
        content={}

        #將異樣丟擲，避免無資料時，停止運
        try:
             #開始篩選資訊
             content['title']=li.find('a',attrs={"class":"j_th_tit"}).text.strip()#.strip()  翻譯為中文
             print (li.find('a',attrs={"class":"j_th_tit"}).text.strip())

             #獲取a標籤的內部屬性
             content['link'] ="http://tieba.baidu.com/"+li.find('a', attrs={"class": "j_th_tit"})["href"]
             print("http://tieba.baidu.com/"+li.find('a', attrs={"class": "j_th_tit"})["href"])


             content['author']=li.find('span',attrs={"class":'tb_icon_author '}).text.strip()
             print (li.find('span',attrs={"class":'tb_icon_author '}).text.strip())


             content['responseNum']=li.find('span',attrs={'class': 'threadlist_rep_num center_text'}).text.strip()
             print(li.find(
                 'span', attrs={'class': 'threadlist_rep_num center_text'}).text.strip())
             content['creatTime']=li.find('span',attrs={"class":'pull-right is_show_create_time'}).text.strip()
             print (li.find(
                'span', attrs={'class': 'pull-right is_show_create_time'}).text.strip())
             #將字典加入到列表中
             contents.append(content)


        except:
            print('出問題')



        #返回資料
    return contents


def writeTxt(content):

    #這裡不能寫成 f=open("data.txt",'a+'）否則會亂碼，設定沉utf-8的格式，與getHtml(url):中的encoding一致
    f=open("data.txt",'a+',encoding='utf-8')

    for c in content:
        f.write('標題： {} \t 連結：{} \t 發帖人：{} \t 發帖時間：{} \t 回覆數量： {} \n'.format(
                c['title'], c['link'], c['author'], c['creatTime'], c['responseNum']))



url="http://tieba.baidu.com/f?ie=utf-8&kw=%E7%94%9F%E6%B4%BB%E5%A4%A7%E7%88%86%E7%82%B8&red_tag=z0177533255"
page=2


def main(url,page):

    url_list=[]
    #將所需要爬去的url放到列表中
    for i in range(0,page):
        url_list.append(url+'&pn='+str(i*50))

    for u in url_list:
        content=get_content(u)
        writeTxt(content)

if __name__=="__main__":
    main(url,page)
    get_content("http://tieba.baidu.com/f?ie=utf-8&kw=%E7%94%9F%E6%B4%BB%E5%A4%A7%E7%88%86%E7%82%B8&red_tag=z0177533255")

轉：https://zhuanlan.zhihu.com/p/26701898

每天進步一點點！

python爬蟲四：爬取貼吧資料

# -*- coding: utf-8 -*- import requests import time from bs4 import BeautifulSoup import io import sys #sys.stdout = io.TextIOWrapper(sys

Python爬蟲教程：爬取百度貼吧

貼吧爬取寫程式碼前，構思需要的功能塊；寫程式碼時，把各個功能模組名提前寫好初始化初始化必要引數，完成基礎設定爬取百度貼吧lol吧：爬取地址中的get引數須傳遞(可以指定不同主題的貼吧和頁碼) 主題名初始網址請求頭生成網址生成每一頁的路由

python：爬取貼吧的某個吧的網頁資訊

#-*-coding:utf-8-*- import urllib #負責url編碼處理 import urllib2 import sys import os if sys.getdefaultencoding() != 'utf-8': reload(sys)

Python爬蟲例項：爬取B站《工作細胞》短評——非同步載入資訊的爬取

《工作細胞》最近比較火，bilibili 上目前的短評已經有17000多條。先看分析下頁面右邊 li 標籤中的就是短評資訊，一共20條。一般我們載入大量資料的時候，都會做分頁，但是這個頁面沒有，只有一個滾動條。隨著滾動條往下拉，資訊自動載入了，如下圖，變40

Python爬蟲教程：爬取崗位分析報告

本篇以拉勾網為例來說明一下如何獲取 Ajax 請求內容本文目標獲取 Ajax 請求,解析 JSON 中所需欄位資料儲存到 Excel 中資料儲存到 MySQL, 方便分析簡單分析五個城市 Python 崗位平均薪資水平 Python 崗位要求學歷分佈

Python爬蟲例項：爬取“最好大學網”大學排名

例項2 爬取大學排名上海交通大學設計了一個“最好大學網”，上面列出了當前的大學排名。我們要設計爬蟲程式，爬取大學排名資訊。爬蟲功能要求：輸入：大學排名URL連結輸出：大學排名資訊的螢幕輸出（排名，大學名稱，總分）工具：python3、requests、beauti

Python爬蟲系列：爬取小說並寫入txt檔案

Python爬蟲系列 ——爬取小說並寫入txt檔案文章介紹瞭如何從網站中爬取小說並寫入txt檔案中，實現了單章節寫取，整本寫取，多執行緒多本寫取。爬蟲使用的python版本為python3，有些系統使用python指令執行本指令碼，可能出現錯誤，

python 爬蟲(1)：爬取 DDCTF-2018 參賽選手

簡介分析程式碼爬取結果簡介這幾天閒來無事，突然想著學習一下 python 爬蟲，也可以用來練習一下 python。剛好這兩天報名參加了 DDCTF-2018 比賽，在比賽官網的挑戰者頁面可以看到參賽者，不如就爬取一下所有的參賽

Python爬蟲訓練：爬取酷燃網視訊資料

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理專案目標爬取酷燃網視訊資料 https://krcom.cn/ 環境 Python3.6 pycharm 爬蟲程式碼 import pprint

利用python爬蟲技術動態爬取地理空間資料雲中的元資料（selenium）

python爬取地理空間資料雲selenium動態點選爬取的網址秀一下：爬取的資訊是什麼呢？這個資訊的爬取涉及到右邊按鈕的點選，這屬於動態爬取的範疇，需要用到selenium 好了，那麼開始寫程式碼吧首先匯入selenium from seleni

Python爬蟲系列之百度貼吧爬取

今天給的一個爬蟲小事例，貼吧段子爬取這樣一個小功能，資料呢僅僅娛樂，沒有惡意想法若有侵權，請私信刪除此次用到的一個解析庫Beautiful Soup，更輕量簡單地對資料進行解析，已獲得目標資料貼吧做的還是比較好，有一定的反爬機制，所以我們也應該有一定的應對措施

Python爬蟲__爬取貼吧圖片和文字

1. 爬取圖片 1.1 前言我當年年少，還不知道爬蟲這個東西，又想把書法圖片儲存下來，於是一張張地把圖片另存為，現在用爬蟲來爬取每一樓的書法圖片，解放一下人力： 1.2 爬取圖片的流程可以總結如下： 1)爬取網頁的ht

Python爬蟲入門——爬取貼吧圖片

最近忽然想聽一首老歌，“I believe” 於是到網上去搜，把幾乎所有的版本的MV都看了一遍（也是夠無聊的），最喜歡的還是最初版的《我的野蠻女友》電影主題曲的哪個版本，想起女神全智賢，心血來潮，於是就想到了來一波全MM的美照，哪裡有皁片呢？自然是百度貼吧了。放上鍊接-—

python-關於爬蟲爬取貼吧圖片

#利用xpath解析列表資料 from lxml import etree import requests import os # 需求：爬取百度貼吧圖片,翻頁，下載圖片儲存到本地 # 流程： # 1、構建url和headers # 2、傳送請求、獲取響應 # 3、解析列表

初涉爬蟲時的requests庫---爬取貼吧內容

requests庫在爬蟲的實踐開發運用中較為常用，實現HTTP請求協議時方法簡單，操作方便，易於實現。對於一般的靜態網頁，都可以方便抓取想要的內容，比起scrapy等框架有明顯的優勢，爬取定向的簡單內容，是極好的。下面就是運用requests模組，實現一個簡單的爬取貼吧網

Python爬取貼吧帖子內容

# -*- coding: utf-8 -*- """ Created on Sun Nov 4 09:58:09 2018 @author: wangf """ import re import requests import urllib #處理頁面標籤

爬蟲Spider--爬取貼吧

輸入起始頁的靈活爬取 # - * - coding: UTF-8 - * - """ import urllib2 url = "http://www.baidu.com" #IE 9.0 的 User-Agent，包含在 ua_header裡 ua_header = {"User-Agent

Python爬取貼吧多頁圖片

Python爬取貼吧圖片都只能爬取第一頁的，加了迴圈也不行，現在可以了。 #coding:utf-8 import urllib import urllib2 import re import o

python批量下載上次論文，還在爬取貼吧圖片？快用批量下載sci論文吧，根據標題名或者DOI批量下載 scihub 科研下載神器

昨晚在下載scil論文，一共295篇，手動下載的話豈不是要累si? 於是想到有沒有批量下載sci論文的。在web of science 上匯出下載問下的標題、DOI等txt檔案，然後篩選得到DOI和標題，儲存為新檔案。通過迴圈得到DOI與標題，下載並儲存成標題命名。程式參考如下

Python實現爬取貼吧圖片

導讀：最近周邊朋友學python的越來越多，毫無意外的是，大家都選擇了爬蟲入門。這不難理解。Python有豐富的庫使用，使得爬蟲的實現容易很多，學習之後，回報明顯，容易獲得成就感。總結起來就是：讓人有繼續學下去的慾望。我偏巧例外，先走了Python web。雖然

python爬蟲四：爬取貼吧資料

相關推薦