百度貼吧爬取(可以指定貼吧名及頁碼)

阿新 • • 發佈：2017-11-06

百度貼吧爬蟲 python

#!/usr/bin/python
# coding=utf-8
import urllib
import urllib2

def loadPage(url,filename):
    ‘‘‘
    作用:根據URL發送請求,獲取服務器響應文件
    html:返回的響應文件
    filename:處理的文件名
    ‘‘‘
    print("正在下載" + filename)
    
    headers = {"User-Agent" : "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3253.3 Safari/537.36"}
    request = urllib2.Request(url,headers = headers)
    response = urllib2.urlopen(request).read()
    return response



def writePage(html,filename):
    ‘‘‘
    作用:將html內容寫入到本地
    ‘‘‘
    print("正在保存" + filename)
    with open(filename,‘w‘) as f:
        f.write(html)
    print("_" * 30)

def tiebaSpider(fullurl,beginPage,endPage):
    ‘‘‘
    貼吧抓取調度器 ,用來組合處理每個頁面的URL
    URL:貼吧URL 的前部分
    beginPage:起始頁
    endPage:結束頁
    ‘‘‘
    for page in range(beginPage,endPage+1):
        pn = (page - 1) * 50
        filename = "第" + str(page) + "頁.html"
        
        fullurl = url + "&pn=" + str(pn)
        #print(fullurl)
        html = loadPage(fullurl,filename)
        #print(html)
        writePage(html,filename)
        print("感謝使用!")

if __name__ == "__main__":
    kw = raw_input("請輸入要爬取的貼吧名:")
    beginPage = int(raw_input("請輸入起始頁:"))
    endPage = int(raw_input("請輸入結束頁:"))

    url = "http://tieba.baidu.com/f?"
    key = urllib.urlencode({"kw":kw})
    fullurl = url + key

    tiebaSpider(fullurl,beginPage,endPage)

百度貼吧爬取(可以指定貼吧名及頁碼)

利用Python進行百度文庫內容爬取（一）

新手上路在很多時候我們需要下載百度文庫內容的時候，彈出來的是下載券不足，而現在複製其中的內容也只能複製一部分，如果遇到一些政治開卷考，考前抱佛腳，想要複製出文庫中的內容，可謂是難上加難。對百度文庫內容的獲取，從最開始的大部分文件可以免費直接從中直接下載，

python實現百度VIP音樂爬取

百度VIP音樂爬取網頁分析分析音樂的真實地址 url拼接獲取所有資料批量獲取singid 程式碼編寫獲取所有的songid 根據songid獲取音樂的真實地址

利用Python呼叫百度地圖介面爬取小區資訊

前幾天有一個需求，就是想要查到每個一二線城市裡所有小區的經緯度，因此爬取程式和啟動程式如下 community_info_do.py 的程式碼如下 # -*- coding: utf-8 -*- """ 功能：呼叫百度地圖介面爬取各城市小區基本資訊呼叫介面

java爬蟲實現百度地圖資料爬取

本次專案主要實現百度地圖地點檢索功能的資料爬取，可以獲得檢索的相關資訊。主要是採用百度地圖API介面實現，採用的是servlet，資料庫採用的是mybatis。話不多說，上程式碼。1.DAO層資料package dao;import java.util.List;import

python爬蟲系列（一）百度首頁爬取

前言經受不住爬蟲技術的吸引，為此決定踏入”爬蟲”這條不歸路。爬蟲介紹其實在我眼裡，爬蟲無非所見即所得，也就是一切皆可爬。至於url技術和python環境在此就不重複。在此使用urllib庫進行初步學習。 python:2.7 初次嘗試

百度地圖POI數據爬取，突破百度地圖API爬取數目“400條“的限制11。

XML response city 代碼實現 append api json highlight inf 1.POI爬取方法說明 1.1AK申請　　登錄百度賬號，在百度地圖開發者平臺的API控制臺申請一個服務端的ak,主要用到的是Place API.檢校方式可設置成I

百度貼吧爬取(可以指定貼吧名及頁碼)

百度貼吧爬蟲 python#!/usr/bin/python # coding=utf-8 import urllib import urllib2 def loadPage(url,filename): ‘‘‘ 作用:根據URL發送請求,獲取服務器響應文件 html:返回的響應文

python3爬取指定百度貼吧頁面並儲存成本地文件（批量爬取貼吧頁面資料）

首先我們建立一個python檔案, tieba.py，我們要完成的是，輸入指定百度貼吧名字與指定頁面範圍之後爬取頁面html程式碼，我們首先觀察貼吧url的規律，比如：發現規律了吧，貼吧中每個頁面不同之處，就是url最後的pn的值，其餘的都是一樣的，我們

Python爬蟲系列之百度貼吧爬取

今天給的一個爬蟲小事例，貼吧段子爬取這樣一個小功能，資料呢僅僅娛樂，沒有惡意想法若有侵權，請私信刪除此次用到的一個解析庫Beautiful Soup，更輕量簡單地對資料進行解析，已獲得目標資料貼吧做的還是比較好，有一定的反爬機制，所以我們也應該有一定的應對措施

Python爬蟲【實戰篇】百度貼吧爬取頁面存到本地

先上程式碼 import requests class TiebaSpider: def __init__(self, tieba_name): self.tieba_name = tieba_name self.url_temp = " htt

python爬蟲爬取NBA貼吧的所有精品貼

首先用直接的方法寫，先嚐試下能否爬取成功 #coding:utf-8 import urllib2,urllib import re ''' 1.準備url地址 2.準備請求頭 3.建立請求物件 4.發起請求獲取第一頁原始碼，接收響應 5.通過第一頁原始碼，找到總頁數和標題

使用scrapy爬取dota2貼吧資料並進行分析

一直好奇貼吧裡的小夥伴們在過去的時間裡說的最多的詞是什麼，那我們就來抓取分析一下貼吧發文的標題內容，並提取分析一下，看看吧友們在說些什麼。首先我們使用scrapy對所有貼吧文章的標題進行抓取 scrapy startproject btspider cd btspider

百度音樂API抓取

vim 後來 ews new ble -a getch 電臺威爾百度音樂API抓取前段時間做了一個本地音樂的播放器 github地址，想實現在線播放的功能，於是到處尋找API，很遺憾，不是歌曲不全就是質量不高。在網上發現這麽一個APIMRASONG博客，有&ld

懶人動手，用python做一個基礎翻譯重新命名器（破解百度翻譯反爬手段）

想法：在做開發的時候，經常需要命名各種變數，方法/函式，類，包，庫等。走一遍流程就是：想好要起的名字，比如“非常帥氣”；然後上翻譯網站，比如百度翻譯，有道翻譯；將中文輸入並讓其翻譯成英文，此時就得出一個“very handsome”的單詞；根據駝峰命名法，我們最後需要得

網路爬蟲-爬取指定城市空氣質量檢測資料

爬取指定城市空氣質量檢測資料網站連結 → https://www.aqistudy.cn/historydata/ 以月資料為例，見下圖：然後我們通過console除錯可以發現這個網頁在items裡面已經將資料打包好了，如下圖所示沒毛病，資料全都對得上，接下來的思

Python-定時爬取指定城市天氣(一)-傳送給關心的微信好友

Python-定時爬取指定城市天氣(一)-傳送給關心的微信好友閱讀目錄一、背景二、構思三、爬取天氣四、傳送給指定好友五、城市編碼六、定時任務七、資源下載回到頂部一、背景

JAVA 爬取指定網站的資料並存入MySQL資料庫中 maven +httpclient+jsoup+mysql

最近在做一個小專案，因為要用的資料爬取，所以研究了好多天，分享一下自己的方法目錄結構：自己建立maven工程，匯入相關依賴：pom.xml <?xml version="1.0" enco

Python 爬蟲爬取指定微信公眾號文章

該方法是依賴於urllib2庫來完成的，首先你需要安裝好你的python環境，然後安裝urllib2庫程式的起始方法(返回值是公眾號文章列表)： def openUrl(): print("啟動爬蟲，開啟搜狗搜尋微信介面") # 載入頁面 url

利用requests庫和pyquery庫爬取指定頁數的京東商品資訊

大概思路：首先利用requests庫獲取京東商品搜尋的頁面資訊，然後利用pyquery庫對爬取的資料進行分析，然後利用格式化輸出的方法輸出所爬取的資料。要爬取的頁面截圖為對前幾頁的網址進行分析可觀察出相應的規律第一頁：https://search.jd.

Java網路爬蟲（八）--使用多執行緒進行百度圖片的抓取

宣告：如需轉載本篇文章，請進行私聊並在文章首處註明出處，本程式碼未經授權不可用於獲取商業價值，否則後果將由自己承擔。這次的需求大概是從百度圖片裡面抓取任意的分類的圖片，考慮到有些圖片的資源不是很好，並且由於百度搜索越到後面相關度會越來越低，所以我將每個分類要

百度貼吧爬取(可以指定貼吧名及頁碼)

相關推薦