PythonScript_001_百度貼吧頁面

阿新 • • 發佈：2018-12-04

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import urllib.request
import random
'''
爬取百度貼吧
引數：貼吧名稱、起始頁、結束頁
Python3.7.0
'''
def getUserAgent():
    '''
        作用：隨機獲取瀏覽器的userAgent
    '''
    # 模擬瀏覽器的請求,反爬蟲的第一步
    ua_list = [
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv2.0.1) Gecko/20100101 Firefox/4.0.1",
        "Mozilla/5.0 (Windows NT 6.1; rv2.0.1) Gecko/20100101 Firefox/4.0.1",
        "Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",
        "Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"
    ]
    # 在User-Agent列表裡面隨機選擇一個User-Agent
    user_agent = random.choice(ua_list)
    return user_agent


def loadPage(url, filename):
    '''
        作用：根據url傳送請求，獲取伺服器響應文字
        url：需要爬取的url地址
    '''
    print("正在下載" + filename)
    request = urllib.request.Request(url)
    request.add_header("User-Agent", getUserAgent())
    return urllib.request.urlopen(request).read()

def writePage(html, filename):
    '''
        作用：將html內容寫入到本地
        html：伺服器響應檔案的內容
    '''
    print("正在儲存" + filename)
    # 檔案寫入 with 不需要做檔案開啟關閉操作 注：這裡是坑，需要用wb+的方式寫入檔案
    with open(filename, 'wb+') as f:
        f.write(html)
        print('-' * 30)

def tiebaSpider(url, beginPage, endPage):
    '''
        作用：貼吧爬蟲排程器，負責組合處理每個頁面的url
        url：貼吧url的前部分
        beginPage： 起始頁
        endPage：結束頁
    '''
    for page in range(beginPage, endPage + 1):
        pn = (page - 1) * 50
        filename = '第' + str(page) + '頁.html'
        fullurl = url + "&pn=" + str(pn)
        html = loadPage(fullurl, filename)
        writePage(html, filename)
        print("謝謝使用")

if __name__ == "__main__": # 當.py檔案被直接執行時，if __name__ == '__main__'之下的程式碼塊將被執行；當.py檔案以模組形式被匯入時，if __name__ == '__main__'之下的程式碼塊不被執行。
    kw = input("請輸入需要爬取的貼吧名： ")
    beginPage = int(input("輸入起始頁： "))
    endPage = int(input("請輸入結束頁： "))

    url = "https://tieba.baidu.com/f?"
    key = urllib.parse.quote("kw=" + kw) # 此處與Python2(是坑) 不同，值必須是字串的型別
    # print(key)
    fullurl = url + key
    # print(fullurl)

tiebaSpider(fullurl, beginPage, endPage)

注：轉url編碼的時候Python2與Python3 的寫法不同

formdata = {
    "page_limit":"20",
    "page_start":"20"
}
# 轉成url的編碼
data = urllib.parse.urlencode(formdata).encode("utf-8") # Python3.7.0
data = urllib.urlencode(formdata) # Python2

PythonScript_001_百度貼吧頁面

#!/usr/bin/env python # -*- coding:utf-8 -*- import urllib.request import random ''' 爬取百度貼吧引數：貼吧名稱、起始頁、結束頁 Python3.7.0 ''' def getUserAgent():

python3爬取指定百度貼吧頁面並儲存成本地文件（批量爬取貼吧頁面資料）

首先我們建立一個python檔案, tieba.py，我們要完成的是，輸入指定百度貼吧名字與指定頁面範圍之後爬取頁面html程式碼，我們首先觀察貼吧url的規律，比如：發現規律了吧，貼吧中每個頁面不同之處，就是url最後的pn的值，其餘的都是一樣的，我們

Python爬蟲【實戰篇】百度貼吧爬取頁面存到本地

先上程式碼 import requests class TiebaSpider: def __init__(self, tieba_name): self.tieba_name = tieba_name self.url_temp = " htt

requests+xpath+map爬取百度貼吧

name ads int strip 獲取 app open http col 1 # requests+xpath+map爬取百度貼吧 2 # 目標內容:跟帖用戶名,跟帖內容,跟帖時間 3 # 分解: 4 # requests獲取網頁 5 # xpath提取內

BeautifulSoup抓取百度貼吧

爬蟲 python beautifulsoup 百度貼吧 BeautifulSoup是python一種原生的解析文件的模塊，區別於scrapy，scrapy是一種封裝好的框架，只需要按結構進行填空，而BeautifulSoup就需要自己造輪子，相對scrapy麻煩一點但也更加靈活一些以爬取百度

Python爬取百度貼吧數據

utf-8 支持我 family encode code word keyword 上一條時間　　本渣除了工作外，在生活上還是有些愛好，有些東西，一旦染上，就無法自拔，無法上岸，從此走上一條不歸路。花鳥魚蟲便是我堅持了數十年的愛好。　　本渣還是需要上班，才能支持我的

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

Python爬蟲實例（一）爬取百度貼吧帖子中的圖片

選擇圖片查看負責 targe mpat wid agent html headers 程序功能說明：爬取百度貼吧帖子中的圖片，用戶輸入貼吧名稱和要爬取的起始和終止頁數即可進行爬取。思路分析：一、指定貼吧url的獲取例如我們進入秦時明月吧，提取並分析其有效url如下

百度貼吧爬取(可以指定貼吧名及頁碼)

百度貼吧爬蟲 python#!/usr/bin/python # coding=utf-8 import urllib import urllib2 def loadPage(url,filename): ‘‘‘ 作用:根據URL發送請求,獲取服務器響應文件 html:返回的響應文

百度貼吧戒色吧是如何神一樣的存在？

戒色吧貼吧百度百萬人關註、千萬人留言的百度戒色吧，至今還有無數小青年還在頂帖誓言：“戒色吧”“我要戒擼啦”... 無論是戒色吧還是戒色論壇，現如今成了一群在當今腐朽×××文化盛行的網絡中，曾經迷茫但是不願自甘墮落年輕人的代名詞。進吧的初衷似乎也是只有一個：戒擼! 百度貼吧戒色吧是如何神一樣

百度貼吧獲取某個吧的全部圖片

完成 device dde emp bdc type 遍歷 4.0 感謝 """ 搜索百度貼吧單個貼吧內的所有帖子使用xpath定位完成翻頁功能下載詳情頁中的所有圖片 """ import re import os import requests import ti

ulrlib案例-爬取百度貼吧

request class clas uml sleep 很多下載變化 random 1.任務需求百度貼吧有很多主題，每個主題下的網頁存在很多分頁。爬取不同的主題，並下載每個主題下的多頁網頁。輸入貼吧名稱，下載相應貼吧的多頁網頁，設置最多下載50頁。 2.分析

用selenium實現百度貼吧自動發帖

rep 都是圖片 ec2 blog F12 pro inb web 寫完前面兩篇以後，就打算寫個百度貼吧自動發帖程序，結果研究了好久，發現比預想的難太多了。。。一開始打算用requests模擬登陸，用F12抓了包，看post請求參數：參數也特麽太多了，簡直喪心病狂，變化參

python 爬蟲百度貼吧簽到小工具

sca window user con lee post use wow64 搜索 import requests,re,timeheader ={ "Cookie":"登陸過賬號後的cookie 必須填寫", "User-Agent":"Mozilla/5.

完整的爬蟲程序爬取百度貼吧的圖片

列表文檔 for tieba http ... 自增 num 圖片 #!/usr/bin/env python#-- coding:utf-8 -- import osimport urllibimport urllib2from lxml import etree cl

爬蟲10-百度貼吧

""" __title__ = '' __author__ = 'Thompson' __mtime__ = '2018/8/21' # code is far away from bugs with the god animal protecting I love animals. The

python爬取百度貼吧指定內容

環境:python3.6 1：抓取百度貼吧—linux吧內容基礎版抓取一頁指定內容並寫入檔案萌新剛學習Python爬蟲,做個練習貼吧連結: http://tieba.baidu.com/f?kw=linux&ie=utf-8&pn=0 解析原始碼使用的是B

Python實現簡單爬蟲功能--批量下載百度貼吧裡的圖片

在上網瀏覽網頁的時候，經常會看到一些好看的圖片，我們就希望把這些圖片儲存下載，或者使用者用來做桌面桌布，或者用來做設計的素材。　　我們最常規的做法就是通過滑鼠右鍵，選擇另存為。但有些圖片滑鼠右鍵的時候並沒有另存為選項，還有辦法就通過就是通過截圖工具擷取下來，但這樣就降低圖片的清晰度

初觸Python,關於pyquery解析html（百度貼吧）

一直聽同事說Python是個神奇的語言，上週在逛知乎的時候深受這個話題的啟發。能利用爬蟲技術做到哪些很酷很有趣很有用的事情？先是說到IDE的選擇,作為python新人,雖然知道mac終端自帶Python,但在一番谷歌百度之後,還是選擇了PyCharm 。理由大概是 PyCharm比

XPath：爬取百度貼吧圖片，並儲存本地

使用XPath，我們可以先將 HTML檔案轉換成 XML文件，然後用 XPath 查詢 HTML 節點或元素。什麼是XML XML 指可擴充套件標記語言（EXtensible Markup

PythonScript_001_百度貼吧頁面

相關推薦