15-python爬取百度貼吧-excel儲存

阿新 • • 發佈：2020-10-13

讓我們爬取百度貼吧旅遊資訊，看看哪些地方是大家旅遊關注的熱點。

不要問我這個十一去哪兒旅遊了，我還在家沒日沒夜的碼程式碼。

這次我們用 urllib 爬取頁面，再用BeautifulSoup提取有用資訊，最後用 xlsxwriter 把獲取的資訊寫入到excel表

一、用到技術

python 基礎
xlsxwriter 用來寫入excel檔案的
urllib python內建爬蟲工具
BeautifulSoup解析提取資料

二、目標頁面

https://tieba.baidu.com/f?kw=%E6%97%85%E6%B8%B8&ie=utf-8&pn=0

三、結果

四、安裝必要的庫

win+R 開啟執行
輸出cmd 進入控制檯
分別安裝beautifulsoup4,lxml,xlsxwriter

pip install   lxml
pip install   beautifulsoup4
pip install   xlsxwriter

五、分析頁面

1. 頁面規律

我們單擊分頁按鈕，拿到頁面最後一個引數的規律
第二頁：https://tieba.baidu.com/f?kw=旅遊&ie=utf-8&pn= 50
第三頁：https://tieba.baidu.com/f?kw=旅遊&ie=utf-8&pn= 100
第四頁：https://tieba.baidu.com/f?kw=旅遊&ie=utf-8&pn= 150

2. 頁面資訊

旅遊資訊列表
開啟網頁https://tieba.baidu.com/f?kw=旅遊&ie=utf-8&pn= 50
按鍵盤F12鍵或者滑鼠右鍵"檢查元素"（我用的谷歌chrome瀏覽器）

發現所有旅遊列表都有個共同的class類名j_thread_list

作者與建立時間
作者的class為frs-author-name,建立時間的class為is_show_create_time

標題
標題的class為j_th_tit

六、全部程式碼

import xlsxwriter
# 用來寫入excel檔案的
import urllib.parse
# URL編碼格式轉換的
import urllib.request
# 發起http請求的
from bs4 import BeautifulSoup
# css方法解析提取資訊

url='https://tieba.baidu.com/f?kw='+urllib.parse.quote('旅遊')+'&ie=utf-8&pn='
# 百度貼吧旅遊資訊
# parse.quote("旅遊") # 結果為%E6%97%85%E6%B8%B8

herders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.102 Safari/537.36', 'Referer':'https://tieba.baidu.com/','Connection':'keep-alive'}
# 請求頭資訊

data = []
# 所有爬蟲的資料都存放到 這個data列表裡面

"""
getList 獲取分頁中的列表資訊
url   分頁地址
"""
def getList(url):

    req = urllib.request.Request(url,headers=herders)
    # 設定請求頭
    response=urllib.request.urlopen(req)
    # 發起請求得到 響應結果response

    htmlText = response.read().decode("utf-8").replace("<!--","").replace("-->","")
    # htmlText = 響應結果read讀取.decode 轉換為utf文字.replace 替換掉html中的註釋
    # 我們需要的結果在註釋中，所以要先替換掉註釋標籤 <!-- -->

    html = BeautifulSoup(htmlText,"lxml")
    # 建立beautifulSoup物件

    thread_list=html.select(".j_thread_list")
    # 獲取到所有的旅遊類別


    # 遍歷旅遊列表
    for thread in thread_list:
        title = thread.select(".j_th_tit")[0].get_text()
        author = thread.select(".frs-author-name")[0].get_text()
        time= thread.select(".is_show_create_time")[0].get_text()
        # 提取標題，作者，事件
        print(title) # 列印標籤
        data.append([title,author,time])
        # 追加到總資料中

"""
獲取到所有的分頁地址，最大5頁
url 頁面地址
p=5 最多5頁
"""
def getPage(url,p=5):
    for i in range(5):
        link = url+str(i*50)
        # 再一次拼接 第1頁0  第2頁50 第3頁100 第4頁150
        getList(link)
        # 執行獲取頁面函式getList

"""
寫入excel檔案
data 被寫入的資料
"""
def writeExecl(data):
    lens = len(data)
    # 獲取頁面的長度
    workbook = xlsxwriter.Workbook('travel.xlsx')
    # 建立一個excel檔案
    sheet = workbook.add_worksheet()
    # 新增一張工作表
    sheet.write_row("A1",["標題","作者","時間"])
    # 寫入一行標題
    for i in range(2, lens + 2):
        sheet.write_row("A"+str(i),data[i - 2])
    # 遍歷data 寫入行資料到excel
    workbook.close()
    # 關閉excel檔案
    print("xlsx格式表格寫入資料成功！")

"""
定義主函式
"""
def main():
    getPage(url,5) #獲取分頁
    writeExecl(data) #寫入資料到excel

# 如果到模組的名字是__main__ 執行main主函式
if __name__ == '__main__':
    main()

七、單詞表


main        主要的
def         (define) 定義
getPage     獲取頁面
writeExcel  寫入excel
workbook    工作簿
sheet       表
write_row   寫入行
add         新增
close       關閉
len         length長度
data        資料
range       範圍
str         （string）字串
append      追加
author      作者
select      選擇
Beautiful   美麗
Soup        糖
herders     頭資訊
response    響應
read        讀
decode      編碼
Request     請求
parse       解析
quote       引用

線上練習：https://www.520mg.com/it

IT 入門感謝關注

15-python爬取百度貼吧-excel儲存

讓我們爬取百度貼吧旅遊資訊，看看哪些地方是大家旅遊關注的熱點。不要問我這個十一去哪兒旅遊了，我還在家沒日沒夜的碼程式碼。

python爬取百度貼吧文字內容

爬取百度貼吧文字內容方法1: 點選檢視程式碼**匯入urllib庫** from urllib import request

python網路爬蟲案例：批量爬取百度貼吧頁面資料

⾸先我們建立⼀個 python⽂件, tiebaSpider.py，我們要完成的是，輸⼊⼀個百度貼吧的地址，⽐如：

Python爬取百度圖片

import urllib.request as urqt import urllib.parse as urps from urllib.parse import quote import requests

利用python爬取百度百科python詞條相關的1000個頁面資料

1.分析目標，獲取抓取策略 1）入口頁記錄該網址：https://baike.baidu.com/item/Python/407313?fr=aladdin

python 爬取百度文庫並下載(免費文章限定)

import requests import re import json import os session = requests.session() def fetch_url(url): return session.get(url).content.decode(\'gbk\')

python爬取百度頁面的熱搜榜,爬取百度這種大網頁你還不來看看

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲爬取百度搜索內容程式碼例項

這篇文章主要介紹了Python爬蟲爬取百度搜索內容程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python+selenium+bs4爬取百度文庫內文字 && selenium 元素可以定位到，但是無法點選問題 && pycharm多行縮排、左移

先說一下可能用到的一些python知識一、python中使用的是unicode編碼, 而日常文字使用各類編碼如:gbk utf-8 等等所以使用python進行文字讀寫操作時候經常會出現各種錯誤, 一般都是操作時沒有進行轉碼操作.而轉碼則需

Python使用requests模組爬取百度翻譯

requests模組： python中原生的一款基於網路請求的模組，功能非常強大，簡單便捷，效率極高。

python爬蟲-爬取百度圖片

python爬蟲-爬取百度圖片（轉） #!/usr/bin/python# coding=utf-8# 作者:Y0010026# 建立時間:2018/12/16 16:16# 檔案:spider_04.py# IDE:PyCharm# 爬取百度圖片（GET方式爬取Ajax資料）import urllib2url = \'http:/

利用python批量爬取百度任意類別的圖片的實現方法

利用python批量爬取百度任意類別的圖片時：（1）：設定類別名字。（2）：設定類別的數目，即每一類別的的圖片數量。

Python爬蟲爬取百度翻譯之資料提取方法

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

爬取百度圖片Python指令碼

技術標籤：爬蟲正則表示式百度python 最近專案要求對黑煙進行檢測，在網上找其他博主要了一些資料集，自己也發現了一個可以爬取百度圖片的指令碼，在此分享給大家！！！不多說，下面直接上程式碼。

Python實現百度貼吧自動頂貼機

開發這款小工具，我們需要做一些準備： url.txt：多個需要頂起的帖子地址。 reply：多條隨機回覆的內容。

Python批量爬取百度圖片 2021-01-25

技術標籤：pythonpython爬蟲最近在看人臉替換軟體因為涉及原視訊切換提取人臉的過程因此想到是否可以下載同一人物的不同人臉來進行代替原視訊的人臉切片這裡簡單科普一下人臉替換的原理： 1、對原視訊進行切

python爬蟲爬取百度百科資料

技術標籤：python爬蟲 #!/usr/bin/env python # -*- coding: utf-8 -*- import json import re import requests

【Python】百度貼吧爬蟲

# -*- coding: utf-8 -*- \"\"\" 爬取百度貼吧中指定帖子中的所有圖片——————requests-bs4-re路線

百度貼吧的一段語法糖程式碼分析

function r(){var i=\"\\u5176\\u4ed6\";return\"1\"==t.is_zone_forum&&(i=\"\\u6838\\u5fc3\\u533a\"),$(\"#tab_forumname\").parent(\".j_tbnav_tab\").hasClass(\"focus\")?i=\"\\u770b\\u5e16\":$(\"#

案例3 百度貼吧爬蟲

import requests class TiebaSpider: \"\"\"貼吧爬蟲\"\"\" def __init__(self, keywords): # 貼吧名稱 self.kw = keywords

15-python爬取百度貼吧-excel儲存

一 、用到技術

二、 目標頁面

三、結果

四、安裝 必要的庫

五、分析頁面

1. 頁面規律

2. 頁面資訊

六、全部程式碼

七、單詞表

相關推薦

一、用到技術

二、目標頁面

四、安裝必要的庫