python爬蟲-bs4解析

阿新 • • 發佈：2022-03-08

bs4解析概述

bs4解析技術是python獨有的一種資料解析方式

bs4實現資料解析原理：

例項化一個BeautifulSoup物件，並將頁面原始碼載入到該資料中

載入本地的html

    # 本地載入
    fp1 = open("../data2/test.html", 'r', encoding="utf-8")
    soup1 = BeautifulSoup(fp1, 'lxml')

載入網際網路上的html

    fp2 = response.text
    soup2 = BeautifulSoup(fp1, 'lxml')

通過BeautifulSoup物件中的屬性和方法來進行標籤定位和資料提取

環境的準備

pip install bs4
# 這是一個xml解析器
pip install lxml

爬取紅樓夢小說的所有章節標題和內容

"""
案例：爬取紅樓夢全部標題和內容
url = "https://www.shicimingju.com/book/hongloumeng.html"
    - 每一個章節標題都是一個a標籤
    - 章節的內容在href中
    - a標籤的層級是 div class="book-mulu" -> ul -> li -> a
"""

import requests
from bs4 import BeautifulSoup

if __name__ == '__main__':
    # UA偽裝
    headers = {
        "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) "
                      "Version/14.1 Safari/605.1.15 "
    }
    # 檔案儲存位置
    fp = open("../data2/honglou.text", 'w', encoding='utf-8')
    # 對頁面進行捕獲
    url = "https://www.shicimingju.com/book/hongloumeng.html"
    page = requests.get(url=url, headers=headers)
    page.encoding='utf-8'
    # 解析出章節標題和內容的url
    # 1，載入頁面到靚湯物件中
    soup = BeautifulSoup(page.text, 'lxml')
    # 2，解析章節標題和詳情頁的url
    li_list = soup.select('.book-mulu > ul > li')
    for li in li_list:
        title = li.a.string
        detail_url = "https://www.shicimingju.com" + li.a['href']
        # 對詳情頁發起請求，解析出章節內容
        detail_page = requests.get(url=detail_url, headers=headers)
        detail_page.encoding='utf-8'
        detail_soup = BeautifulSoup(detail_page.text, 'lxml')
        div_tag = detail_soup.find("div", class_="card bookmark-list")
        content = div_tag.text
        # 持久化儲存
        fp.write(title + ':\n' + content + '\n')
        print(title + "爬取成功！")
    fp.close()

python爬蟲-bs4解析

bs4解析概述 bs4解析技術是python獨有的一種資料解析方式 bs4實現資料解析原理：

Python爬蟲過程解析：多執行緒獲取小米應用商店資料

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python爬蟲過程解析之多執行緒獲取小米應用商店資料

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

python爬蟲beautifulsoup解析html方法

用BeautifulSoup 解析html和xml字串例項： #!/usr/bin/python # -*- coding: UTF-8 -*- from bs4 import BeautifulSoup

python爬蟲-xpath解析

前言 xpath解析方式可以說是最常用最便捷高效的一種解析方式了。而且具有很高的通用性。

Python爬蟲使用bs4方法實現資料解析

聚焦爬蟲: 爬取頁面中指定的頁面內容。編碼流程： 1.指定url 2.發起請求 3.獲取響應資料

python爬蟲貓眼電影和電影天堂資料csv和mysql儲存過程解析

字串常用方法 # 去掉左右空格 \'hello world\'.strip()# \'hello world\' # 按指定字元切割

Python爬蟲 scrapy框架爬取某招聘網存入mongodb解析

建立專案 scrapy startproject zhaoping 建立爬蟲 cd zhaoping scrapy genspider hr zhaopingwang.com 目錄結構

Python爬蟲解析網頁的4種方式例項及原理解析

這篇文章主要介紹了Python爬蟲解析網頁的4種方式例項及原理解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python爬蟲模擬瀏覽器訪問-User-Agent過程解析

這篇文章主要介紹了python爬蟲模擬瀏覽器訪問-User-Agent過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python爬蟲使用瀏覽器cookies：browsercookie過程解析

很多用Python的人可能都寫過網路爬蟲，自動化獲取網路資料確實是一件令人愉悅的事情，而Python很好的幫助我們達到這種愉悅。然而，爬蟲經常要碰到各種登入、驗證的阻撓，讓人灰心喪氣（網站：天天碰到各種各樣的爬蟲

Python爬蟲爬取Bilibili彈幕過程解析

先來思考一個問題，B站一個視訊的彈幕最多會有多少？比較多的會有2000條吧，這麼多資料，B站肯定是不會直接把彈幕和這個視訊綁在一起的。

python爬蟲 Pyppeteer使用方法解析

引言 Selenium 在被使用的時候有個麻煩事，就是環境的相關配置，得安裝好相關瀏覽器，比如 Chrome、Firefox 等等，然後還要到官方網站去下載對應的驅動，最重要的還需要安裝對應的 Python Selenium 庫，確實是不是很

Python爬蟲圖片懶載入技術 selenium和PhantomJS解析

一.什麼是圖片懶載入？ - 案例分析：抓取站長素材http://sc.chinaz.com/中的圖片資料

python爬蟲 2019中國好聲音評論爬取過程解析

2019中國好聲音火熱開播，作為一名“假粉絲”，這一季每一期都刷過了，尤其剛播出的第六期開始正式的battle。視訊視訊看完了，那看下大家都是怎樣評論的。

python爬蟲模組URL管理器模組用法解析

這篇文章主要介紹了python爬蟲模組URL管理器模組用法解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

Python爬蟲程式架構和執行流程原理解析

1 前言 Python開發網路爬蟲獲取網頁資料的基本流程為：發起請求通過URL向伺服器發起request請求，請求可以包含額外的header資訊。

Python爬蟲爬取、解析資料操作示例

本文例項講述了Python爬蟲爬取、解析資料操作。分享給大家供大家參考，具體如下：

Python爬蟲工具requests-html使用解析

使用Python開發的同學一定聽說過Requsts庫，它是一個用於傳送HTTP請求的測試。如比我們用Python做基於HTTP協議的介面測試，那麼一定會首選Requsts，因為它即簡單又強大。現在作者Kenneth Reitz 又開發了requests-htm

Python爬蟲谷歌Chrome F12抓包過程原理解析

瀏覽器開啟網頁的過程就是爬蟲獲取資料的過程，兩者是一樣一樣的。瀏覽器渲染的網頁是豐富多彩的資料集合，而爬蟲得到的是網頁的原始碼htm有時候，我們不能在網頁的html程式碼裡面找到想要的資料，但是瀏覽器開啟的網