Python爬蟲：使用BeautifulSoup分析網頁結構注意事項

阿新 • • 發佈：2018-12-29

開始我用BeautifulSoup分析網頁時候這樣做：

#從檔案讀取html原始檔內容
with open("html.txt", "r", encoding='utf-8') as file:
    content = file.read()
    
#替換轉義字元    
map = {"&lt;" : "<",
        "&gt;" : ">",
        "&amp;" : "&",
        "&quot;" : "\"",
        "&copy;" : "©"}
for (k, 
 v) in map.items():
    content = content.replace(k, v)

#獲取網頁Tag結構
soup = BeautifulSoup(str, 'lxml')

後來發現會出現奇怪的問題，原來上面的替換多此一舉。
BeautifulSoup會將HTML的例項都轉換成Unicode編碼，而且在獲取內容時候會自動替換為字串。
所以上面的程式碼可以直接簡化為：

soup = BeautifulSoup(open("html.txt", "r", encoding='utf-8'), 'lxml')

具體例子：

from bs4 import 
 BeautifulSoup  
html_str = '''
<html><body>
<div>
&gt; 我們的祖國是花園 &lt;）
</div>
</body></html>
'''
soup = BeautifulSoup(html_str, 'lxml')
print(soup.div)
print(soup.div.string)

輸出正常：

<div>
&gt; 我們的祖國是花園 &lt;）
</div>

> 我們的祖國是花園 <）

如果我們先對字串進行了替換，如下面這個程式：

from bs4 import BeautifulSoup  
html_str = '''
<html><body>
<div>
> 我們的祖國是花園 <）
</div>
</body></html>
'''
soup = BeautifulSoup(html_str, 'lxml')
print(soup.div)
print(soup.div.string)

輸出：

<div>
&gt; 我們的祖國是花園 
</div>

> 我們的祖國是花園

發現<）這兩個字元會因為BeautifulSoup的容錯能力而造成丟失。

Python爬蟲：使用BeautifulSoup分析網頁結構注意事項

開始我用BeautifulSoup分析網頁時候這樣做： #從檔案讀取html原始檔內容 with open("html.txt", "r", encoding='utf-8') as file: content = file.read() #替換轉義字元 map

python爬蟲之BeautifulSoup解析網頁

BeautifulSoup是一個很簡單又好用的庫，不過解析速度相對比較慢，使用如下： 1，安裝 pip install bs4 （被加到了bs4中） #python3用pip3 install bs4 ，如果有許可權問題，可以試試，pip install bs4 --

Python爬蟲：BeautifulSoup常用操作

此筆記沒有做太多實驗，僅做參考，具體情況還要檢視文件：https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/#id4 初始化： from bs4 import BeautifulSoup # 從檔案獲取 soup = Be

python爬蟲使用POST登入時的注意事項

Requests提供了一個Session的概念，在連續訪問網頁時能自動處理Cookie的方式，程式會自動把Cookie的值帶上，像瀏覽器一樣，不用關注具體細節。用法示例如下： import reqests longinUrl = 'http://www.xxxxx.c

Python開發爬蟲之BeautifulSoup解析網頁篇：爬取安居客網站上北京二手房數據

澳洲 pytho 目標 www. 委托 user info .get web 目標：爬取安居客網站上前10頁北京二手房的數據，包括二手房源的名稱、價格、幾室幾廳、大小、建造年份、聯系人、地址、標簽等。網址為：https://beijing.anjuke.com/sale/

Python爬蟲：lxml模組分析並獲取網頁內容

運用css選擇器： # -*- coding: utf-8 -*- from lxml import html page_html = ''' <html><body> <input id="input_id" value="input value" nam

python學習之爬蟲：BeautifulSoup

att clas XML http ng- making bsp style span 一、功能： BeautifulSoup是用來從HTML或XML中提取數據的Python庫。二、導入： from bs4 import BeautifulSoup import bs4

使用IE控制元件來分析網頁結構，模擬測試爬蟲，使用scrapy+selenium來執行網頁爬蟲

通常我們使用scrapy來進行網頁內容的收集，但使用起來非常的不方便： 1. 需要使用工具，或者手動來計算得到網頁元素的xpath。 2. 對一些網頁內需要ajax的執行才顯示的內容處理起來並不方便。我通過找相關的工具，研究爬蟲方案，找到了一個比較合適的工具軟體，和方便易用的處理流程：

Python爬蟲：爬取拉勾網資料分析崗位資料

1 JSON介紹 JSON（JavaScript Object Notation）已經成為通過HTTP請求在Web瀏覽器和其他應用程式之間傳送資料的標準格式之一。比CSV格式更加靈活。Json資料格式，非常接近於有效的Pyhton程式碼，其特點是：JSON物件所

Python爬蟲（BeautifulSoup）實戰：抓取豆瓣讀書新書速遞模組

import requests from bs4 import BeautifulSoup html = requests.get('https://book.douban.com/').text s

Python爬蟲：Scrapy框架基礎框架結構及騰訊爬取

Scrapy終端是一個互動終端，我們可以在未啟動spider的情況下嘗試及除錯程式碼，也可以用來測試XPath或CSS表示式，檢視他們的工作方式，方便我們爬取的網頁中提取的資料。如果安裝了 IPython ，Scrapy終端將使用 IPython (替代標準Python終端)。 IPytho

Python爬蟲：selenium掛shadowsocks代理爬取網頁內容

selenium掛ss代理爬取網頁內容 from selenium import webdriver from selenium.webdriver.chrome.options import Options from selenium.common.exceptions import

Python爬蟲：Selenium+ BeautifulSoup 爬取JS渲染的動態內容（雪球網新聞）

爬取目標：下圖中紅色方框部分的文章內容。（需要點選每篇文章的連結才能獲得文章內容）注：該文章僅介紹爬蟲爬取新聞這一部分，爬蟲語言為Python。乍一看，爬蟲的實現思路很簡單：（2）通過第一步所獲得的各篇文章的URL，抓取文章內容。但是發現簡單使用urlli

Python爬蟲：如何建立BeautifulSoup物件

from urllib.request import urlopen from bs4 import BeautifulSoup html = '<div>text1</div>

[原創]python爬蟲之BeautifulSoup,爬取網頁上所有圖片標題並存儲到本地文件

%20 分享圖片本地 col cbc quest 執行 python div from bs4 import BeautifulSoup import requests import re import os r = requests.get("https:/

Python爬蟲：學爬蟲前得了解的事兒

編寫 election 檢查語言 jpg mage 圖片一個網頁這是關於Python的第14篇文章，主要介紹下爬蟲的原理。提到爬蟲，我們就不得不說起網頁，因為我們編寫的爬蟲實際上是針對網頁進行設計的。解析網頁和抓取這些數據是爬蟲所做的事情。對於大部分網頁來講，它

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

Python爬蟲：新浪新聞詳情頁的數據抓取（函數版）

earch edit arm python爬蟲 print 詳情 contents enter uwa 上一篇文章《Python爬蟲：抓取新浪新聞數據》詳細解說了如何抓取新浪新聞詳情頁的相關數據，但代碼的構建不利於後續擴展，每次抓取新的詳情頁時都需要重新寫一遍，因此，我們需

Python爬蟲：HTTP協議、Requests庫

.org clas python爬蟲 print 通用娛樂信息傳輸協議介紹 HTTP協議： HTTP（Hypertext Transfer Protocol）：即超文本傳輸協議。URL是通過HTTP協議存取資源的Internet路徑，一個URL對應一個數據資源。

Python 爬蟲：把廖雪峰教程轉換成 PDF 電子書

網絡 odi 變量 turn chrome github htm git 臨時文件寫爬蟲似乎沒有比用 Python 更合適了，Python 社區提供的爬蟲工具多得讓你眼花繚亂，各種拿來就可以直接用的 library 分分鐘就可以寫出一個爬蟲出來，今天嘗試寫一個爬蟲，將廖雪

Python爬蟲：使用BeautifulSoup分析網頁結構注意事項

相關推薦