【問題】使用BeautifulSoup解析在python2和python3下表現不一樣？

阿新 • • 發佈：2019-01-30

我要解析的網址是：http://browse.renren.com/sAjax.do?ajax=1&q=&p=[{%22t%22:%22age%22,%22range%22:%221%22}]&s=0&u=874525581&act=search&offset=0&sort=0
貌似是需要人人賬號才能登陸。

我想要得到這個頁面一共十個使用者的id。從chrome開發者工具的Element中可以看到–>
這裡寫圖片描述

先找到 ol class=”fl search_log”等等等這個標籤，再去找他的直接子孩子，10個 li 標籤（ol和li標籤在原始碼中也是有的，不用擔心在Element中有，在檢視網頁原始碼中沒有）。

於是我在python2中：

ageUrl = 'http://browse.renren.com/sAjax.do?ajax=1&q=&p=[{"t":"age","range":"1"}]&s=0&u=874525581&act=search&offset=%0&sort=0' 
agePage = urllib2.urlopen(ageUrl).read()
liList = BeautifulSoup(agePage).find(class_=['f1', 'search_log']).find_all('li', recursive=False)

可以得到：
這裡寫圖片描述

是10個

再看 ol class=f1 search_log… 標籤的孩子吧：
這裡寫圖片描述

11個孩子，contents[1]顯示不全，是一個使用者的 li

我再用python3:

這裡寫圖片描述

可以去看liList，它把所有10個li都作為列表的一項了（這裡就不放圖了）

再看 ol class=f1 search_log… 標籤的孩子吧

這裡寫圖片描述

兩個孩子。contents[1]顯示不全，好長一溜兒呢，是10個使用者的 li

我不知道為什麼網頁結構解析的都不一樣
stackoverflow上有個問題Python3, BeautifulSoup dropping a paragraph tag

，人家那是BeautifulSoup解析前後網頁結構不一樣，和我的還是有點差別的。

裡面有說到，對於網頁結構不好的頁面來說，使用不同的解析器結果是不同的。參見BeautifulSoup文件中的程式碼診斷：

如果想知道Beautiful Soup到底怎樣處理一份文件,可以將文件傳入 diagnose() 方法(Beautiful Soup 4.2.0中新增),Beautiful Soup會輸出一份報告,說明不同的解析器會怎樣處理這段文件,並標出當前的解析過程會使用哪種解析器:

from bs4.diagnose import diagnose
data = open("bad.html").read()
diagnose(data)

# Diagnostic running on Beautiful Soup 4.2.0
# Python version 2.7.3 (default, Aug  1 2012, 05:16:07)
# I noticed that html5lib is not installed. Installing it may help.
# Found lxml version 2.3.2.0
#
# Trying to parse your data with html.parser
# Here's what html.parser did with the document:
# ...

那我就在python2,3中分別試下，看他們用的是什麼解析器

這裡寫圖片描述

可以看到python2是html.parser。

這裡寫圖片描述

非常悲劇的看到，python3是先試了html5lib（不是說lxml最優先的麼？），再去找lxml，沒有居然報錯了，奇怪。算了，兩個都沒有，我想他也是用的html.parser咯。

所以py2和py3用的都是html.parser，然後結果不一樣。
我不知道怎麼解決。

【問題】使用BeautifulSoup解析在python2和python3下表現不一樣？

我要解析的網址是：http://browse.renren.com/sAjax.do?ajax=1&q=&p=[{%22t%22:%22age%22,%22range%22:%221%22}]&s=0&u=874525581&am

【python】第一日 python2和python3區別命名方式三種結構

一、python2和python3區別 1）print 語句區別　　python2：print是個class，所以可以不用加括號，print 1,2+3 　　python3：print是個內建函式，必須加括號，print（1，2+3，end=" "） 2）input區別　　python2：inp

同時在安裝Python2和Python3下安裝pygame

請先參照這篇文章 http://www.cnblogs.com/Jacklovely/p/6524572.html 在Python3下安裝pygame，首先在終端（Ctrl + r，cmd）切換到下載的pygame****.whl所在檔案下，然後輸入 py -3 pip i

python2和python3的pickle不能相容的解決方法

python2 下用highest_protocol來dump物件,得到的pkl檔案無法在python3下解析,報錯: UnicodeDecodeError: 'ascii' codec can't decode byte 0xc2 in position 2: ordinal no

Learing-Python【0】：Windows環境下Python2和Python3的安裝

一行 str rip 打開 spa ont exe 分享圖片 tps 一、下載可以在官網下載最新版本，也可以在以下鏈接中找想安裝的版本下載下來，這裏以Python3.6和Python2.7為例 https://www.python.org/ftp/python/

【Python】同時安裝了python2和python3時，pip命令該如何使用？

window 安裝同時如何使用軟件模塊如果 bsp 如何當python2和python3同時安裝windows上時，它們對應的pip都叫pip.exe，所以不能夠直接使用 pip install 命令來安裝軟件包。而是要使用啟動器py.exe來指定pip的版本

Mac系統下安裝ipython分別支持python2和python3

python cnblogs rip fff tro -c 我們 usr sta 操作系統：Mac10.11.5 python2.7.13 python3.6.1 安裝python2： brew install python 安裝python3： brew in

Windows下python2和python3共存時pip失效的解決辦法

python ins win style color python3安裝解決 pan python3 同時有python2和python3的時候,使用pip install命令系統不能檢測出對應的python,所有不能再用pip install安裝包.改用以下命令: 為p

windows下python2和python3共存

python3 安裝目錄 script 3.5 .py https 默認操作系統真的從github下載的python項目有時需要python2，有時需要python3，這個真的很惡心配置步驟如下：操作系統：win10 安裝步驟省略，相信都能安裝 (1)改名稱給電腦

windows下安裝Python2和Python3共存

scripts python3.6 令行 class for gpo 環境分享圖片 python 一、Python安裝 1.下載安裝包　　　　 1 https://www.python.org/ftp/python/2.7.14/python-2.7.14.amd64

windows下同時安裝python2和python3

htm 正常 post 麻煩 ima 分享圖片 pos 一位 mage 之前學習的時候使用2.7比較多。想練習3.7的時候，兩個版本兼容的問題，苦惱了幾天。查了一下資料，發現了一個很好的方法。記錄一下，也做一個分享。本篇內容主要講一下，在同一臺電腦上如何同時安裝P

Windows下安裝python2和python3雙版本

-m 成功 span not xms 所有自動 lB IT 現在大家常用的桌面操作系統有：Windows、Mac OS、ubuntu，其中Mac OS 和 ubuntu上都會自帶python。這裏我們只介紹下Windows（我用的Win10）環境下的python2.x 和

Linux下切換python2和python3為默認執行版本的方式（也能作用於sublime等編輯器的默認執行方式）

安裝路徑 linux code bsp 指令 config 選項原來 pda 使用 alternate 機制可以自由切換python默認版本，只需要在終端輸入簡單的幾個指令： sudo update-alternatives --install /usr/bin/

解決windows下python2和python3共存時，pip失效

fat ML creat htm -- error 安裝 .exe launch 使用pip安裝時報錯， pip install SendKeysFatal error in launcher: Unable to create process using ‘"c:\lib

python2和python3的區別（附帶程式碼解析）

1. input()函式 python2中的input()函式：獲取當前輸入的內容，並將其作為指令來處理； python3中的input()函式：獲取當前輸入的內容，並將其作為字串來處理；在pytohn2環境中：在輸入中文‘小花’的時候，會顯示語法

WIN10下Python2和Python3共存情況下pip安裝問題

如題，py2和py3共存的問題，網上教程很多，但是我在安裝完之後發現無法使用pip在不同版本下安裝不同的包，下面就解決這個問題 1、我常用py3,所以只對py2進行了更改，即python命令還是執行py3,python2是執行py2 2、首先在win+R,輸入cmd 3、重新安裝pi

Ubuntu環境下python2和python3切換

環境：Ubuntu16.04 Ubuntu自帶python2，有時候需要使用pytho3。該如何切換呢？使用 update-alternatives 操作方法：建立連結： sudo update-alternatives --install /usr/bin

Windows 7下同時安裝python2和python3

今天在windows7 已經安裝了Python3.7.0的情況下，又下載安裝了Python2.7.11，然而，在安裝pip2工具時，遇到種種問題，網路上的教程解決方案紛繁雜亂，實在是心累，現在開始解除安裝py2和py3，重新安裝py2和py3和編輯器PyCharm，安裝過程全

【問題記錄】控制檯解析preview和response資料不一致→解決JS處理後臺返回的Long型資料精度丟失

問題描述：後端返回資料preview和response不一致（翻譯成專業術語就是：JS處理後臺返回的Long型資料精度丟失）問題分析： JS在處理返回資料型別是Long的時候，精度會丟失一部分！！！問題原因： JS內建有32位整數，而number型

Win10下利用Pycharm切換使用Python2和Python3

之前使用的Python3，但又苦於有的程式使用Python2，所以只能在同一臺電腦上同時安裝Python2，Python3，之後具體在Pycharm中切換使用應對不同的專案。 1.安裝Python3

【問題】使用BeautifulSoup解析在python2和python3下表現不一樣？

相關推薦