【python爬蟲】BeautifulSoup庫的選擇器select()方法

阿新 • • 發佈：2019-01-23

一般使用BeautififulSoup解析得到的Soup文件可以使用find_all()、find()、select() 方法定位所需要的元素。find_all()是獲得list列表、find() 是獲得map一條資料。select() 是根據選擇器可以獲得多條也可以獲得單條資料。一般最常用的是find_all() 和 find() 兩個引數。

select()方法的使用

從頁面中自定義獲得選擇器:
F12中選擇了目標element之後，右鍵—Copy—Copy selector 如圖：
nth-child 在Python中執行會報錯，需要改為 nth-of-type:

如果所複製的選擇器中包含nth-child,則需要改為nth-of-type,否則會報錯。
demo:

import requests
from bs4 import BeautifulSoup
url = 'http://www.cnplugins.com/'
headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36'}
res = requests.get(url,headers = headers) #get方法中加入請求頭 

#檢視下當前requests請求url抓去的資料編碼,這裡獲取的是ISO-8859-1
print (requests.get(url).encoding)
#翻閱下要爬去的網站的編碼是什麼，這裡看了下是utf-8，編碼不一樣會亂碼，將requests獲取的資料編碼改為和目標網站相同，改為utf-8
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text, 'html.parser') #對返回的結果進行解析
# print (soup.select('body > section > div.wrapbox > div:nth-child(1) > div > ul > li:nth-child(6)')) 

# nth-child 在python中執行會報錯，需改為 nth-of-type
# print (soup.select('body > section > div.wrapbox > div:nth-of-type(1) > div > ul > li:nth-of-type(6)'))
textlist = soup.select('body > section > div.wrapbox > div > div > ul > li > div.iimg-box-meta > a')
for t in textlist:
    print (t) #獲取單條html資訊
    print (t.get_text()) #獲取中間文字資訊

【python爬蟲】BeautifulSoup庫的選擇器select()方法

一般使用BeautififulSoup解析得到的Soup文件可以使用find_all()、find()、select() 方法定位所需要的元素。find_all()是獲得list列表、find()

【Python爬蟲】Requests庫的安裝

comm AS imp pypi pan span douban OS host 1.按照普通的pip不能行，說find不能有位小傑控的大牛說了一句：換一個國內的更新源吧， pip install requests -i http://pypi.douban.com/si

【python 爬蟲】BeautifulSoup4 庫的介紹使用

有部分內容為北理嵩天老師的爬蟲教程的個人學習筆記，結合其他部落格整理學習。前言：資訊標記形式 html是將聲音、影象、音訊嵌入到文字中，是Internet上的主要資訊組織、傳遞形式，通過預定義的標籤< >…</ >將不同型別的資訊組織起來。國際上標準的資訊標

【Python爬蟲】requests+Beautifulsoup存入資料庫

本次記錄使用requests+Beautiful+pymysql的方法將大學排名的資料存入本地MySQL資料庫。這是一篇學習性文章，希望能夠分享在學習過程中遇到的坑與學到的新技術，試圖用最簡單的話來闡述我所記錄的Python爬蟲筆記。一、爬取結果

【Python-ML】SKlearn庫整合學習器Bagging

# -*- coding: utf-8 -*- ''' Created on 2018年1月19日 @author: Jason.F @summary: Bagging，通過bootstrap樣本構建整合分類器，樣本有放回抽樣。降低模型方差，防止過擬合。 ''' impo

【Python爬蟲】從html裏爬取中國大學排名

ext 排名所有一個 requests 空格創建 .text request from bs4 import BeautifulSoupimport requestsimport bs4 #bs4.element.Tag時用的上#獲取網頁頁面HTMLdef

python 爬蟲之BeautifulSoup 庫的基本使用

rip data lin value 訪問 pytho 輕松 register tex import urllib2url = ‘http://www.someserver.com/cgi-bin/register.cgi‘values = {}values[‘name‘]

【Python爬蟲】Python安裝

pip 是一個現代的，通用的 Python 包管理工具。提供了對 Python 包的查詢、下載、安裝、解除安裝的功能。 IDLE 是一個Python Shell，一個純 Python下自帶的簡潔的整合開發環境(IDE)。IDLE是跟Python一起安裝的，不過

【Python學習】csv庫

csv(Comma-Separated Values, 逗號分割值)是儲存表格資料的常用檔案格式。它每一行都用一個換行符分隔，列與列之間用逗號分隔。 Python的csv庫可以非常簡單地修改csv檔案，甚至從零開始建立一個csv檔案。比如： import csv csvFile = open("

【Python學習】request庫

.html pri less tps python-r mac os part 絕對路徑 pytho Requests庫(https://www.python-requests.org/)是一個擅長處理那些復雜的HTTP請求、cookie、header（響應頭和請求頭）等內

【Python爬蟲】下載微信公眾號圖片

大家用爬蟲下載圖片時肯定遇到過https://demo?wx_fmt=jpeg連結的圖片，常見的就是微信公眾號的圖片。遇到連結圖片用普通的方式是無法爬取下來的，我們可以用urllib.request進

【Java學習】JFileChooser(檔案選擇器)的使用

一、概述。 javax.swing.JFileChooser()（檔案選擇器）提供了一種檔案選擇機制，一般用於開啟檔案，儲存檔案。二、常用方法。構造器： 1. public JFileChooser() : 構造一個JFileChooser物件，預設開啟的資料

【Python學習】第三方庫安裝後仍然import失敗，提示ModuleNotFoundError:No module named'XXX'

安裝pycharm後，import numpy，執行後提示 ModuleNotFoundError:No module named'XXX' 開啟命令列，輸入pip install numpy後，成功安裝，但再次執行仍然提示錯誤。原因猜測是第三方庫的安裝路徑與imp

python爬蟲系列11--CSS選擇器

參考連結：http://www.w3school.com.cn/cssref/css_selectors.asphttps://blog.csdn.net/u013007900/article/details/54728408css是一門將HTML文件樣式化的語言。選擇器由它

【Python爬蟲】微信公眾號歷史文章和文章評論API分析

上一篇文章爬取微信公眾號文章資訊準備工作介紹了微信公眾號歷史文章和文章評論API的組成情況，歷史文章API格式：https://mp.weixin.qq.com/mp/profile_ext?action=getmsg&__biz=MjM5NjAxOTU4MA==&f=json&

【Python爬蟲】爬取微信公眾號文章資訊準備工作

有一天發現我關注了好多微信公眾號，那時就想有沒有什麼辦法能夠將微信公眾號的文章弄下來，而且還想將一些文章的精彩評論一起搞下來。參考了一些文章，通過幾天的研究基本上實現了自己的要求，現在記錄一下自己的一些心得。整個研究過程如下： 1.瞭解微信公眾號文章連結的組成，歷史文章API組成，單個文章

【Python爬蟲】使用urllib.request下載已知連結的網路資源

如果有這樣一個場景，我們的EXCEL某一列記錄了好多（圖片、視訊、音訊）連結A，另外一列記錄了連結名稱B，現在我們想要自動下載這些連結的檔案，我們應該怎樣處理？ 1.迴圈去excel取值,將A和B存入到一個二維列表中 2.根據連結字尾不同情況（.jpg,.mp4,mp3等）用urllib.req

【python 爬蟲】Mac環境下selenium、ChromeDriver的安裝

1.安裝Selenium庫在終端輸入下面指令： pip3 install selenium 2.安裝ChromeDriver 這個安裝有點麻煩，我參考一個bloghttps://cuiqingcai.com/5135.html的。Mac的rootless機制我弄了很

【python爬蟲】動態載入頁面的解決辦法（以ins為例）

現在很多的web頁面使用ajax技術動態載入頁面。但對於爬蟲來說，目標資料很可能不在頁面HTML原始碼中（右鍵檢視網頁原始碼，通過F12查詢），針對靜態頁面的爬蟲不再滿足現在的需求。很多教程都推薦用Selenium和PhantomJS配合使用，實現網頁的渲染，得到網頁的全

【python爬蟲】抓取連結網頁內的文字（第一步定位超連結文字）

第一步：匯入模組>>> import re >>> from bs4 import BeautifulSoup >>> import urllib.request ---------------------------

【python爬蟲】BeautifulSoup庫的選擇器select()方法

select()方法的使用

相關推薦