python爬蟲學習第十二天

阿新 • • 發佈：2019-01-24

今天學習了用Beautifulsoup函式來獲取指定的節點，以及用當前結點順藤摸瓜找到其子節點，後代節點，兄弟節點，父節點。

練習1 findAll 函式抽取只包含在標籤裡的文字
還順便把class=’red’標籤裡的內容也提取了

# from urllib.request import urlopen
# from bs4 import BeautifulSoup

# r = urlopen('http://www.pythonscraping.com/pages/warandpeace.html')
# bsObj = BeautifulSoup(r)
# persons = bsObj.findAll('span',{'class':'green'}) 

# conversasions = bsObj.findAll('span',{'class':'red'})
# for name in persons:
#   print(name.get_text())
# print('\n')
# for talks in conversasions:
#   print(talks.get_text())

練習2 查詢內容匹配的html元素
查詢html元素在昨天已經練習過了就是find/findall函式。
利用這兩個函式的tag引數與tagAtrribute引數可以讓我們檢索大多數標籤，此外我們還可以通過text引數（下面的例子正是如此）匹配內容包含制定字串的標籤

# from urllib.request import urlopen
# from bs4 import BeautifulSoup

# r = urlopen('http://www.pythonscraping.com/pages/warandpeace.html')
# bsObj = BeautifulSoup(r)
# test = bsObj.findAll(text = 'the prince')
# print(len(test))

練習3 子標籤和後代標籤注意他們的區別

子標籤就是一個父標籤的下一級，而後代標籤是指一個父標籤下面所有級別的標籤。所有的子標籤都是後代標籤，但不是所有的後代標籤都是子標籤。

# from urllib.request import urlopen
# from bs4 import BeautifulSoup

# r = urlopen('http://www.pythonscraping.com/pages/page3.html')

# bsObj = BeautifulSoup(r)
# for child in bsObj.find('table',{'id':'giftList'}).children:
#   print(child)
# print('\n')
# for descendant in bsObj.find('table',{'id':'giftList'}).descendants:
#   print(descendant)

練習4 用next_siblings獲取兄弟節點

# from urllib.request import urlopen
# from bs4 import BeautifulSoup

# r = urlopen('http://www.pythonscraping.com/pages/page3.html')
# bsObj = BeautifulSoup(r)
# for sibling in bsObj.find('table',{'id':'giftList'}).tr.next_siblings:
#   print(sibling)

練習5 用parent/parents操作父節點

# from urllib.request import urlopen
# from bs4 import BeautifulSoup

# r = urlopen('http://www.pythonscraping.com/pages/page3.html')
# bsObj = BeautifulSoup(r)
# money = bsObj.find('img',{'src':'../img/gifts/img1.jpg'}).parent.previous_sibling
# print(money.get_text())

python爬蟲學習第十二天

今天學習了用Beautifulsoup函式來獲取指定的節點，以及用當前結點順藤摸瓜找到其子節點，後代節點，兄弟節點，父節點。練習1 findAll 函式抽取只包含在標籤裡的文字還順便把class=’red’標籤裡的內容也提取了 # from url

python學習第十二天：閉包函數與裝飾器

源代碼 -s 為什麽 pre def func stop 修改 rom 閉包函數：什麽是閉包函數：閉指的是定義在一個函數內部包指的是該函數包含對外部作用域（非全局作用域）名字的引用 def counter(): 　　n=0 　　d

python自動化運維學習第十二天--面向物件和類

面向物件和類面向過程和麵向物件程式設計面向過程程式設計：函數語言程式設計，C語言等面向物件程式設計：C++，Java，Python等類和物件類和物件是面向物件中的兩個重要概念類：是對事物的抽象，比如：人類、球類等物件：是類的

python自動化開發-[第十二天]-前端Css

html cto 導致比較基本語法 itl 一個 pan pytho CSS基本語法　　CSS 規則由兩個主要的部分構成：選擇器，以及一條或多條聲明。 selector { property: value;

linux系統學習第十二天-<<工程師技術>>

linux工程師技術 linux管理員技術 linux雲計算工程師深圳雲計算王森雲計算運維工程師虛擬化概述 ? Virtualization 資源管理 – x個物理資源 --> y個邏輯資源 – 實現程度:完全、部分、硬件輔助(CPU) 手動新建一臺虛擬機：

Java進階學習第十二天（監聽器、國際化）

一、監聽器 1、監聽器（listener）：主要是用來監聽特定物件的建立或銷燬、屬性的變化的！是一個實現特定介面的普通java類！ 2、物件：自己建立自己用（不用監聽）別人建立自己用（需要監聽） 3、Servlet中哪些物件需要監聽？ request / se

Python系統學習第十二課

單繼承和多繼承單繼承：每個類只能允許繼承一個類多繼承：每個類允許繼承多個類單繼承優缺點傳承有序邏輯清楚語法清晰語法簡單隱患少功能不能無限擴充套件，只能在當前唯一的繼承鏈中擴充套件多繼承優點：類的功能擴充套件方便

Java學習第十二天

package lesson12; import java.util.*; import java.io.*; class Test { public static void main(String[] args) throws Exception { //S

Spring學習第十二天：FactoryBean配置bean

Spring 中有兩種型別的 Bean, 一種是普通Bean, 另一種是工廠Bean, 即FactoryBean. 工廠 Bean 跟普通Bean不同, 其返回的物件不是指定類的一個例項, 其返回的是該工廠 Bean 的 getObject 方法所返回的物件

java學習第十二天之多執行緒死鎖和併發

package MoreThreadLearn; /* 兩個儲戶到銀行存錢，每個人存了三次，一次100元 1、描述銀行 2、描述儲戶業務分析多執行緒是否存在安全隱患？ 1、執行緒任務中是否有共享的資料 2、是否多條操作共享資料的程式碼 */ public

node.js 學習第十二天 utils

一、Utils 是node.js的常用工具類 var util=require('util'); //原型類 function Base () {this.name='basename';this.b

黑馬程式設計師----基礎學習第十二天

------- android培訓、java培訓、期待與您交流！ ----------

學習python的第十二天

本節主要內容: 1. ⽣生成器和⽣生成器函式2. 列列表推導式⼀、生成器 1. 通過⽣生成器函式 2. 通過各種推導式來實現⽣生成器 3. 通過資料的轉換也可以獲取⽣生成器 send和__next__()區別: 1. send和next()都是讓⽣生成器向下走⼀一次 2. send可以

學習python第十二天，函式4 生成器

在Python中，這種一邊迴圈一邊計算的機制，稱為生成器：generator 要建立一個generator，有很多種方法。第一種方法很簡單，只要把一個列表生成式的[]改成()，就建立了一個generator： >>> L = [x * x for x in range(10)] &

python第十二天

() ati urn col nbsp div 斐波那契數傳值 log 第二模塊學習: 生成器，叠代器，內置函數生成器特點：只有在調用時才會生成相應的數據，運行的速度快！示例： 1 def fil(max):#斐波那契數 2 n,a,b=0,0,1

python學習第十一天裝飾器

老板 wrapper clas int 過程 pos pri python 獲取 1.作業講解 # 2、寫函數，接收n個數字，求這些參數數字的和。def sum_func(*args): total = 0 for i in args: total +=

python學習第十一天,函數,閉包函數,函數名,可叠代對象與叠代器globas()l與locals()

技術占用內存 oba lob port 調用 def 內置函數報錯內置函數: dir(str)或dir(‘alex‘) --->看該類型內置的方法有哪些,返回一個列表 dict.__iter__() 或 iter(dict) --->將可叠代對象轉換為叠代

python學習第十六天集合的關系測試

bsp python 文章快樂數據 nbsp intersect enc 交集在做數據分析的時候，要對一個集合分析，而且分析多個集合的之間的關系分析，那麽用傳統的循環的比較麻煩，集合提供很多方法，很容易比較多個集合的關系，並集，交集，差集，對稱差集等。 n1={1,2

python 學習第二十二天（threading模組）

啟動一個執行緒 import threading import time def he(num): #定義每個執行緒要執行的函式 print("running on number:%s" %num) time.sleep(3) if __name

python 學習第二十二天（程序和執行緒）

程序程序就是一個程式在一個數據集上的一次動態執行過程。程序一般由程式、資料集、程序控制塊三部分組成。我們編寫的程式用來描述程序要完成哪些功能以及如何完成；資料集則是程式在執行過程中所需要使用的資源；程序控制塊用來記錄程序的外部特徵，描述程序的執行變化過程，系統可以利

python爬蟲學習第十二天

相關推薦