爬蟲基礎框架之bs4 (一) --- bs4基礎

阿新 • • 發佈：2019-05-02

nts ldr spa ant end for Coding gen fin

bs4簡介

bs4是一個html的解析工具，根據html的特征和屬性來查找節點

1 from bs4 import BeautifulSoup
2 
3 fp = open("./test.html", "r", encoding="utf-8")
4 print(fp)

初始化一個BeautifulSoup對象

1 soup = BeautifulSoup(fp, ‘lxml‘)
2 # 參數1，是一個HTML字符串
3 # 參數2，代表一個解析器，因為bs4本身沒有解析器，可以借助於外界的解析器來解析
4 
5 print(soup)

1、根據標簽來查找對象

1 print(soup.title)
2 print(soup.a)      # 如果標簽有多個，只提取第一個

2、獲取標簽的屬性

1 a = soup.a
2 print(a.get("href"))   # 用get函數來獲取
3 print(a["href"])       # 用鍵值方式獲取
4 print(a.attrs)

3、獲取內容

1 li = soup.li
2 print(li.string)      # 通過string屬性獲取，可以獲取當前標簽的字符串內容（包括註釋），但是如果當前內容中有子標簽則獲取為空 

3 print(li.get_text())  #通過get_text函數獲取，獲取出當前節點的字符串和後代節點中所有的字符串並且拼接在一起，但是如果有註釋則忽略

4、獲取後代節點

 1 body = soup.body
 2 
 3 # 1）獲取直接子節點
 4 children = body.children
 5 print(children)   3打印結果：<list_iterator object at 0x0000026E8ED16080>
 6 
 7 # 2）獲取後代節點
 8 des = body.descendants
 9 print 
(des)  # 打印結果：<generator object descendants at 0x00000203556CD048>
10 
11 # 3）對節點進行遍歷
12 for node in des:

5、用函數來查找

 1 # 1）find函數
 2 print(soup.find("a"))
 3 print(soup.find("li",class_=‘hehe‘))
 4 print(soup.find("li",id=‘hehe‘))
 5   
 6 # 2）find_all函數
 7 print(soup.find_all("a"))
 8   
 9 # 3) select函數，根據css選擇器來選取節點,返回值是一個列表
10 print(soup.select(".heihei"))
11 print(soup.select("#hehe"))
12 print(soup.select("[href=‘http://mi.com‘]"))
13 print(soup.select("[name=‘ok‘]"))

基礎選擇器：id選擇器，#id值。class選擇器，.class值。標簽選擇器，標簽名。通用選擇器，*。屬性選擇器 [某屬性=‘某值‘]
組合選擇器：選擇器1選擇器2...選擇器n (如果這些選擇器中有標簽要放在最前面)
派生選擇器：後代選擇器：選擇器1 選擇器2 ... 選擇器n
子選擇器：選擇器1 > 選擇器2 > ... > 選擇器n

爬蟲基礎框架之bs4 (一) --- bs4基礎

爬蟲基礎框架之xpath(一) --- xpath基礎

join read [1] tco ext from ans 註意 csv xpath簡介 lxml是一個第三方框架，用於對xml文件進行格式化操作（html文件是一種特殊xml文件） xpath是一種基於xml文件，根據xml文件的文檔結構來提取目標元

爬蟲基礎框架之bs4 (一) --- bs4基礎

nts ldr spa ant end for Coding gen fin bs4簡介 bs4是一個html的解析工具，根據html的特征和屬性來查找節點 1 from bs4 import BeautifulSoup 2 3 fp = open("

appium自動化之（一）基礎環境配置

APPIUM 基礎環境配置文章來源：企鵝號 - 全棧軟體測試 1、安裝配置JDK 這個不用多說常規操作 2、Android SDK 安裝官方下載地址：https://developer.android.com/studio/index.html?hl=zh-cn 其他地址：

MySQL基礎系列之記一次利用儲存過程實現2600萬資料水平分表

日常開發中我們經常會遇到大表的情況，所謂的大表是指儲存了百萬級乃至千萬級條記錄的表。這樣的表過於龐大，導致資料庫在查詢和插入的時候耗時太長，效能低下，如果涉及聯合查詢的情況，效能會更加糟糕。分表的目的就是減少資料庫的負擔，提高資料庫的效率，通常點來講就是提高表的增刪改查效率，本文將介紹我

TypeScript基礎入門之JSX(一)

介紹 JSX是一種可嵌入的類似XML的語法。它旨在轉換為有效的JavaScript，儘管該轉換的語義是特定於實現的。 JSX在React框架中越來越受歡迎，但此後也看到了其他實現。 TypeScript支援嵌入，型別檢查和直接編譯JSX到JavaScript。基本

Putty基礎教程之（一）.入門命令學習及編寫HTML

Linux初學轉自部落格點這裡覺得大佬寫的超級好就轉載了常見命令包括： cd 資料夾名：檢視路徑 dir ：檢視當前路徑下的所有檔案 ls ：列出當前資料夾下所有內容 pwd ：顯示當前路徑 clear ：清空終端螢幕命令，Ctrl+L清除螢幕 m

文字主題模型之LDA(一) LDA基礎

在前面我們講到了基於矩陣分解的LSI和NMF主題模型，這裡我們開始討論被廣泛使用的主題模型：隱含狄利克雷分佈(Latent Dirichlet Allocation，以下簡稱LDA)。注意機器學習還有一個LDA，即線性判別分析，主要是用於降維和分類的，如果大家需要了解這個LD

後臺學習之路(一):Java基礎回顧

集合: 單列集合: Collection:單列集合的根介面 List:實現了List介面的集合類,具備的特點:有序、

Tensorflow深度學習之十一：基礎影象處理

OpenCV是一個十分強大的視覺庫，tensorflow也提供了十分強大的圖片處理函式，下面是一個簡單的例子來說明使用tensorflow和opencv兩個工具進行深度學習程式的設計。首先是使用的原始圖片： import tensorflow as

java基礎篇之5-------一維陣列的拷貝

作業： 1、{1,2,3,4,5,6} 將奇數放在偶數前面大小順序不要求 public static int[] sortArray(int[] a) { int odd = 0;// 奇數下標 int even

Android四大元件之服務(一)-----服務基礎功能簡述

服務(Service)是android的四大元件之一，在Android專案中擔任著後臺執行的大任，主要去完成那些不需要和使用者互動而且還要求長時間執行在後臺的工作。服務的執行不會對使用者使用app造成任何影響，這個元件屬於很常用的元件，幾乎每一款app產品都會用到，比如後臺

資料庫基礎篇之MySQL(一）

--開啟資料庫 mysql -u 使用者名稱 -p password:使用者名稱密碼 --建立資料庫並設定編碼格式 create database 庫名 charset 編碼格式 --檢視資料庫 show databases; --開啟資料庫 use 資料庫的名字;

學習大數據基礎框架hadoop需要什麽基礎

成了磁盤 pla out kafka amba ima 人工 nlp 什麽是大數據？進入本世紀以來，尤其是2010年之後，隨著互聯網特別是移動互聯網的發展，數據的增長呈爆炸趨勢，已經很難估計全世界的電子設備中存儲的數據到底有多少，描述數據系統的數據量的計量單位從MB（1M

爬蟲開坑之路(一)

VG dia mage isp tex tro 需要正式 ont 什麽是爬蟲　　網絡爬蟲(web crawler)，也叫網絡蜘蛛(spider)，是一種用來自動瀏覽萬維網的網絡機器人(bots)。爬蟲是通過網頁的鏈接地址來尋找網頁，從網站某一個頁面開始，讀取網頁的內容

java基礎學python（一）------------基礎語法

基本物件型別字串 (string)，簡記為 str 使用''或""括起來的一系列字元整數(integer)，簡記為 int 十進位制:21，八進位制:025，十六進位制:0x15 浮點數(float) 1.65，21.0，21.，.21，2.

python 爬蟲 scrapy框架的使用一

1 首先安裝 scrapy ： pip install scrapy 2 用命令建立一個spider工程： scrapy startproject spider5 3 建立一個spider檔案，並指定爬蟲開始的域名： scrapy gensp

python 爬蟲 scrapy框架的使用一

pytho clas 工程本地 emp mpi 原理 png 下載 1 首先安裝 scrapy ： pip install scrapy 2 用命令創建一個spider工程： scrapy startproject spider5 3 創建一個s

單元測試框架之unittest(一)

一、單元測試的含義 unittest單元測試框架的設計靈感來源於Junit(Java語言的單元測試框架)，它與其他語言的單元測試框架風格相類似，支援自動化測試、為測試共享setUp和shutDown、它可以在將測試用例聚合到一起形成一個集合一起執行的同時在測試報告中展示獨立的測試結果。為了達到此目的，u

從壹開始前後端分離【 .NET Core2.0 +Vue2.0 】框架之十一 || AOP自定義篩選，Redis入門 11.1

大神留步先說下一個窩心的問題，求大神幫忙，如何在AOP中去使用泛型，有償幫助，這裡謝謝，文末有詳細問題說明，可以留言或者私信都可以。當然我也會一直思考，大家持續關注本帖，如果我想到好辦法，會及時更新，並通知大家。程式碼已上傳Github+Gitee，文末有地址　　傳統的快取是在Co

java框架之struts(一)

Struts2 是基於MVC的WEB框架在Hello Struts中，將展示最基本的Struts的配置後續的學習都在這個基礎上進行 1、在eclipse中建立Web動態專案struts 在eclipse中新建專案struts，使用dynamic

爬蟲基礎框架 之bs4 (一) --- bs4基礎

bs4簡介

相關推薦

爬蟲基礎框架之bs4 (一) --- bs4基礎