python bs4模組 BeautifulSoup 學習筆記

阿新 • • 發佈：2018-11-08

bs4 模組的 BeautifulSoup 可以用來爬取html頁面的內容，配合requests庫可以寫簡單的爬蟲。

1、利用requests請求html頁面，獲取HTML頁面內容

import requests
from bs4 import BeautifulSoup


session = requests.session()

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}

session.headers.update(headers)

# step 1  開啟登陸頁面
url = 'http://10.10.10.10/xx'
r = session.get(url)
html = r.text

2、利用BeautifulSoup，解析HTML得到想要的資訊

soup = BeautifulSoup(html, 'html.parser')
# BeautifulSoup支援多種元素定位方式，也支援CSS定位,得到的是一個列表，列表中的元素資訊可以用get方法獲取
s1 = soup.select('#id')[0].get('value')
#S1 就是對應元素value屬性的值
print(s1)

python bs4模組 BeautifulSoup 學習筆記

bs4 模組的 BeautifulSoup 可以用來爬取html頁面的內容，配合requests庫可以寫簡單的爬蟲。 1、利用requests請求html頁面，獲取HTML頁面內容 import requests from bs4 import BeautifulSoup

python 常用模組 os (學習筆記四)

os python作業系統介面版本：python3.6 官方文件 os模組的常用功能: os.name 顯示當前使用的平臺 >>> import os &

Python的內建模組struct學習筆記

python處理二進位制資料時可以使用python的struct模組。 struct模組中最重要的三個函式是pack(), unpack(), calcsize()： pack(fmt, v1, v2, ...) 按照給定的格式(fmt)，返回一個包裝後的字串。

python︱HTML網頁解析BeautifulSoup學習筆記

一、載入html頁面資訊一種是網站線上的網頁、一種是下載下來的靜態網頁。 1、線上網頁 import requests from bs4 import BeautifulSoup headers={'User-Agent': 'Mozill

python框架之 Tornado 學習筆記（一）

tornado pythontornado 一個簡單的服務器的例子：首先，我們需要安裝 tornado ，安裝比較簡單： pip install tornado 測試安裝是否成功，可以打開python 終端，輸入： import tornado.https

python中strip()方法學習筆記

bbb 方法學 python pytho ring strip strip() clas ng2 Python strip() 方法用於移除字符串頭尾指定的字符（默認為空格）。當使用strip(‘xxx‘)，只要字符串頭尾有"xxx"中的一個，就會去掉，而不是符合字符串‘

寫在最前面的話-2017年老男孩最新全棧python第2期學習筆記

全棧人類感悟 bsp style 重點 alex 針對碼農這系列的博客的內容是針對2017年老男孩最新全棧python第2期課程做的隨堂筆記，講課人是Alex Li。課程我是在淘寶網上買到的，聽了之後受益匪淺，在這裏向大家推薦一下。筆記內容大多是隨堂記錄，老師講的挑

Python視頻教程學習筆記

學習筆記1.Python安裝 1.1 Linux安裝python centos 6.5版本默認安裝python 2.6.6，安裝2.7版本需要使用wget下載源碼包,下載完進行解壓並在解壓文件夾中進行安裝操作，安裝完成進入python 1.2 windows安裝python 官

python文件操作學習筆記

python-文件操作學習筆記#文件操作：讀：f = open("/Users/zhouhaijun/python/01.py","r")x = f.read()print x寫：f = open("/Users/zhouhaijun/python/file_01.py","wb")f.write("ok")

NGINX+UWSGI+PYTHON+FLASK環境搭建——————學習筆記

conf pre listen 入口 root block helloword rc.local ftp 搭建環境安裝依賴包 #yum -y install gcc gcc-c++ zlib zlib-devel openssl openssl-devel pcre p

Python:GUI之tkinter學習筆記2界面布局顯示

lB cfi ipa die uia 是否打包 top adp 相關內容： pack 介紹常用參數使用情況常用函數 grid 介紹常用參數使用情況常用函數 place 介紹常用參數使用情況常用函數首發時間：2

Python:GUI之tkinter學習筆記之messagebox、filedialog

files try OS line pad 錯誤 mes false erro 相關內容： messagebox 介紹使用 filedialog 介紹使用首發時間：2018-03-04 22:18 messagebox: 介紹：mes

python新手第一天學習筆記-第一個ptyhon程序和python變量

ali color 輸出 3.5 pri -- class -i bsp 一、python 的註釋和第一個python 程序 : 1、單行註釋 # Author Xiajq 2、多行註釋 ‘‘‘ ------------註釋內容----------------------

Python第三周學習筆記（2）

學習筆記選擇排序：時間復雜度O(n**2) 沒有辦法知道當前輪是否已經達到排序要求，但是可以知道極值是否在目標索引位置上遍歷次數1,...,n-1之和n(n-1)/2 對比冒泡法：減少了交換次數，提高了效率，性能略好方法三、四實際上降低的是平均時間復雜度方法一： nums = [1, 2, 6,

Python第三周學習筆記（1）

學習筆記；內建函數；字典；列表解析式字典 key-value鍵值對的數據的集合可變的、無序的、key不重復初始化： d = dict() d = {} d = dict(**kwargs) 如：d = dict(a=1,b=2) dict(iterable, **kwarg) 使用可叠代對象和na

python中類的學習筆記(源碼版)

類的使用1.1第一段代碼 #定義一個類(define a class ) class Cat: #屬性(attribution) #方法(methods) def eat(self): print("cat is eating

Python第五周學習筆記（1）

學記筆記高階函數 First Class Object 函數也是對象，可調用的對象函數可以作為普通變量、參數、返回值等等數學概念 y=g(f(x)) 在數學和計算機科學中，高階函數應當是至少滿足下面一個條件的函數接受一個或多個函數作為參數輸出一個函數內建高階函數 sorted(itera

Python第五周學習筆記（2）

學習筆記裝飾器應用練習一、實現一個cache裝飾器，實現可過期被清除的功能簡化設計，函數的形參定義不包含可變位置參數、可變關鍵詞參數和keyword-only參數可以不考慮緩存滿了之後的換出問題 1)原始 def cache(fn): import inspect local_c

Python第六周學習筆記（1）

學習筆記文件操作打開操作 io.open(file, mode=‘r‘, buffering=-1, encoding=None,errors=None, newline=None, closefd=True, opener=None) 返回一個文件對象（流對象）和文件描述符。打開文件失敗，則返回異常

Python第六周學習筆記（2）

學習筆記正則表達式正則表達式基本語法元字符代碼說明舉例 . 匹配除換行符外任意一個字符 [abc] 字符集合，只能表示一個字符位置。匹配所包含的任意一個字符 [^abc] 字符集合，只能表示一個字符位置。匹配除去集合內字符的任意一個字符 [a-z] 字符

python bs4模組 BeautifulSoup 學習筆記

相關推薦