Python3.6：bs4解析html基礎用法

阿新 • • 發佈：2017-12-29

實用 pri safari -a webkit con 內容 like div

Python3.6：bs4解析html基礎用法

代碼：

import urllib.request
from bs4 import BeautifulSoup
import re

url = r‘http://fund.eastmoney.com/340007.html?spm=search‘
headers = {
    ‘User-Agent‘: ‘Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36‘}
req = urllib.request.Request(url=url, headers=headers)
res  
= urllib.request.urlopen(req)
html = res.read().decode(‘utf-8‘)

# html字符串創建BeautifulSoup對象
soup = BeautifulSoup(html, "html.parser")
#或者soup = BeautifulSoup(html, "html5lib")

#輸出第一個 title 標簽
print(soup.title)
#輸出第一個 title 標簽的標簽名稱
print(soup.title.name)
#輸出第一個 title 標簽的包含內容
print(soup.title.string)
 
#輸出第一個 title 標簽的父標簽的標簽名稱
print(soup.title.parent.name)

#輸出第一個  p 標簽
print(soup.p)
#輸出第一個  p 標簽的 class 屬性內容
print(soup.p[‘class‘])
#輸出第一個  a 標簽的  href 屬性內容
print(soup.a[‘href‘])

#輸出第一個  p 標簽的所有子節點
print(soup.p.contents)

#輸出第一個  a 標簽
print(soup.a)
#輸出所有的  a 標簽，以列表形式顯示
print(soup.find_all(‘a‘))

# 
輸出第一個 id 屬性等於  gz_gszze 的標簽
print(soup.find(id=‘gz_gszze‘))
#輸出第一個 id 屬性等於  gz_gszze 的標簽的文本內容
print(soup.find(id=‘gz_gszze‘).get_text())

#獲取所有文字內容
print(soup.get_text())
#輸出第一個  a 標簽的所有屬性信息
print(soup.a.attrs)

#循環a標簽
for link in soup.find_all(‘a‘):
    #獲取 link 的  href 屬性內容
    print(link.get(‘href‘))

#對soup.p的子節點進行循環輸出    
for child in soup.p.children:
    print(child)

#正則匹配，標簽名字中帶有sp的標簽
for tag in soup.find_all(re.compile("sp")):
    print(tag.name)

#按照CSS類名搜索tag的功能非常實用,但標識CSS類名的關鍵字 class 在Python中是保留字,使用 class 做參數會導致語法錯誤.從Beautiful Soup的4.1.1版本開始,可以通過 class_ 參數搜索有指定CSS類名的tag
#查找dl標簽class為dataItem02的所有dl標簽
for tag in soup.find_all("dl", class_="dataItem02"):
    print(tag.name)
#或者
for tag in soup.find_all(‘dl‘, attrs={‘class‘: "dataItem02"}):
    print(tag.name)

Python3.6：bs4解析html基礎用法

實用 pri safari -a webkit con 內容 like div Python3.6：bs4解析html基礎用法代碼： import urllib.request from bs4 import BeautifulSoup import re url =

Python3.x的BeautifulSoup解析html常用函數

head .text software 20M 轉碼 second dal 列表條件 Python3.x的BeautifulSoup解析html常用函數 1，初始化： soup = BeautifulSoup(html) # html為html源代碼字符串，type(h

html基礎用法（下）

選中成績 src 沒有 value orm 類型 middle str 設計表格： 1 <html> 2 <head> 3 <title>表格</title> 4

010 python介面 bs4解析html

''' 時間：2018/11/03 功能：bs4解析html 目錄: 一: 學習使用 1 官網介紹 2 安裝Beautiful Soup 3 四種物件 (1) 全部

理解Docker（1）：Docker 安裝和基礎用法

來源：https://www.cnblogs.com/sammyliu/p/5875470.html 1. 安裝 1.1 在 Ubuntu 14.04 上安裝 Docker 前提要求：核心版本必須是3.10或者以上依次執行下面的步驟： sudo apt-g

bs4.BeautifulSoup的基礎用法匯入

匯入模組 from bs4 import BeautifulSoup soup = BeautifulSoup(html_doc,"html.parser") 　　下面看下常見的用法 print(soup.a) # 拿到soup中的第一個a標籤

Python3.6：print 語法錯誤

print 語法錯誤 print step, sess.run(W), sess.run(b) 錯誤原因： python2.7 print 'hello ' &n

Python3.6：NameError:name 'xrange' is not defined

NameError:name ‘xrange’ is not defined 我的python版本為python 3.6，而xrange( )函式時在python 2.x中的一個函式，在Python 3中，range()的實現方式與xrange()函式相同，所以就不存在專用的xra

2018年最新Python3.6網路爬蟲實戰案例基礎+實戰+框架+分散式高清視訊教程(完整版)

課程簡介: 這是一套目前為止我覺得最適合小白學習的體系非常完整的Python爬蟲課程，使用的Python3.6的版本，用到anaconda來開發python程式，老師講解的很細緻，課程體系設定的也非常棒，完全是從淺入深一點點講解，從Python爬蟲環境的安裝開始，講解

Jsoup學習筆記2：Jsoup解析HTML程式碼標籤與屬性

接著上一篇的Jsoup學習筆記1繼續學習，雖然是轉載自上面連結的文章，但是程式做了一點改動，方便自己以後的檢視 package com.daxiang.myjsoup; import org.jsoup.Jsoup; import org.jsoup.nodes.D

python3.6：學會兩行程式碼，深刻理解列表

一碼友問我兩行程式碼如何執行的，看似挺簡單，但涉及的知識點還挺多，值得細細分析，所以和大家分享。這兩行程式碼為： a = [0, 1, 2, 3, 4, 5] a[0:3],a[5]=[[2,3,4,5],7] #重點介紹這句程式執行完畢上面兩行程式之後，大家猜猜，a的結

第12課：HTML+CSS的基礎用法

日常使用 mil rtc 一行 ade user 新頁面 form -s 1. html之head部分的常用標簽的使用  <!DOCTYPE html> <html lang="en

java基礎：運算符的基本用法

自增另一個 stat 不同兩個流程 ava -- 個數運算符：就是對常量和變量進行操作的符號。算數運算符： A:+,-,*,/,%,++,-- B:+的用法 a:加法 b:正號 c:字符串連接符 C:/和%的區別數據做除法操作的時候，/取得是商

node.js零基礎詳細教程(6)：mongodb數據庫操作

insert lte 數組執行 cmd命令行 tables 頁面 down 切換第六章建議學習時間4小時課程共10章學習方式：詳細閱讀，並手動實現相關代碼學習目標：此教程將教會大家安裝Node、搭建服務器、express、mysql、mongodb、編寫

安裝Python3.6.2報錯：zipimport.ZipImportError: can't decompress data; zlib not available

sdn ase title 依賴 tle replace config devel targe 解決方法： 1、安裝依賴zlib、zlib-devel 2、重新編譯安裝Python ./configure 重新編譯安裝：make & make insta

Selenium2+Python3.6實戰（八）：定位下拉菜單出錯，如何解決？用select或xpath定位。

排查會有有時 ide 導入 python3 很好沒有元素在登錄界面，有時候會有幾種不同的角色，針對不同角色定位到的信息是不一樣的。查詢資料知道定位下拉框的元素有兩種方式：Xpath和select。但是使用xpath定位時，user定位到了，登錄的時候卻是調用的a

第十二篇：HTML基礎

項目 logs 瀏覽器圖片 handle 標題欄 width light 標題本篇內容 HTML概述 HTML常用基本標簽 CSS格式引入一、 HTML概述 1.定義： HTML，超文本標記語言，寫給瀏覽器的語言，目前網絡上應用最廣泛的語言。HTML也在不斷

深度學習（TensorFlow）環境搭建：（三）Ubuntu16.04+CUDA8.0+cuDNN7+Anaconda4.4+Python3.6+TensorFlow1.3

缺失應該否則 wid -c 方式 *** 也不能 collected 　　緊接著上一篇的文章《深度學習（TensorFlow）環境搭建：（二）Ubuntu16.04+1080Ti顯卡驅動》，這篇文章，主要講解如何安裝CUDA+CUDNN，不過前提是我們是已經把NVID

Python爬蟲系列（四）：Beautiful Soup解析HTML之把HTML轉成Python對象

調用 nor 結束版本現在 name屬性 data 官方文檔 get 在前幾篇文章，我們學會了如何獲取html文檔內容，就是從url下載網頁。今天開始，我們將討論如何將html轉成python對象，用python代碼對文檔進行分析。 (牛小妹在學校折騰了好幾天，也沒把h

Python3.6：bs4解析html基礎用法

Python3.6：bs4解析html基礎用法

相關推薦