BeautifulSoup 提取某個tag標籤裡面的內容

阿新 • • 發佈：2019-02-04

用的版本是BeautifulSoup4，用起來的確要比 re 好用一些，不用一個個的去寫正則表示式，這樣還是挺方便的。

比如我要獲取高匿代理IP頁面上的IP和埠，網址這裡：點選開啟連結，它的組織方式是這樣的，如下圖：

IP和埠 tr.td 標籤裡面，tr有class屬性，屬性有兩種情況的值，對於這點我們可以用正則表示式來匹配下。當提取某一個標籤裡的具體內容時，可以用bs的 .string屬性，注意：用 .string 屬性來提取標籤裡的內容時，該標籤應該是隻有單個節點的。比如上面的 td 標籤那樣。下面直接上程式碼了。

import requests
from bs4 import BeautifulSoup
import re
import os.path

user_agent = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5)'
headers = {'User-Agent': user_agent}

session = requests.session()
page = session.get("http://www.xicidaili.com/nn/1", headers=headers)
soup = BeautifulSoup(page.text,'lxml')  #這裡沒有裝lxml的話,把它去掉用預設的就好

#匹配帶有class屬性的tr標籤
taglist = soup.find_all('tr', attrs={'class': re.compile("(odd)|()")})
for trtag in taglist:
    tdlist = trtag.find_all('td')  #在每個tr標籤下,查詢所有的td標籤
    print tdlist[1].string   #這裡提取IP值
    print tdlist[2].string   #這裡提取埠值

結果如下：

124.88.67.24
80
61.224.239.71
8080
113.3.78.124
8118
61.227.228.141
8080
222.130.171.58
8118
123.57.190.51
7777
183.61.71.112
8888
120.25.171.183
8080
1.164.146.91
8080
101.201.235.141
8000
121.193.143.249
80
118.180.15.152
8102
124.88.67.19
80
。
。
。
。
。
。
。

BeautifulSoup 提取某個tag標籤裡面的內容

用的版本是BeautifulSoup4，用起來的確要比 re 好用一些，不用一個個的去寫正則表示式，這樣還是挺方便的。比如我要獲取高匿代理IP頁面上的IP和埠，網址這裡：點選開啟連結，它的組織方式是這樣的，如下圖： IP和埠 tr.td 標籤裡面，tr有class屬性，

使用mybatis提供的各種標籤方法實現動態拼接Sql。使用sql片段提取重複的標籤內容

Sql中可將重複的sql提取出來，使用時用include引用即可，最終達到sql重用的目的，如下： <select id="findUserByNameAndSex" parameterType="com.huida.po.User" resultType="com.huida.po.Us

HTML提取所有div標籤下的所有及下子標籤的內容

示例程式碼如下： <div> <p>123154872313</p> <p>test <em>http://baidu.com</em> </p> </div> p標籤下的內容一般是網頁文字內容，

C# 正則表示式抓取網頁上某個標籤的內容，並替換連結地址和圖片地址

#region 獲取第三方網站內容 //獲取其他網站網頁內容的關鍵程式碼 WebRequest request = WebRequest.Create(第三方的網站地址); WebResponse response = requ

Scrapy(二)獲取script標籤裡面的資料內容

1.資料例子演示 1.1主要獲取內容 2.開始擼程式碼(python3.6) 只是部分主要程式碼 import requests from bs4 import Beauti

fork開源代碼後如何基於某個tag建立自己的branch

xxx 代碼管理基於項目 tag name for github demo 　　應用場景: 　　在github上fork一個自己想看的開源項目，想基於某個tag來寫一些測試demo，然後可以做到版本控制。　　方法: //克隆 git clone xxxxx.git

【Golang】如何不反序列化為前提的情況下，修改ProtoBuffer某個Tag的值

刪除 tag mage msg 挑戰客戶 Golan protobuff 直接當你從客戶端接收到一串序列化後的數據，你需要　　- 修改其中某一個標簽的值，然後把它傳遞到真正的業務數據，這樣每個業務模塊（微服務）就不需要和公共授權服務打交道了。　　- 因為傳

js、jq和標籤裡面設定按鈕可點選與不可點選狀態

<button id="bt1" type="button">button</button> 1、js中設定按鈕可點選與不可點選，預設是可點選的 (1)設定按鈕不可點選 document.getElementById("bt1").disabled=ture;

織夢文章tag標籤或者文章keyword關鍵字呼叫相關文章

官方的dede:likearticle並沒有那麼精準的輸出相關文章，下面我們自定義一個類庫檔案來實現精準獲取相關文章，支援直接輸出自定義欄位，支援flag文章屬性，非常適合SEO eregtype='all|tag|keyword'，單用tag來呼叫相關文章，也可用tag|keyword來呼叫相關文章(預設

織夢首頁列表頁獲取文章對應的tag標籤(帶連結)

dedecms程式預設有個方法可以調用出tag來，只不過是不帶連線的，我們想要加入tag連結的話可以借鑑官方的方法並加入連結，這樣需要自己來自定義個方法。標籤效果實現教程開啟 include/extend.func.php 在最下面加入 /** * 首頁/列表獲取文章Tag * *

談談企業資訊系統tag標籤資料庫設計及基於多選元件bootstrap-select的實現

一、摘要 Tag標籤類似於分類，可以用於標記、區分事物，但又不同於分類，通常分類是單一所屬，而Tag往往是多個。如純淨水596ml它屬於純淨水分類，可以標記：596ml、純淨水、掃碼有獎等tag。本文討論限於企業資訊系統中的tag標籤應用，涉及2部分內容：tag標籤資料庫設計，前端頁面如

爬取伯樂線上文章（二）通過xpath提取原始檔中需要的內容

爬取說明以單個頁面為例，如：http://blog.jobbole.com/110287/ 我們可以提取標題、日期、多少個評論、正文內容等 Xpath介紹 1.　xpath簡介（1）　xpath使用路徑表示式在xml和html中進行導航（2）　xpath包含標準函式庫（3）　xpat

jsp自定義時間轉化tag標籤

1.新建Java型別DateTag import java.io.IOException; import java.text.SimpleDateFormat; import java.util.Calendar; import javax.servlet.jsp.JspExcepti

織夢dede:tag標籤輸入新增自增autoindex

TAG標籤輸出有時為了判斷或者其他，我們需要獲取它的自增數字，織夢dede:tag預設標籤沒有自增標籤，我們可以自己新增開啟 /include/taglib/tag.lib.php 找到 $ctp->LoadSource($InnerText); 在它下面加入 $GLOBALS['auto

織夢手機站新增tag標籤列表頁

1、複製網站根目錄的 tags.php 到 m 資料夾，改一下里面路徑和模板找到 require_once (dirname(__FILE__) . "/include/common.inc.php"); 改成 define('DEDEMOB', 'Y'); require_once (dirnam

織夢tag標籤當前列表地址(動靜態)

動態 {dede:field.title runphp=yes}global $cfg_cmsurl;@me = $cfg_cmsurl."/tags.php?/".urlencode(@me)."/";{/dede:field.title} 靜態(生成拼音形式) {dede:field.title r

微信小程式獲取標籤裡面的自定義資料

<view wx:for="{{receiverlist}}" wx:for-item="receiver" wx:key="" wx:for-index="idx"> <input type='number' value='{{salesNumber}}' data-na

利用BeautifulSoup去除HTML指定標籤和去除註釋

去除指定標籤 from bs4 import BeautifulSoup #去除屬性ul [s.extract() for s in soup("ul")] # 去除屬性svg [s.extract() for s in soup("svg")] # 去除屬性script [s.extr

html中的p標籤文字內容首字母縮排

<p class="parallax-alt" style="text-indent: 3em;"> &

Git tag 標籤操作

列表 # 列出已有的標籤 $ git tag # 為了能及時看到遠端上新增的標籤, 在上面的命令之前可以fetch一下 git fetch --all --tags --prune # 列出匹配的部分標籤, 萬用字元 * $ git tag -l 'v1.8.5*' 檢視 # 檢

BeautifulSoup 提取某個tag標籤裡面的內容

相關推薦