lxml和bs4對頁面進行解析

阿新 • • 發佈：2018-12-06

from lxml import etree

from bs4 import BeautifulSoup
html = '''
<div class="f13">
<a target="_blank" href="http://www.baidu.com/link?url=8NwIRNMjHgSZMoBsMFARK9L2W2rAZbunOrnxOnwCcVSJ26Bm5tv5M0dfhcoWioKRvigAqBe_oriwar0_DMx2ldSAemA5mR1yKEhEorCmAyi" class="c-showurl" style="text-decoration:none;">https://www.linkedin.com/jobs/...&nbsp;</a>
<div class="c-tools" id="tools_3067671572010737909_113" data-tools="{&quot;title&quot;:&quot;122 個“Ibm”職位 - VIC,Melbourne | 領英 &quot;,&quot;url&quot;:&quot;http://www.baidu.com/link?url=8NwIRNMjHgSZMoBsMFARK9L2W2rAZbunOrnxOnwCcVSJ26Bm5tv5M0dfhcoWioKRvigAqBe_oriwar0_DMx2ldSAemA5mR1yKEhEorCmAyi&quot;}">
<a class="c-tip-icon"><i class="c-icon c-icon-triangle-down-g"></i></a></div><span class="c-icons-outer"><span class="c-icons-inner">
<span class="c-vline"></span><span class="c-trust-as vstar " data_key="4678554371015554406" hint-data="{&quot;label&quot;:&quot;LINKEDINIRELAND&quot;,&quot;url&quot;:&quot;https://www.baidu.com/ 
[email protected]&amp;vmp_ec=cd88488d93644919848a6666cf250p3b8d23Xbab4803aa037=584Wj5ibyasReZ3r5WXda0dd33sJ2c7e11d802&amp;vmp_ectm=1541580796&amp;from=vs&quot;,&quot;hint&quot;:[{&quot;txt&quot;:&quot;[ecard 109]&quot;,&quot;vlevel&quot;:&quot;3&quot;}]}" hint-type="vstar" render="render">
<a href="https://www.baidu.com/ 
[email protected]&amp;vmp_ec=cd88488d93644919848a6666cf250p3b8d23Xbab4803aa037=584Wj5ibyasReZ3r5WXda0dd33sJ2c7e11d802&amp;vmp_ectm=1541580796&amp;from=vs&amp;product=v&amp;rsv_dl=0_left_v_3" class="c-icon c-icon-v c-icon-v3" target="_blank" data-click="{'title':'vstar','rsv_vlevel':'3'}"></a></span></span></span>&nbsp;-&nbsp;
<a data-click="{'rsv_snapshot':'1'}" href="http://cache.baiducontent.com/c?m=9f65cb4a8c8507ed19fa950d100b92235c438014628c8c4c2882c81484642c101a39fee37a7251198895237001d91101bab12172415c77e9cb95cf0a81ec852859cc7c65671df207528a0eaebd0467817dc44de9d941a6edb07087eb8f93895b089a0c&amp;p=8649cd15d9c908f60cbe9b7c54&amp;newp=8e33c64ad49b11a052b9c1124453d8234f08d30e3cd1c44324b9d71fd325001c1b69e3b82127160ed2c17a6c15e9241dbdb239256b5578&amp;user=baidu&amp;fm=sc&amp;query=IBM&amp;qid=b328826100031292&amp;p1=113" target="_blank" class="m">百度快照</a></div>


<div class="f13">
<a target="_blank" href="http://www.baidu.com/link?url=FKsYxTZ8lADvW6bWVlG9IjN3AqtLxcxi_gvrOHsubuqH0wvOYxR-XB42hxE-GQGNwRJOeRzxv92HZjNxCxhz1GzEzt5D5NWiQvrvEaG2kmK" class="c-showurl" style="text-decoration:none;">https://www.linkedin.com/in/fr...&nbsp;</a>
<div class="c-tools" id="tools_11389073726320003270_114" data-tools="{&quot;title&quot;:&quot;Fred Balboni - Retired - IBM | 領英 &quot;,&quot;url&quot;:&quot;http://www.baidu.com/link?url=FKsYxTZ8lADvW6bWVlG9IjN3AqtLxcxi_gvrOHsubuqH0wvOYxR-XB42hxE-GQGNwRJOeRzxv92HZjNxCxhz1GzEzt5D5NWiQvrvEaG2kmK&quot;}">
<a class="c-tip-icon"><i class="c-icon c-icon-triangle-down-g"></i></a></div>
<span class="c-icons-outer"><span class="c-icons-inner"><span class="c-vline"></span>
<span class="c-trust-as vstar " data_key="4678554371015554406" hint-data="{&quot;label&quot;:&quot;LINKEDINIRELAND&quot;,&quot;url&quot;:&quot;https://www.baidu.com/ 
[email protected]&amp;vmp_ec=cd88488d93644919848a6666cf250p3b8d23Xbab4803aa037=584Wj5ibyasReZ3r5WXda0dd33sJ2c7e11d802&amp;vmp_ectm=1541580796&amp;from=vs&quot;,&quot;hint&quot;:[{&quot;txt&quot;:&quot;[ecard 109]&quot;,&quot;vlevel&quot;:&quot;3&quot;}]}" hint-type="vstar" render="render">
<a href="https://www.baidu.com/[email protected]&amp;vmp_ec=cd88488d93644919848a6666cf250p3b8d23Xbab4803aa037=584Wj5ibyasReZ3r5WXda0dd33sJ2c7e11d802&amp;vmp_ectm=1541580796&amp;from=vs&amp;product=v&amp;rsv_dl=0_left_v_3" class="c-icon c-icon-v c-icon-v3" target="_blank" data-click="{'title':'vstar','rsv_vlevel':'3'}"></a></span></span></span>&nbsp;-&nbsp;
<a data-click="{'rsv_snapshot':'1'}" href="http://cache.baiducontent.com/c?m=9f65cb4a8c8507ed19fa950d100b92235c438014628c8c4c2882c81484642c101a39fee07b3f444484936b6777ff1a02baad6a29200356e798c8884adeb8943567d23034064dda55578e59f9c41d759e&amp;p=cb759a46d6c21dfc57efce665741c6&amp;newp=8e7bc64ad4825aff57ee947f110e88231610db2151d4d1146b82c825d7331b001c3bbfb423261000d3ce7c6201a94a5be8f732763d0923a3dda5c91d9fb4c57479c93c&amp;user=baidu&amp;fm=sc&amp;query=IBM&amp;qid=b328826100031292&amp;p1=114" target="_blank" class="m">百度快照</a></div>

'''

# soup = BeautifulSoup(html,'lxml')
# print(soup.a.string)
html=etree.HTML(html)
urls = html.xpath('//a[contains(text(),".linkedin.com/in/")]')
#取含有linkedin.com/in/的百度快照的連結
for url in urls:
    url = url.xpath('@href')
    kuaizhao = html.xpath('..//a[contains(text(),"百度快照")]/@href')
    print(url[0])
    print(kuaizhao[0])

lxml和bs4對頁面進行解析

from lxml import etree from bs4 import BeautifulSoup html = ''' <div class="f13"> <a target="_blank" href="http://www.baidu.com/link?url

Appium多點觸控-MultiAction對頁面進行放大或縮小

在網頁中我們經常使用縮放操作來便利的檢視具體的資訊，在appium中使用MultiAction多點觸控的類來實現 MultiAction是多點觸控的類，可以模擬使用者多點操作。主要包含載入add()和執行perform()兩個方法. MultiAction一般和TouchAction結合使用，故

Python指令碼--基於正則表示式對檔案進行解析

Python指令碼--基於正則表示式對檔案進行解析首先需要了解正則表示式中的相應指令（compile、findall）,我對此的理解是compile相當於一個規則的制定者，將匹配的規則制定出來，後續具體的操作是findall的工作【選擇適當的規則

Java讀取1G以上的txt檔案，並對內容進行解析,利用BufferedReader設定快取大小

讀取檔案路徑，讀入使用帶緩衝的輸入輸出流，效率更高，速度更快。建立一個內部緩衝區陣列並將其儲存在 buf 中,該buf的大小預設為8192。 File file = new File(filepath); BufferedInputStream fis = ne

測試前奏之 Robotium使用Eclipse和ADT對apk進行黑盒測試

測試的基本概念曝光兩個概念：黑盒測試、白盒測試黑盒測試功能測試、資料驅動測試或基於規格說明的測試，是通過使用整個軟體或某種軟體功能來嚴格地測試, 而並沒有通過檢查程式的原始碼或者很清楚地瞭解該軟體的原始碼程式具體是怎樣設計的。（無原始碼基於apk的測試）

IO練習（FileReader和Writer對檔案進行讀寫）

package aa; import java.io.*; public class aaa { public static void main(String[] args) throws IOException { File file=new Fi

Android 完美實現圖片圓角和圓形對實現進行分析

轉載請標明出處：http://blog.csdn.net/lmj623565791/article/details/24555655本來想在網上找個圓角的例子看一看，不盡人意啊，基本都是官方的Demo的那張原理圖，稍後會貼出。於是自己自定義了個View，實現圖片的圓角以及圓形效

Java使用for和foreach對陣列進行遍歷操作

java使用for和foreach對陣列進行遍歷操作 package learn; import java.util.Arrays; //foreach的語法：for(元素型別元素變數：遍歷物件){執行程式碼} public class ForeachOperationArray

分別根據key和value對HashMap進行排序

通過把把Map中的所有Entry存入一個List,然後呼叫collection的sort進行排序操作. Map<Integer, Integer> map = new HashMap<Integer, Integer>(); map.put

Confluence 6 使用 WebDAV 客戶端來對頁面進行操作

下面的部分告訴你如何在不同的系統中來設定原生的 WebDAV 客戶端，這個客戶端通常顯示在你作業系統的檔案瀏覽器中，例如，Windows 的 Windows Explorer 或者 Linux 的 Konqueror。在 Mac OSX Finder 中訪問 Confluence 你可以成功的連

使用phantomjs對頁面進行截圖

phantomjs是一個無介面瀏覽器，可用於網頁截圖和前端自動化測試，基於webkit核心（也就是chrome使用的核心），並使用js編寫業務指令碼來請求、瀏覽和操作頁面。 1、安裝phantomjs 下載phantomjs（官網下載），選擇自己需要的版本下載即可，我這

在 Perl 中利用 DOM 和 XPath 對 XML 進行有效處理

“文件物件模型（DOM）”是一個與平臺和語言無關的介面，它用於動態訪問和更新 XML 文件的內容、結構和樣式。DOM 定義了一組表示文件的標準介面、一個用於組合這些物件的標準模型和一組用於訪問和操縱它們的標準方法。DOM 是一個“W3C 建議”，這使它成為大家公認的 Web 標準。可以用包括 Perl、

十三.通過pagination對頁面進行分頁

在view中，我們建立一個分頁函式pagination，並單獨建立一個分頁機制的檔案，以供所有表格分頁時使用。 1.在views中建立pagination函式，用於分頁。為了測試方便，我們每頁僅顯示2條記錄。 Views.py: #分頁函式 de

使用ViewGrop和Fragment對Fragmen進行快取

最近寫了個專案底部是ViewGroup佈局內容是使用Fragment進行填充，寫完之後領導說點選下面切換的時候介面都會延遲一下才會進行顯示讓我進行修改，於是我只能加快取了。 @Override public View onCreateView(La

用javaScript對頁面元素進行顯示和隱藏

ron 進行 remove 元素 rip 如果 hidden strong 而是將顯示元素進行隱藏用document.getElementById("ID名").hidden=ture;根據頁面元素ID名獲得頁面元素值，進而將其屬性設置成隱藏。將隱藏元素進行顯示對於

使用pull方式和sax方式對xml文件進行解析

tostring 需要 nts tag .com version thp response pri 這是我自己設置的xml文件用一下方式獲取它的內容 try{ OkHttpClient client = new OkHttpClient(); Request

什麼是閉包？關於閉包的工作原理、優缺點、使用場景和對頁面的影響解析

閉包（closure）是javascript的一大難點，也是它的特色。很多高階應用都要依靠閉包來實現。 1、變數作用域要理解閉包，首先要理解javascript的特殊的變數作用域。變數的作用域無非就兩種：全域性變數和區域性變數。 javascript語言的

Python爬蟲解析htm時lxml的HtmlElement對象獲取和設置inner html方法

3.6 The target 接口導入模塊查找內容 XML encoding Python的lxml是一個相當強悍的解析html、XML的模塊，最新版本支持的python版本從2.6到3.6，是寫爬蟲的必備利器。它基於C語言庫libxml2 和 libxslt，進行了

用mongodb資料庫, 對爬取的頁面進行監控(mongo_cache)和資料儲存

由於在爬蟲時, 可因為各種原因導致爬蟲在爬取頁面的時候從中間斷開連線, 當再次爬取的時候不知道從什麼地方開始, 這裡利用mongodb封裝一個類, 用來監控哪些網頁已經爬取過, 哪些沒有爬取, 為以後監控提供方便. 建立一個mongo_cache.py的檔案, 具體程式碼如下 imp

利用lucene和pdfBox對PDF文字進行內容的解析

wechat:812716131 ------------------------------------------------------ 技術交流群請聯絡上面wechat ----------------------------------------------

lxml和bs4對頁面進行解析

相關推薦