Python爬蟲資料提取方式——使用PyQuery查詢元素

阿新 • • 發佈：2019-01-11

html = """
    <div id='content'>
        <ul class='list'>
            <li class='one'>One</li>
            <li class='two'>Two</li>
            <li class='three'>Three</li>
            <li class='four'>Four</li>
            <div id='inner'>
                <a href='http://www.baidu.com'>百度一下</a>
                <p>第一段</p>
                <p>第2段</p>
                <p>第3段</p>
                <p>
                    第4段
                    <span>法大師傅大師傅</span>
                </p>
                <p>第5段</p>
                <p>第6段</p>
            </div>
        </ul>
    </div>
"""

pyquery：仿照jquery語法，封裝的一個包，和bs4有點類似。

首先：利用PyQuery類，對Html這個文件進行序列化，結果是一個文件物件

doc_obj = PyQuery(html)
print(doc_obj)

接下來：開始查詢元素的方法

從doc_obj這個物件中根據類名匹配元素


   ul = doc_obj('.list') 

   # ul是一個物件
   print(ul) 
   print(type(ul)

#從ul中查詢a
print(ul('a'))

當前元素物件.find(): 在當前物件中查詢後代元素

當前元素物件.chrildren(): 在當前物件中查詢直接子元素

print(ul.find('a'))

父元素查詢

parent(): 直接父元素

parents(): 所有的父元素

a = ul('a')
print(a.parent('#inner'))

兄弟元素的查詢

li = doc_obj('.one')
print(li.siblings())
print(li.siblings('.two'))

獲取標籤的屬性或文字（遍歷元素）

ul = doc_obj('.list')

# generator object
 res = ul('li').items()
 for li in res:
     print(li)
     # 獲取標籤物件的文字內容
     print(li.text())
     # 獲取標籤屬性
     print(li.attr('class'))

獲取標籤下文字內容

inner_div = doc_obj('#inner')
p = inner_div('p')
print(p.text())

Python爬蟲資料提取方式——使用PyQuery查詢元素

html = """ <div id='content'> <ul class='list'> <li class='one'>One</li> <l

Python爬蟲資料提取方式——cssselector樣式選擇器

cssselector：和xpath是使用比較多的兩種資料提取方式。cssselector是css樣式選擇器實現的！scrapy爬蟲框架：支援xpath/csspyspider爬蟲框架：支援PyQuer

Python爬蟲資料提取方式——使用xpath提取頁面資料

xpath：跟re,bs4,pyquery一樣，都是頁面資料提取方法。 xpath是根據元素的路徑來查詢頁面元素。安裝lxml包：pip install lxmlHTML例

Python爬蟲---資料的提取和清洗的正則應用規則

最近在做一個專案，爬蟲獲取的資料可謂一鍋粥，果斷選擇了正則表示式，下面是常用的規則：表示式全集字元描述 \ 將下一個字元標記為一個特殊字元、或一個原義字元、或一個向後引用、或一個八進位制轉義符。例如，“n”匹配字元“n”。“\n”匹配一個換行符。序列

python爬蟲的常見方式

adsl ajax 打碼平臺 pid shark 方式 -a 分布式 rapyd requests+bs4+lxml直接獲取並解析html數據抓包ajax請求，使用requests獲取並解析json數據反爬嚴重的網站，使用selenium爬取設置代理 a.urllib

Python爬蟲之提取Bing搜索的背景圖片並設置為Windows的電腦桌面

頁面心悅 exe 自動停止 .com req utf 需要 exec ??鑒於現階段國內的搜索引擎還用不上Google, 筆者會尋求Bing搜索來代替。在使用Bing的過程中，筆者發現Bing的背景圖片真乃良心之作，十分賞心悅目，因此，筆者的腦海中萌生了一個念頭：能否自己

python 儲存資料的方式

轉自https://blog.csdn.net/weixin_39198406/article/details/78231430 json檔案 json是一種輕量級的資料交換格式。採用完全獨立於程式語言的文字格式來儲存和表示

自學python爬蟲（六）PyQuery使用

一、概念 PyQuery庫也是很強大的網頁解析庫，適合熟悉Jquery的人使用，因為PyQuery和Jquery的API幾乎一模一樣。二、詳細講解 1、初始化 1.1字串初始化 # 字串初始化 html = """ <div> <ul>

python儲存資料的方式

python儲存資料的方式2017年10月13日 23:38:10 Nick_Spider 閱讀數：59286 標籤： redis 資料庫爬蟲儲存結構更多個人分類：資料庫爬蟲 python 版權宣告：本文為博主原創文章，未經博主允許不得轉載。 https://blog.csdn.net/we

python 爬蟲資料存入csv格式方法

python 爬蟲資料存入csv格式方法命令儲存方式：scrapy crawl ju -o ju.csv 第一種方法：with open("F:/book_top250.csv","w") as f: f.write("{},{},{},{},{}\n".format(book_name

python爬蟲資料處理

資料處理的兩種方式 re正則表示式：通過對資料文字進行匹配，來得到所需的資料 BeautifulSoup：通過該類建立一個物件，通過對類裡面封裝的方法進行呼叫，來提取資料。 bs4 對標籤進行查詢獲取標籤的內容 import re fr

Python爬蟲資料的幾種儲存方法

txt檔案: 1, open('檔名', '讀寫模式' )， f = open('csdn.txt', 'w', encodeing='utf-8') 2，f

Python爬蟲第七篇--PyQuery庫

PyQuery庫簡介網頁解析庫比正則和BeautifulSoup語法更簡單需要熟悉jQuery語法安裝 MacOS：pip3 install pyquery 初始化字串初始化 html = ''' <div

爬蟲--資料解析方式

引言：回顧requests實現資料爬取的流程指定url 基於requests模組發起請求獲取響應物件中的資料進行持久化儲存其實，在上述流程中還需要較為重要的一步，就是在持久化儲存之前需要進行指定資料解析。因為大多數情況下的需求，我們都會指定去使用聚焦爬蟲，也就是爬取頁面中指定

建站四部曲之Python爬蟲+資料準備篇(selenium)

本系列分為四篇：建站四部曲之後端介面篇（SpringBoot+上線）建站四部曲之Python資料爬蟲篇(selenium) 建站四部曲之前端顯示篇（React+上線）建站四部曲之移動端篇（Android）零、前言本系列為了總結一下手上的知識，致敬我的2018 本

Python爬蟲踩坑之二分查詢，數值按位相加，

由於比較緊張，題當時沒寫完，昨天重新寫了下二分查詢：二分查詢又稱折半查詢，其核心就是在有序的表中，取中表的中間值和目標值來匹配，中間值比目標值大，則繼續左子表中二分，反之同理。一直查到目標值與匹配值相等，否則不存在。題目：在數字列表中隨機兩個數使之等

利用正則表示式處理爬取的今日頭條內容資料（Python爬蟲資料清洗）

本次要處理的是抓取的頭條內容，內容如下： content = '''content: '<div><blockquote><p><strong>想要更多科技類資訊，歡迎關注公眾號“

python 爬蟲 css提取網頁內容

四大提取網頁內容的基本方法之 4.css提取網頁內容語法簡單一覽 CSS選擇器用於選擇你想要的元素的樣式的模式。 "CSS"列表示在CSS版本的屬性定義（CSS1，CSS2，或對CSS3）。在使用c

爬蟲資料提取方法詳解（一）

爬蟲中資料的分類：結構化資料（json,xml等）處理方式是直接轉化為python型別，jsonpath,xpath,bs4等. 非結構化資料（HTML）處理方式是正則表示式，xpath，bs4等. 資料提取

python爬蟲#資料儲存#JSON/CSV/MYSQL/MongoDB/

Json資料處理 JSON支援資料格式：物件（字典）。使用花括號。陣列（列表）。使用方括號。整形、浮點型、布林型別還有null型別。字串型別（字串必須要用雙引號，不能用單引號）。多個數據之間使用逗號分開。注意：json本質上就是一個字串。字典和列表轉JSON： import json boo

Python爬蟲資料提取方式——使用PyQuery查詢元素

相關推薦