最讓人頭疼的清洗資料過程----選擇合適的方式快速命中所需的資料

阿新 • • 發佈：2018-12-09

當我們解析網頁後，往往面對繁雜的原始碼而無從下手，有時候明明知道我們想要的資料就在裡面，可是應該如何把冗餘的部分去除而只保留我們想要的那一個部分呢

在這裡和大家一起學習一下選擇的方法

1、正則表示式

真的是無奈之舉的時候才會想到要去正則，因為它除非格式標準，否則每次搜尋都要重新的繪製pattern

在python中一般匯入re模組

那麼最常用的就比如說 re,findall(匹配的模板，匹配的物件)[0]

匹配的模板中基本上就是r'<title>(.*?)<title>'

模板的基本上就是你抓到的原始碼，你可以把它賦值給變數

.*?是萬能匹配，如果加上括號就是選中其中內容儲存下來

配合w3c理解：

2、xpath

開啟f12，在相應的地方我們點選，右鍵後copy，選擇xpath路徑

基本上需要以下的模組

from parsel import Selector

import requests

z = requests.get('網址')

看一下z.text有沒有我們要的內容

sel = Selector(text = z.text)

sel.xpath('//div[]@class= "content"]/span/text()').extract_first()

//代表的是開頭是絕對路徑，而/則是按順序下來

@後面跟的是屬性，一般是herf src什麼的

比如sel.xpath('//@href').extract()

'//comment()'一般就是用來獲取註釋

p = getxpath(sample原始碼)

那麼遇到一行中跳段的資料怎麼辦？

p.xpath('//li[position() = 1]'/text()').extract()

.xpath('//li[1]'/text()').extract()

奇數偶數位

.xpath('//li[position() mod2= 1]'/text()').extract()

.xpath('//li[position() mod2= 0]'/text()').extract()

最後一個

.xpath('//li[last()]'/text()').extract()

子節點有a的

.xpath('//li[a]'/text()').extract()

子節點有a或h2的

.xpath('//li[a or h2]'/text()').extract()

子節點有a和h2的

.xpath('//a/text()|//h2/text()').extract()

a下herf以https開始

//a[starts-with(@href,"https")]/text()

還有

//a[@href="https......")]/text()

//li/a[@id="begin")]/text()

//li/a[text()= "....")]/text()這個其實就是本身

//li[2]/a[text()= "....")]/@herf這個就是滿足了文字內容的herf的內容爬取了其中取第二個li裡面的滿足text的定位的herf

總結下來就是基本上[]裡面定位，後面再加上/和要找的名字

找p下面所有的文字(包括那些加粗的什麼的)

'string(//.........)'

找class中有content的

.xpath(('//*[contains(@class,"content")]'/text()')).extract()

也可以混入正則、css

.xpath(('//*[contains(@class,"content")]'/text()')).re.('[a-c]').extract()

.xpath(('//*[contains(@class,"content")]'/text()')).css.(.......).extract()

。。。

3.css

舉例 s4.css('.content-a(類名)::text').extract()

對於<p id="xxx" href = python>sssssss<p>

則s4.css('#xxx::attr(herf)')就得到了['python']

其中xxx是標籤，而attr裡面是要獲取的屬性

要點是 class是點，id是#，屬性是attr

你也可以嘗試著將選擇器結合起來

s4.css('p#xxx).xpath('text()').extract()

s4.css('p#xxx).xpath('text()').re.('\w+')

最讓人頭疼的清洗資料過程----選擇合適的方式快速命中所需的資料

當我們解析網頁後，往往面對繁雜的原始碼而無從下手，有時候明明知道我們想要的資料就在裡面，可是應該如何把冗餘的部分去除而只保留我們想要的那一個部分呢在這裡和大家一起學習一下選擇的方法 1、正則表示式真的是無奈之舉的時候才會想到要去正則，因為它除非格式標準，否則每次搜尋都要重新的繪製pattern 在pyth

讓人頭疼的this

this是什麼 this是函式執行時所在的環境變數，是call的第一個引數。以及你需要注意的是，this這個鬼東西動不動就會變成window。怎麼找this 作為物件方法呼叫 var obj = { 'fn': function(){ consol

巴薩最強1點也最讓人擔心想爭冠這問題必須解決

“90後”女大學生放棄北大保送復旦！她到底有多厲害？　　東北網12月6日訊(記者姜姍姍) 在東北農業大學有這樣一個自強不息的女大學生，她放棄北大直博被保送到復旦大學藥學院。她本科期間獲得國家獎學金、國家勵志獎學金、新東方自強獎學金、第一屆全國大學生生命聯賽國家二等獎……被評為黑龍江省“三好學生”。她就是生命

落後還會莫名發笑的伊藤美誠她的確很讓人頭疼

Swift：讓人頭疼的函式傳參

函式實際引數標籤和形式引數名每一個函式的形式引數都包含實際引數標籤和形式引數名。實際引數標籤用在呼叫函式的時候；在呼叫函式的時候每一個實際引數前邊都要寫實際引數標籤。形式引數名用在函式的實現當中。預設情況下，形式引數使用它們的形式引數名作為實際引數標籤。 1

IE 讓人頭疼的相容

<!DOCTYPE html> <html> <head> <title>Css Hack</title> <style> #test {

教你怎樣寫讓人頭疼並且高質量的工作日誌

data 混合下一步文章記錄 containe ali 進度 -name 來源：百度文庫　　　　　　工作日誌一詞大家都並不陌生，但並不代表大家都很熟悉。　　基本上在大部分的企業，領導都會要求員工寫工作日誌，領導的領導要求領導寫工作日誌，層層遞進。

讓人頭疼的AI bug (隨想)

雖然概念上，人工智慧和機器學習不等同。但是本文提及的AI，指的是基於機器學習的AI. 一個軟體產品，出了錯誤叫bug，bug需要修。那一個機器學習的模型，準確率在那擺著呢，大夥心知肚明是有一定的犯錯率的，怎麼辦。想了想，可能就是這麼辦吧。不予理會。推薦引擎推薦錯了，質量不高，也

例項說明MongoDB儲存的行情資料如何選擇合適的Shard Key

概述當利用MongoDB的shard cluster技術做資料庫擴充套件時，一個至關重要的點是要選擇一個合適的shard key（片鍵），它是用來決定將資料在分片伺服器上分配的策略。一個適用的shard key應該滿足以下幾個條件：資料均分所謂資料

美國公司報稅所需資料【悠揚國際】

美國公司 nbsp 相關 gpo log www. 什麽美國政府報告美國公司報稅需要什麽資料？公司的註冊證書，稅號文件，董事信息，上一次的報稅記錄，銀行流水（一年的，如果可以最好有上一次報稅的整年銀行流水）提供單據→整理單據，賬務處理→

正則達式抓取所需資料

preg_match_all( [\x{4e00}-\x{9fa5}]*)/u', $str, $arr); 用此語句抓取文字中的中文字元時結果為亂碼, 原因是編碼問題引起, 在執行前需宣告編碼格式, header('content-type:text/html;charset=utf-8'),

申請蘋果開發者賬號（個人，公司）所需資料

蘋果開發者在開發完APP需要上傳APPStore時需要有開發者賬號才可以。開發者賬號分為三種： 1. 個人賬號：個人申請用於開發蘋果app所使用的賬號，僅限於個人使用，申請比較容易，$99。 2. 公司賬號：以公司的名義申請的開發者賬號，用於公司內部的開發者共用，$99

Vulkan Cookbook 第二章 9 選擇交換鏈影象的所需使用場景

選擇交換鏈影象的所需使用場景使用交換鏈建立的影象通常用作顏色附件。這意味著我們想要渲染它們（將它們用作渲染目標）。但我們並不僅限於這種情況。我們可以將交換鏈影象用於其他目的 - 可以從中進行取樣，將它們用作複製操作中的資料來源，或將資料複製到其中。這些都是不同

分析網站監測log，得到所需資料

log: 2018/11/04 02:09:58 [11212] connect from joomla-site-yuanxi (19 2018/11/04 02:09:58 [11212] rsync to clxy_web/web/Sund

Tensorflow框架下Faster-RCNN實踐（一）——Faster-RCNN所需資料集製作（附程式碼）

最近剛實現了在Ubuntu16.04、Tensorfllow1.0下 Faster R-CNN 從資料製作到訓練再到利用生成的模型檢測的測試圖片的全過程，現在將具體的過程記錄在部落格，方便遇到困惑或者需要的朋友檢視。製作資料集利用Fast

怎樣讓人的一生價值最大

人的 dsm 每一個 data- 一個 article pos ack 差距今天在路上突然想到了一個道理，分享給大家：事實上每一個人的一生都有翻倍的機會。10倍，100倍，1000倍甚至更高，可是為什麽每一個人還不一樣。有些人已經成為百萬富翁。有些人依舊是苦力。原

金庸先生最有智慧的句子，句句精闢讓人動容

1、各有因緣莫羨人。 2、慧極必傷，情深不壽，強極則辱，謙謙君子，溫潤如玉。 3、他強由他強，清風拂山岡；他橫任他橫，明月照大江。 4、情不知所起，一往情深，恨不知所終，一笑而泯…… 5、紅顏彈指老，剎那芳華，與其天涯思君，戀戀不捨，莫若相忘於江湖.. 6、你瞧這些白雲聚了又散，散了又聚，人生離合

【記錄】openssl 編譯過程遇到的各種讓人發狂的問題

安裝教程網上很多，不是很仔細介紹了，主要記錄一下編譯過程遇到的各種問題。推薦： openssl原始碼版本：openssl1.0.2o 我的環境：windows7、Vs2013、vc6.0 編譯openssl所需命令按順序共三條： 1、perl Comfig

一次讓人難以忘懷的排查頻繁Full GC過程

我們的Java應用因頻繁FULL GC導致效能降低很多，經過多人的定位也沒有結論，於是我自主請命，經過一天的研究終於搞定了，現把經驗與大家共享，相關的gc日誌如下： 4.758: [Full GC [PSYoungGen: 464K->0K(71936K)] [P

機器學習（5）、資料清洗和特徵選擇

正式進入機器學習啦，這節課還好，意外知道了莊家與賠率的計算（原來莊家真的是穩賺不賠呢，樓主表示很想設賭局去做莊）；python庫好強大，Pandas包直接提供資料讀取和處理，Fuzzywuzzy支援字串模糊查詢，可用於字串糾錯；知道了機器學習處理的大概流程；之前

最讓人頭疼的清洗資料過程----選擇合適的方式快速命中所需的資料

相關推薦