1分鐘快速生成用於網頁內容提取的xslt

阿新 • • 發佈：2019-02-05

1，專案背景在《Python即時網路爬蟲專案說明》一文我們說過要做一個通用的網路爬蟲，而且能節省程式設計師大半的時間，而焦點問題就是提取器使用的抓取規則需要快速生成。在python使用xslt提取網頁資料一文，我們已經看到這個提取規則是xslt程式，在示例程式中，直接把一長段xslt賦值給變數，但是沒有講這一段xslt是怎麼來的。網友必然會質疑：這個xslt這麼長，編寫不是要花很長時間？實際情況是，這個xslt是通過GooSeeker的MS謀數臺的直觀標註功能自動生成的，熟練的話1分鐘就搞定了。 2，MS謀數臺能做什麼 MS謀數臺有個圖形化介面，把一系列html解析工具整合在一起，包括：

基於直觀標註自動生成XSLT
即時測試XSLT的正確性
樹狀的DOM結構展示
剖析某個DOM節點的屬性
為DOM節點生成XPath，可選擇定位到class、或者id、或者絕對定位
根據xpath搜尋DOM節點

MS謀數臺介面分成三部分：DOM數視窗、內嵌瀏覽器視窗、工作臺。在工作臺上定義xslt轉換規則。 3，用MS謀數臺生成XSLT 假設我們要抓取論壇帖子列表，下面一步步講解操作方法：第一步，開啟GooSeeker的MS謀數臺，輸入要抓取的網址第二步，在MS謀數臺的瀏覽器顯示窗口裡，直接選取要提取的內容，並且起個名字，點選確認

第三步，點選工作臺的“測試”按鈕，xslt就生成了，在“資料規則”視窗顯示出來

通過以上的操作，不用程式設計，用圖形化介面直接在頁面上標註，1分鐘就可以生成xslt 4，怎樣使用XSLT 在一文，我們把生成xslt作為一個字串交給程式，給人感覺好像一下子回到了史前文明，前面講的那麼好，最後用了很原始的拷貝。其實不然，那個只是一個例子。在《python即時網路爬蟲專案: 內容提取器的定義》一文已經初見端倪了，有多種注入xslt的方式，最自動化的方式是api，將在後續文章中詳細講解。 5，文件修改歷史 2016-05-28：V3.0，增加第二章 2016-05-26：V2.0，增補文字說明

1分鐘快速生成用於網頁內容提取的xslt

1分鐘快速生成用於網頁內容提取的xslt

1分鐘快速實現高效的掃描二維碼，急速識別手機相簿二維碼

註冊郵箱地址，1分鐘快速註冊郵箱賬號

如何離線分析Kafka海量業務消息？1分鐘快速為您支招

推薦一款全能測試開發神器：Mockoon！1分鐘快速上手！

網頁內容爬取：如何提取正文內容 BEAUTIFULSOUP的輸出

1分鐘瞭解基於內容的推薦，pm又懂了

python 爬蟲 css提取網頁內容

PyTorch 深度學習:60分鐘快速入門（1） ----什麼是PyTorch

Scrapy定向爬蟲教程(二)——提取網頁內容

電腦開機後滑鼠右鍵點選桌面圖示反應很慢，要等上1分鐘左右右鍵內容才能出來怎麼辦？

使用TuShare下載歷史逐筆成交資料並生成1分鐘線

如何快速生成十九大會議內容摘要

五分鐘學GIS | 快速生成地圖瓦片祕籍

1分鐘全自動centos7快速搭建私有云盤，shell指令碼。快速搭建owncloud雲盤

java 爬取1網頁內容

Python分散式爬蟲前菜(1):關於靜態動態網頁內容獲取的N種方法

網頁內容解析簡單實現

spring mvc3.1 @ResponseBody註解生成大量Accept-Charset

如何生成嵌入網頁直播的HTML代碼

1分鐘快速生成用於網頁內容提取的xslt

相關推薦