1. 程式人生 > >1分鐘快速生成用於網頁內容提取的xslt

1分鐘快速生成用於網頁內容提取的xslt

1,專案背景 在《Python即時網路爬蟲專案說明》一文我們說過要做一個通用的網路爬蟲,而且能節省程式設計師大半的時間,而焦點問題就是提取器使用的抓取規則需要快速生成。在python使用xslt提取網頁資料一文,我們已經看到這個提取規則是xslt程式,在示例程式中,直接把一長段xslt賦值給變數,但是沒有講這一段xslt是怎麼來的。 網友必然會質疑:這個xslt這麼長,編寫不是要花很長時間? 實際情況是,這個xslt是通過GooSeeker的MS謀數臺的直觀標註功能自動生成的,熟練的話1分鐘就搞定了。 2,MS謀數臺能做什麼 MS謀數臺有個圖形化介面,把一系列html解析工具整合在一起,包括:
  • 基於直觀標註自動生成XSLT
  • 即時測試XSLT的正確性
  • 樹狀的DOM結構展示
  • 剖析某個DOM節點的屬性
  • 為DOM節點生成XPath,可選擇定位到class、或者id、或者絕對定位
  • 根據xpath搜尋DOM節點
MS謀數臺介面分成三部分:DOM數視窗、內嵌瀏覽器視窗、工作臺。在工作臺上定義xslt轉換規則。 3,用MS謀數臺生成XSLT 假設我們要抓取論壇帖子列表,下面一步步講解操作方法: 第一步,開啟GooSeeker的MS謀數臺,輸入要抓取的網址 第二步,在MS謀數臺的瀏覽器顯示窗口裡,直接選取要提取的內容,並且起個名字,點選確認 第三步,點選工作臺的“測試”按鈕,xslt就生成了,在“資料規則”視窗顯示出來
通過以上的操作,不用程式設計,用圖形化介面直接在頁面上標註,1分鐘就可以生成xslt 4,怎樣使用XSLT 一文,我們把生成xslt作為一個字串交給程式,給人感覺好像一下子回到了史前文明,前面講的那麼好,最後用了很原始的拷貝。其實不然,那個只是一個例子。在《python即時網路爬蟲專案: 內容提取器的定義》一文已經初見端倪了,有多種注入xslt的方式,最自動化的方式是api,將在後續文章中詳細講解。 5,文件修改歷史 2016-05-28:V3.0,增加第二章 2016-05-26:V2.0,增補文字說明