scrapy 解析xml格式的資料

阿新 • • 發佈：2022-04-07

XMLFeedSpider 主要用於解析 xml格式的資料

建立一個scrapy 框架

scrapy startproject xxx

建立一個spider

scrapy genspider -t xmlfeed ZhaoYuanCity_2_GovPro(名字) xxx.com(網站名)

解析的例子為招遠市人民政府的資料

"""

招遠市人民政府

"""
import re
import scrapy
from scrapy.spiders import XMLFeedSpider
from curreny.items import CurrenyItem


class Zhaoyuancity2GovproSpider(XMLFeedSpider):
    name  
= 'ZhaoYuanCity_2_GovPro'
    # allowed_domains = ['xxx.com']
    start_urls = ['http://www.zhaoyuan.gov.cn/module/web/jpage/dataproxy.jsp?page=1&webid=155&path=http://www.zhaoyuan.gov.cn/&columnid=48655&unitid=180549&webname=%25E6%258B%259B%25E8%25BF%259C%25E5%25B8%2582%25E6%2594%25BF%25E5%25BA%259C&permiss 
']
    iterator = 'iternodes' # you can change this; see the docs
    itertag = 'datastore' # change it accordingly

    def parse_node(self, response, selector):
        # 用css 獲取 一個列表
        source_list = selector.css('recordset record::text').extract()
        for li in source_list:
             
# 用正則解析url 我們去裡面獲取時間標題和內容
            url= re.search(r'href=\"(.*\.html)\"',li).group(1)
            yield scrapy.Request(
                url=url,
                callback=self.parse
            )

    def parse(self,response):
        # 呼叫item
        item = CurrenyItem()
        # 寫入連結提取器中獲取到的url
        item['title_url'] = response.url
        # 標題名
        item['title_name'] = response.css('meta[name="ArticleTitle"]::attr(content)').get()
        # 標題時間
        item['title_date'] = response.css('meta[name="pubdate"]::attr(content)').get()
        # 內容提取 含原始碼
        item['content_html'] = response.css('.main').get()
        # 目錄地址為
        item['site_path_url'] = "http://www.zhaoyuan.gov.cn/col/col48655/index.html?number=ZYC120106"
        # 交給item處理
        yield item

執行專案

scrapy crawl ZhaoYuanCity_2_GovPro --nolog

解釋——總結：

iterator屬性：設定使用的迭代器，預設為“iternodes”（一個基於正則表示式的高效能迭代器），除此之外還有“html”和“xml”迭代器；
itertag：設定開始迭代的節點；
parse_node方法：在節點與所提供的標籤名相符合時被呼叫，在其中定義資訊提取和處理的操作；
namespaces屬性：以列表形式存在，主要定義在文件中會被蜘蛛處理的可用命令空間；
parse方法：解析資料發起正常請求
**adapt_response(response)方法：在spider分析響應前被呼叫；
**process_results(response, results)方法：在spider返回結果時被呼叫，主要對結果在返回前進行最後的處理。

scrapy 解析xml格式的資料

XMLFeedSpider 主要用於解析 xml格式的資料建立一個scrapy 框架 scrapy startproject xxx 建立一個spider

學習Android之解析XML格式資料

解析XML格式資料　　解析XML格式的資料有很多種，這裡學習比較常用的兩種：Pull解析和SAX解析。

java解析XML學習總結——SAXReader解析xml檔案資料

第一種方式： 1. 加入jar包注意 1.1 xml檔案解析時編碼要一致（預設UTF-8），出現報錯可以在記事本中另存為來更改編碼格式。

SpringBoot--整合XML格式資料傳輸

SpringBoot--整合XML格式資料傳輸現在前後端互動都使用json格式，但是在某些特定領域，還是要求使用xml格式資料進行傳輸。

poi-tl 1.8.x 匯出Word，解析List格式資料（文字、圖片）

poi-tl（poi template language）是Word模板引擎，基於Microsoft Word模板和資料生成新的文件。

xml格式資料與陣列格式資料互相轉化(可用在微信支付介面呼叫)

技術標籤：php指令碼庫xmlarray小程式php 1. 問題前景在平時的開發過程中，可能會遇到需要xml型別的資料，比如微信支付過程中，在V2版本中我們呼叫微信小程式支付介面的時候，我們需要傳入xml型別的資料，因此需

java讀取檔案內容,解析Json格式資料方式

目錄讀取檔案內容,解析on格式資料一、讀取txt檔案內容(Json格式資料)二、解析處理Json格式資料三、結果存入四、測試java 讀取txt檔案中的json資料，進行匯出以下程式碼可直接執行java讀取檔案內容,解析Json格式資料

學習Android之解析JSON格式資料

解析JSON格式資料　　比起XML，JSON的優勢是體積更小，在網路傳輸上更省流量。缺點就是語義性較差。

Java解析XML格式的字串

1 解析Xml 1.1 新增專案依賴　　　　  <dependency> <groupId>dom4j</groupId>

Map和xml格式資料互轉

Map和xml格式資料互轉 /** * map轉xml map中含有根節點的鍵 * @param map * @throws Exception */

javascript解析json格式的資料方法詳解

JSON （JavaScript Object Notation）是一種簡單的資料格式，比xml更輕巧。它是 JavaScript 原生格式，這意味著在 JavaScript 中處理 JSON 資料不需要任何特殊的 API 或工具包。那麼如何用JavaScript來解析json呢？

小程式解析後端返回的html格式資料

git地址：https://github.com/icindy/wxParse，下載完後把wxParse裡的wxParse資料夾放好 1、先到需要使用的頁面wxss裡面引入樣式(教程很多都是在全域性的app.wxss看個人咯，怕影響到其他頁面的樣式還是個別引入)

Java 解析XML資料的4種方式

解析的四種方式 DOM 解析 SAX 解析 JDOM 解析 DOM4J 解析案例實操 DOM 解析 DOM（Document Object Model，文件物件模型），在應用程式中，基於 DOM 的 XML 分析器將一個 XML 文件轉換成一個物件模型的集合（通

Springmvc如何返回xml及json格式資料

問：@ResponseBody註解怎麼指定返回xml 還是json 答：@RequestMapping 的produces 屬性指定

Flask介面如何返回JSON格式資料自動解析

一自定義一個response類 from flask import Response,jsonify # 定義response返回類,自動解析json

記錄一下XML格式的資料怎麼轉JSON

技術標籤：菜鳥jsonjavaxml 首先將xml轉成JSON org.json.JSONObject object = XML.toJSONObject(xml1);

將lua資料表格轉換成json格式，xml格式

技術標籤：jsonxmllua 首先轉換成json，不廢話直接程式碼： local temp = require(tableName)

Python3使用xml.dom.minidom和xml.etree模組兒解析xml檔案封裝函式的方法

總結了一下使用Python對xml檔案的解析，用到的模組兒如下：分別從xml字串和xml檔案轉換為xml物件，然後解析xml內容，查詢指定資訊欄位。

JAVA DOM解析XML檔案過程詳解

這篇文章主要介紹了JAVA DOM解析XML檔案過程詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

將labelme格式資料轉化為標準的coco資料集格式方式

labelme標註影象生成的json格式： { \"version\": \"3.11.2\",\"flags\": {},\"shapes\": [# 每個物件的形狀

scrapy 解析xml格式的資料

XMLFeedSpider 主要用於 解析 xml格式的資料

建立一個scrapy 框架

建立一個spider

執行專案

相關推薦

XMLFeedSpider 主要用於解析 xml格式的資料