記錄一下xpath提取不到iframe多層巢狀的問題

阿新 • • 發佈：2018-12-20

今天爬取中彩網福彩3d[http://www.zhcw.com/3d/]的時候，碰到iframe巢狀，xpath始終取不到值，如下圖：在這裡插入圖片描述無論怎麼取值，都為null，後來發現有個這個東西然後直接進入到url裡面，就可以取到值了好了，問題解決，查閱網上資料，聽說可以正面攻克，比較麻煩，不推薦花時間去做這東西。最後附上本人程式碼,爬蟲框架用的是scrapy，儲存用的MySQL資料庫。 items

import scrapy


class Lottery3DItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field() 

    # 開獎日期
    date = scrapy.Field()
    # 期號
    issue = scrapy.Field()
    # 第一個藍球號碼
    blue1 = scrapy.Field()
    # 第二個藍球號碼
    blue2 = scrapy.Field()
    # 第三個藍球號碼
    blue3 = scrapy.Field()

spider

# -*- coding: utf-8 -*-
import scrapy
from ..items import Lottery3DItem


class LotterySpider(scrapy. 
Spider):
    name = 'lottery'
    allowed_domains = ['zhcw.com']
    start_urls = ['http://kaijiang.zhcw.com/zhcw/html/3d/list_1.html']
    index = 1
    items = []

    def parse(self, response):
        node_list = response.xpath("//tr")
        node_list.pop(0)
        node_list.pop(0)
        node_list.pop( 
)
        for node in node_list:
            item = Lottery3DItem()

            item["date"] = node.xpath("./td[1]/text()").extract_first()
            item["issue"] = node.xpath("./td[2]/text()").extract_first()
            item["blue1"] = node.xpath("./td[3]/em[1]/text()").extract_first()
            item["blue2"] = node.xpath("./td[3]/em[2]/text()").extract_first()
            item["blue3"] = node.xpath("./td[3]/em[3]/text()").extract_first()

            yield item

        self.index += 1
        next_url = "http://kaijiang.zhcw.com/zhcw/html/3d/list_{}.html".format(self.index)
        yield scrapy.Request(url=next_url, callback=self.parse)

pipeline

import pymysql


class Lottery3DPipeline(object):

 def __init__(self):
     self.conn = pymysql.connect(host='103.27.5.156', user='developer', passwd='Developer!123', db='spider', charset='utf8')
     self.cursor = self.conn.cursor()

 def process_item(self, item, spider):
     lottery_date = item['date']
     issue = item['issue']
     blue1 = item['blue1']
     blue2 = item['blue2']
     blue3 = item['blue3']
     sql = "insert into lottery_3d(date, issue, blue1, blue2, blue3) VALUES(%s, %s, %s, %s, %s)"
     self.cursor.execute(sql, (lottery_date, issue, blue1, blue2, blue3,))
     self.conn.commit()
     return item

 def close_spider(self, spider):
     self.conn.close()

記錄一下xpath提取不到iframe多層巢狀的問題

今天爬取中彩網福彩3d[http://www.zhcw.com/3d/]的時候，碰到iframe巢狀，xpath始終取不到值，如下圖：無論怎麼取值，都為null，後來發現有個這個東西然後直接進入到url裡面，就可以取到值了好了，問題解決，查閱網上資料

php程式設計中require和include多層巢狀導致檔案找不到的錯誤

php中include和require可以包含其他檔案但常引入的是一個相對路徑如此會產生一個檔案，如下：例如： (網站根目錄) ├資料夾A │ │ │ └1.php ├資料夾B │ │

scrapy 提取多層巢狀標籤下的所有文字

怎樣才能一次性提取多層巢狀標籤的所有文字，詳細如下：假如頁面如下： <p id='test'>hello<b>world!</b></p> 我要的提取結果是：world!（假設world是很多標籤組合的文字）

Vue中v-for遍歷多層巢狀資料，不能重新渲染的問題

問題 { "properties": [ [ { "name": "property_name", "example": "travel_time", "value": "" }, { "name":

提取多層巢狀Json資料

在.net 2.0中提取這樣的json {"name":"lily","age":23,"addr":{"city":guangzhou,"province":guangdong}} 引用名稱空間 using Newtonsoft.Json; using Newtonsoft

android listView多層巢狀listView顯示不全問題

最近在做專案，需要用到listVIew多層巢狀listVIew的需求，先發現已下兩個處理辦法比較好用第一種：public class ListViewNesting extends ListView { public ListViewNesting(Context c

迴圈取多層巢狀的JsonArray中的值，最後一層可以是JsonArray也可以是jsonObject

/** * @param jsonStr json字串 * @param key 具體取值上一級對應的所有的 Key * @param value 具體取值對應的所有的key * @param type type 是最後一個key對應的是array還是jsonObject

Python之路Python全域性變數與區域性變數、函式多層巢狀、函式遞迴 Python之路Python全域性變數與區域性變數、函式多層巢狀、函式遞迴

Python之路Python全域性變數與區域性變數、函式多層巢狀、函式遞迴一、區域性變數與全域性變數 1、在子程式中定義的變數稱為區域性變數，在程式的一開始定義的變數稱為全域性變數。全域性變數作用域是整個程式，區域性變數作用域是定義該變數的子程式。全域性變數

Java多層巢狀異常處理的基本流程

異常是程式中的一些錯誤，但並不是所有的錯誤都是異常，錯誤有時候是可以避免的。異常的物件有兩個來源，一是Java執行時環境自動丟擲系統生成的異常，而不管你是否願意捕獲和處理，它總要被丟擲！比如除數為0的異常。二是程式設計師自己丟擲的異常，這個異常可以是程式設

上拉載入，包裹任意佈局，多層巢狀listview

上拉載入是在原生控制元件swipeRefreshlayout的基礎上增加的功能，實現方式網上copy就行。主要是refreshLayout包裹多層佈局，多個listview的時候，操作的是那個listview。程式碼可以看出所有上拉載入的操作均在佈局繪製完成，且資料載入完畢以後，能夠對

python多層巢狀轉換為一維列表

1.遞迴方式 [1,2,[3,[4,5],6]] def expand_list(nested_list): for item in nested_list: if isinstance(item, (list, tuple)): fo

Python列印多層巢狀列表

列表中巢狀列表遞迴呼叫，將列表幾巢狀中的列表元素append到一個新列表中如下列表 [ 1, 2, [ 3, 4, [ 5, 6,

iOS開發-多層巢狀block中如何使用weak和strong

1、關於__weak __weak只能在ARC模式下使用，也只能修飾物件（比如NSString等），不能修飾基本資料型別（比如int等） __weak修飾的物件在block中不可以被重新賦值。 __weak只在ARC下使用，可以避免迴圈引用。 __weak修飾物

html中的超連結中比如有多層巢狀，就會導致字串被擷取，等等等等很多問題

html中的超連結中比如有多層巢狀，就會導致字串被擷取，等等等等很多問題引號巢狀兩層時，可以使用轉義或者單雙引號交替的形式實現，當引號巢狀達到三四層的時候，問題就出現了，怎麼解決呢？舉個例子："javascript:fnabc('abcd("123")')" html的href=以上

linx c fork()函式的多層巢狀

有哪些巢狀問題呢？ 1）建立多個程序分別做一樣的事程式碼案例： #include <stdio.h> #include <unistd.h> int main(int

手把手教你怎麼解析多層巢狀的JSON資料（使用JSONModel）

使用API API介紹參考的JSON資料（可能與你看到的不同） { "date": "20181020", "stories": [ { "title": "每週一吸 · 狸花貓",

【Android效能優化】儘可能用RelativeLayout來代替多層巢狀的LinearLayout

儘量用RelativeLayout來代替多層巢狀的LinearLayout 在Android UI開發中，有時會遇到較複雜的佈局設計，比如如下： --------------------------------------- 標題作者

mongodb update多層巢狀陣列解決辦法

version： 3.4.3 { "_id" : 1 "user_id": 1, "message" : "Yes" "translations" : [ { "destination" : "fr", "text

mongodb多層巢狀查詢

> db.inventory.find( { "instock": { warehouse: "A", qty: 5 } } ) { "_id" : ObjectId("5943714f0429b8c7852eaf20"), "item" : "journal", "instock" : [ { "w

gson處理多層巢狀的複雜形式的json

/** * 獲取當前房間引數資訊 * * @param houseid 房間ID * @param hashmap 成功失敗標誌 * @return 返回House引數資訊 * @throws UnsupportedEncodingExcept

記錄一下xpath提取不到iframe多層巢狀的問題

相關推薦