python之xpath爬蟲

阿新 • • 發佈：2019-02-04

<span style="font-size:18px;">#coding=utf-8
from lxml import etree
import sys
import chardet
import  codecs

reload(sys)
sys.setdefaultencoding("utf-8")
html=u'''
<!DOCTYPE html>
<html>
<head>
    <meta charset="utf-8" />
    <title>測試常用規範</title>
</head>
<body>
  <div  id="content">
       <ul id="useful">
           <li>546545645645645</li>
           <li>這是第一條資訊</li>
           <li>這是第一條資訊</li>       
      </ul>
      <ul id="useless">
           <li>不需要資訊</li>
           <li>不需要資訊</li>
           <li>不需要資訊</li>       
      </ul>
        
      <div>
            <a href="http://lotluck.com">lotluck專欄</a>
     
            <a href="http://lotluck/68525233653.com"  title=杜帥加油啊"">linux自學之旅</a>
      </div>

 </div>

</body>
</html>
'''

print html
selector = etree.HTML(html)

content = selector.xpath('//ul[@id="useful"]/li/text()')

 

print type(content)

for each in content:
    print each

 

##提取屬性

link = selector.xpath('//a/@href')
for each in link:
    print each


print '開始'
title = selector.xpath('//a/@title')
f = open('5.txt','w')
f.write(title[0])
f.close()

f1 = open('5.txt','r')
fencoding = chardet.detect(f1.read())
print fencoding

print '結束'
print type(title[0])
 
#print title[0].decode('ascii').encode('utf-8')
print "我們是小青哇"


f3=codecs.open("6.htm","r","utf-8")
content1 = f3.read()
f3.close()
tree=etree.HTML(content1)
node= tree.xpath('//ul[@id="useful"]/li/text()')
for each in node:
    print each
   

</span>

python之xpath爬蟲

<span style="font-size:18px;">#coding=utf-8 from lxml import etree import sys import chardet i

Python之Scrapy爬蟲框架安裝及簡單使用

intern 原理 seda api release linux發行版 3.5 pic www 題記：早已聽聞python爬蟲框架的大名。近些天學習了下其中的Scrapy爬蟲框架，將自己理解的跟大家分享。有表述不當之處，望大神們斧正。一、初窺Scrapy Scrapy是

python之路 -- 爬蟲二篇 -- 常用模塊

som authent 127.0.0.1 pos com rect 轉換器 rom b- 1.requests Requests 是用Python語言編寫，基於 urllib，采用 Apache2 Licensed 開源協議的 HTTP 庫。它比 urllib 更加

python之路 -- 爬蟲 -- 高性能相關

3-0 第三方進程 Nid end cnblogs ide blocking aps 高性能爬蟲方案：　　多進程　　多線程　　利用“異步非阻塞”模塊實現單線程並發請求。本質 1 sk = socket() 2 # 阻塞 3 sk.connect((‘w

python之路 -- 爬蟲 -- Scrapy入門

.py python模塊 spi 以及技術 16px 安裝爬蟲應用 Scrapy 　　Scrapy　是一個為了爬取網站數據，提取結構性數據而編寫的應用框架。其可以應用在數據挖掘，信息處理或存儲歷史數據等一系列的程序中。其最初是為了頁面抓取 (更確切來說, 網絡抓取

Python之Scrapy爬蟲的常用命令

Scrapy爬蟲的常用命令： Scrapy命令列是為持續執行設計的專業爬蟲框架。常用的Scrapy，命令有三個： startproject genspider crawl Scrapy為什麼採用命令列，不用介面呢？因為：是後臺執行的，不是給使用者操作的。更多的是後臺的一個爬蟲

Python之網頁爬蟲request模組

#########網頁爬蟲######### ## requests模組 - 對requests模組的理解 http/1.1請求的封裝, 可以輕鬆實現cookie， IP代理，登陸驗證等操作; Requests 使用的

python之requests 爬蟲遇到的時間坑

如圖：瀏覽器顯示的時間： train_date ： Mon+Nov+05+2018+00:00:00+GMT+0800 這裡面的時間顯示中存在加號 + 。注意：當你的cookie 確定沒沒問題時，請求引數和瀏覽器上面顯示的也一模一樣，可是請求就是不成功。這是

Python之XPath的使用

一.簡介: XPath 是一門在 XML 文件中查詢資訊的語言。XPath 可用來在 XML 文件中對元素和屬性進行遍歷. 二.安裝 pip install lxml 三.使用 / 從根標籤開始必須具有嚴格的父子關係 // 從當前標籤後續節點含有即可選出 * 萬用字

python之簡單爬蟲（爬取豆瓣出版社）

ok，開始我們的實驗 1.開啟瀏覽器，輸入網址，右擊網頁，檢視網頁原始碼，這裡我用的是谷歌瀏覽器 2.看上圖我們發現許多出版社名稱，接下來我們查詢一個出版社名稱，例如重慶大學觀察下圖我們發現它們都在一個div標籤內，且class=”name” ,

Python爬蟲利器三之Xpath語法與lxml庫的用法

blank color idt tab 一段並且 .text rst 基本用法前面我們介紹了 BeautifulSoup 的用法，這個已經是非常強大的庫了，不過還有一些比較流行的解析庫，例如 lxml，使用的是 Xpath 語法，同樣是效率比較高的解析方法。如果大家

Python之爬蟲-- etree和XPath實戰

下面程式碼是在網站上找到的一個例子，空閒的時候可以自己除錯。 # -*- coding:utf-8 -*- """ 爬蟲創業邦創業公司資訊爬取網頁url = 'http://www.cyzone.cn/vcompany/list-0-0-1-0-0/0' 爬取頁面中的創業公司，

Python之爬蟲-- XML與XPath

XML XML(EXtensibleMarkupLanguage) 學習文件： http://www.w3school.com.cn/xml/index.asp 案例1 概念：父節點，子節點，先輩節點，兄弟節點，後代節點案例

Python 爬蟲開發之xpath使用

在進行爬蟲開發中，需要的頁面資訊進行解析處理，獲取到需要的關鍵資料。可以利用xpath進行對頁面的xml檔案進行解析處理，獲取到需要的關鍵資料。XPath使用:XPath 可用來在 XML 文件中對元素和屬性進行遍歷.from lxml import etreeimport urllib2req = urll

python爬蟲之xpath的基本使用 python爬蟲之xpath的基本使用

python爬蟲之xpath的基本使用一、簡介　　XPath 是一門在 XML 文件中查詢資訊的語言。XPath 可用來在 XML 文件中對元素和屬性進行遍歷。XPath 是 W3C XSLT 標準的主要元素，並且 XQuery 和 XPointer 都構建於

python爬蟲之xpath和lxml解析內容

上兩章說了urllib和request庫如何訪問一個頁面或者介面，從而獲取資料，如果是訪問介面，還好說，畢竟返回的json還是很好解析的，他是結構化的，我們可以把它轉化成字典來解析，但是如果返回的是xml或者html,就有點麻煩了，今天就主要說一下如果解析這些h

Python爬蟲框架 scrapy之xpath選擇器 css選擇器

文章目錄一、xpath 1、節點選擇二、 css css選擇三、xpath函式操作 1

python爬蟲學習之XPath基本語法

XPath 使用路徑表示式來選取 XML 文件中的節點或節點集。節點是通過沿著路徑（path）或者步（steps）來選取的。 XML例項文件我們將在下面的例子中使用這個XML文件。 <?xml version="1.0" encoding="ISO-8859-1"?> <

Python爬蟲從入門到進階(4)之xpath的使用

names 擴展函數 .get 結果定義提高調用函數命名空間 concat 官網地址：https://lxml.de/xpathxslt.html 導入： from lxml import etree lxml.tree 支持 ElementTree 和 El

Python爬蟲之Xpath與lxml庫的用法

XPath 是一門在 XML 文件中查詢資訊的語言。XPath 用於在 XML 文件中通過元素和屬性進行導航。在學習之前應該具備的知識：在您繼續學習之前，應該對下面的知識有基本的瞭解： HTML / XHTML XML / XML 名稱空間

python之xpath爬蟲

相關推薦