Python之爬蟲-- etree和XPath實戰

阿新 • • 發佈：2018-11-02

下面程式碼是在網站上找到的一個例子，空閒的時候可以自己除錯。

# -*- coding:utf-8 -*-
""" 爬蟲 創業邦 創業公司資訊爬取
網頁url = 'http://www.cyzone.cn/vcompany/list-0-0-1-0-0/0'
爬取頁面中的創業公司，融資階段，創業領域，成立時間和創業公司的連結資訊。
使用到requests, json, codecs, lxml等庫
requests用於訪問頁面，獲取頁面的原始碼
josn庫用於寫入json檔案儲存到本地
codecs庫用於讀寫檔案時編碼問題
lxml用於解析網頁原始碼，獲取資訊
"""
import requests
import json
import codecs
from lxml import etree
 
 
class chuangYeBang:
    def __init__(self):
        pass
 
    def get_html(self, url):
        """ get_html
        得到網頁原始碼，返回unicode格式
        
        @param: url
        @return: r.text <type 'unicode'>
        """
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64)"
            "AppleWebKit/537.36 (KHTML, like Gecko)"
            "Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6721.400"
            "QQBrowser/10.2.2243.400"
        }
        r = requests.get(url, headers=headers)
        print r.status_code
        return r.text
 
    def get_company_data(self, text):
        """ get_company_data
        得到網頁資訊
        eg: [{
            "companyUrl": "http://www.cyzone.cn/r/20180824/68979.html", 
            "stage": "天使輪", 
            "type": "硬體", 
            "time": "2014-12-19", 
            "companyName": "成都思科"
        }]
        @param: text 網頁的原始碼unicode格式原始碼
        @return: list 一個頁面所有的公司資訊 列表中每一個元素為存入資訊的字典
        """
        html = etree.HTML(text)  # 解析網頁
        company_name_list = html.xpath(
            '//td[@class="table-company-tit"]/a/span/text()'
            )
        # 得到帶有class"table-company-tit"...屬性的td標籤下的a標籤下的span標籤的內容，返回為一個列表
        print company_name_list  # get companyName list
        print len(company_name_list)
 
        company_url_list = html.xpath(
            '//td[@class="table-company-tit"]/a/@href'
            )
        """
        得到帶有..屬性的td標籤下的a標籤中hred的內容
        為一個url
        <a href="http://www.cyzone.cn/r/20180823/68963.html" target="_blank">
        """
        print company_url_list
 
        stage_list = html.xpath('//td[@class="table-stage"]/@data-stage')
        # 同上 不解釋了 得到stage
        company_stage_list = []
        for company_stage in stage_list:
            company_stage = company_stage.strip(',') if company_stage else None
            company_stage_list.append(company_stage)
        print company_stage_list  # get stage list
        print len(company_stage_list)
 
        company_type_list = html.xpath('//td[@class="table-type"]')
        type_list = []
        for company_type in company_type_list:
            company_type = company_type.xpath('./a/text()')[0] \
                if company_type.xpath('./a/text()') else None
            type_list.append(company_type)
        print type_list
        print len(type_list)
 
        company_time_list = html.xpath('//td[@class="table-time"]/text()')
        print company_time_list
        print len(company_time_list)
 
        """
        遍歷每個列表，取出列表對應的元素，組成我們需要的字典
        """
        ret_company_list = []
        for i in range(20):
            single_company = {}
            single_company['companyUrl'] = company_url_list[i]
            single_company['companyName'] = company_name_list[i]
            single_company['type'] = type_list[i]
            single_company['stage'] = company_stage_list[i]
            single_company['time'] = company_time_list[i]
            ret_company_list.append(single_company)
 
        return ret_company_list
 
    def write_in_json(self, data):
        """ write_in_json
        寫入json檔案
        codecs  # 用於編碼，同一用utf-8格式編碼
        json.dumps  # 方法用於將字典或者列表轉換成json字串格式，存入json檔案
        indent=2  # json檔案中顯示的方法，顯示為2字元的鎖緊
        .decode('unicode_escape')  # 在json檔案中顯示中文，不會顯示utf-8編碼，方便看。
        """
        json_data = json.dumps(data, indent=2).decode('unicode_escape')
        with codecs.open('./chuangYeBang.json', 'w', 'utf-8') as fw:
            fw.write(json_data)
 
 
class getCompanyInfo:
    """ 得到每個公司詳細資訊 """
    def __init__(self):
        pass
 
    def get_html_text(self, url):
        headers = {}
        r = requests.get(url, headers=headers)
        print r.status_code
        return r.text
 
    def get_company_info(self, text):
        pass
 
 
if __name__ == "__main__":
    cyb = chuangYeBang()
    url = 'http://www.cyzone.cn/vcompany/list-0-0-1-0-0/0'
    text = cyb.get_html(url)
    data = cyb.get_company_data(text)
    cyb.write_in_json(data)

Python之爬蟲-- etree和XPath實戰

下面程式碼是在網站上找到的一個例子，空閒的時候可以自己除錯。 # -*- coding:utf-8 -*- """ 爬蟲創業邦創業公司資訊爬取網頁url = 'http://www.cyzone.cn/vcompany/list-0-0-1-0-0/0' 爬取頁面中的創業公司，

Python之爬蟲-- XML與XPath

XML XML(EXtensibleMarkupLanguage) 學習文件： http://www.w3school.com.cn/xml/index.asp 案例1 概念：父節點，子節點，先輩節點，兄弟節點，後代節點案例

python之爬蟲的入門05------實戰：爬取貝殼網（用re匹配需要的資料）

# 第二頁：https://hz.zu.ke.com/zufang/pg2 # 第一頁：https://hz.zu.ke.com/zufang/pg1 import urllib.request import random import re def user_ip(): ''

Python之爬蟲-- 頁面解析和資料提取

目錄頁面解析和資料提取 Beautiful Soup 4.2.0 文件一、簡介二、bs4的使用 1、匯入模組

Python之條件判斷和循環

height ont 腳本混合 sse 根據 pan fail width 1、if條件判斷語句 1 score = 80 2 if score >= 60: 3 print ‘Passed‘ 4 else: 5 print ‘Failed‘ 註

自學python之爬蟲3股票數據爬蟲

trace _for 進行 cnblogs js代碼 encoding href slist 保存目標：獲取股票上交所和深交所所有股票的名稱和交易信息，保存在文件中使用到的技術：requests+bs4+re 網站的選擇（選取原則：股票信息靜態存在HTML頁面，非js代

運維學python之爬蟲中級篇（五）數據存儲（無數據庫版）

就是 erro mage name 打印反序 lis object Circul 本篇主要介紹，爬取html數據後，將html的正文內容存儲為json或csv格式。 1 json格式存儲選定要爬取的網站後，我們利用之前學過的內容，如：Beautiful Soup、xpa

運維學python之爬蟲中級篇（七）Sqlite3

pro odin any /dev/ 裏的連接 oracle postgresq pycharm 前文已經講過無數據庫版本操作（csv，json），今天我們要開始講有數據庫版本的操作，首先就是sqlite3。 1 介紹 SQLite是一個C庫，它提供了一個輕量級的基於磁盤

python之模塊和包

sys.path 不同的 oot 鏈接庫獨立 python代碼都是模塊查詢一 Python模塊簡介 Python模塊：可以將代碼量較大的程序分割成多個有組織，彼此間獨立但又能互相交互的代碼片段，這些自我包含的有組織的代碼段就是模塊模塊在物理形式上表現為以.py

運維學python之爬蟲中級篇（九）Python3 MySQL 數據庫連接

結束學python ofo 如何 res 2.7 獲取數據執行 mail 最近因為年底，連續兩個項目要投產上線，又趕上公司年會，忙的要死，更新有些慢，見諒。今天要說一說python如何對mysql進行操作。在 Python3.x 版本中用於連接 MySQL 服務器的庫與

運維學python之爬蟲高級篇（六）scrapy模擬登陸

markdown inux ins com 是否準備配置獲取圖片 con 上一篇介紹了如何爬取豆瓣TOP250的相關內容，今天我們來模擬登陸GitHub。 1 環境配置語言：Python 3.6.1 IDE： Pycharm 瀏覽器：firefox 抓包工具：fi

Python之面向過程和面向對象的區別

用戶需求範圍不同的 and 貪婪匹配 findall family 流水線技能一、面向過程　　1、面向過程：核心是過程二字，過程指的是解決問題的步驟，好比如設計一條流水線，是一種機械式的思維方式。　　　　　就是程序從上到下一步步執行，一步步從上到下，從頭到尾的解

Python之生成器(generator)和叠代器(Iterator)

聲明創建一個數 ID 少包 int yield 列表解析 next() generator 生成器generator：一邊循環一邊計算的機制。生成器是一個特殊的程序，可以被用於控制循環的叠代行為。python中的生成器是叠代器的一種，使用yield返回值函數，每次調

Python之爬蟲-- Requests

目錄 Requests-獻給人類一、簡介二、安裝方式三、 GET請求四、POST請求五、顯示json檔案六、代理（proxies引數）七、使用者驗證八、Cookies 和 Session 1、Cookies 2、Se

Python之爬蟲-- js加密（破解有道詞典加密的演算法）

js加密有的反爬蟲策略採用js對需要傳輸的資料進行加密處理（通常是取md5值) 經過加密，傳輸的就是密文，但是加密函式或者過程一定是在瀏覽器完成，也就是一定會把程式碼（js程式碼）暴露給使用者通過閱讀加密演算法，就可以模擬出加密過程，從而達到破解過程參看案例

Python之爬蟲-- cookie & session（二）

這一片是繼《Python之爬蟲-- cookie & session》這一篇之後在網上找到的一篇小練習，也是對cookie有更深的認識一、為什麼要使用Cookie Cookie，指某些網站為了辨別使用者身份、進行session跟蹤而

Python之爬蟲-- SSL

SSL SSL證書就是指遵守SSL安全套階層協議的伺服器數字證書（SercureSocketLayer) 美國網景公司開發 CA（CertifacateAuthority)是數字證書認證中心，是發放，管理，廢除數字證書的收信人的第三方機構遇到不

Python之爬蟲-- cookie & session

目錄 cookie & session cookie和session的區別 session的存放位置使用cookie登入利用cookiejar訪問人人，案例3 cookie的儲存-FileCookieJar，案例5 cookie的讀取，案例6

跟老齊學Python之私有函式和專有方法

在任何語言中，都會規定某些物件(屬性、方法、函式、類等)只能夠在某個範圍內訪問，出了這個範圍就不能訪問了。這是“公”、“私”之分。此外，還會專門為某些特殊的東西指定一些特殊表示，比如類的名字就不能用class，def等，這就是保留字。除了保留字，python中還為類的名字做了某些特殊準備，就是“專有

python之爬蟲的入門06------scrapy框架

1、安裝scrapy框架： pip install scrapy 2、scrapy原理圖： 3、介紹： Scrapy Engine引擎引擎負責控制資料流在系統中所有元件中流動，並在相應動作發生時觸發事件。排程器(Scheduler) 排程器從引擎接受request並將他

Python之爬蟲-- etree和XPath實戰

相關推薦