用python爬取網貸之家p2p平臺數據

阿新 • • 發佈：2019-01-09

網貸之家中的p2p平臺數據比較容易獲取，重要的就是如何分析網頁的原始碼然後從裡面提取自己需要的資訊，也不需要使用者登入，該網站的爬蟲比較簡單，主要用了urllib包來獲取網頁資訊，用BeautifulSoup來解析網頁，最後用正則表示式提取資料。這裡就直接上原始碼了：

# -*- coding: utf-8 -*-
"""
Created on Wed Aug  8 18:22:26 2018

@author: 95647
"""
import urllib
from urllib.request import urlopen
from bs4 import BeautifulSoup
import 
 re
import pandas as pd

headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
lists =[]
domains = "https://www.wdzj.com"

def get_platform_site(url,lists):
    """獲取所有的平臺網址"""
#    global lists
    req = urllib.request.Request(url, headers=headers)
    html = urlopen(req)
    bsObj = BeautifulSoup(html,'lxml' 
)
    title = bsObj.findAll("div",{'class':'itemTitle'})  
    for titles in title:
        links =  titles.findAll("a",{'target':'_blank'})
        for link in links:
            if 'href' in link.attrs:
                lists.append(link.attrs['href'])
#                print(link.attrs['href'])
    return 
 lists                   #用utf-8進行解碼

def pages_num(url):
    """獲取各類平臺的頁面總數"""
    req = urllib.request.Request(url, headers=headers)
    html = urlopen(req)
    bsObj = BeautifulSoup(html,'lxml')    
    pages= bsObj.findAll("a",text = '尾頁')
    for page in pages:
        if "currentnum" in page.attrs:
            pages_num = page.attrs["currentnum"]
        else:
            return None
    return pages_num


def conditions(i):
    """獲取各個平臺的運營狀態，生成包含各類平臺的列表"""
#    global lists
    lists =[]
    url_ = r"""https://www.wdzj.com/dangan/search?filter=e%s"""%str(i)
    all_pages_num = int(pages_num(url_))
    for num in range(1, all_pages_num +1):
        url = url_ + "&currentPage=%s"%str(num)
        lists = get_platform_site(url,lists)
    return lists

operations = conditions(1)   #正常運營平臺
#close_transitions = conditions(2)  #停業或轉型平臺
#in_problems= conditions(3)   #問題平臺

def plat_profile(lists):
    """抓取平臺的資料"""
    global domains
    plat_profile=[]
    for site in lists:
        plat_info =[]
        url = domains + site
        req = urllib.request.Request(url, headers=headers)
        html = urlopen(req)
        bsObj = BeautifulSoup(html,'lxml')
        plat_name = bsObj.findAll('h1')[0].attrs["alt"]               #平臺名稱
        t_l = bsObj.findAll("div",{"class":"pt-info"})[0].get_text()
        time_s=""
        location =""
        if len(t_l)>0:
            t_l = re.split("上線",t_l)                                     
            time_s = t_l[0].strip()                                  #上線時間
            location= t_l[1].strip()                                 #平臺所屬地域 
        common_data = bsObj.findAll("b",{"class":"tab_common_data"}) 
        yield0 =""  #給出變數值
        duration = "" #給出變數值
        for data in common_data:
            text = data.parent.get_text()
            if len(re.findall(".*月.*",text)) > 0:
                duration = re.findall(".*月.*",text)[0]
                duration = text.strip()                              #平均期限
            if len(re.findall(".*%.*",text)) > 0:
                yield0 = re.findall(".*%.*",text)[0]
                yield0 = text.strip()                                #平均收益率 
        rates_ = bsObj.find("div",{"class":"dpxximg"})
        if "data-pl" in rates_.attrs:
            rates = bsObj.find("div",{"class":"dpxximg"}).attrs["data-pl"] #獲取評分
        plat_pro = bsObj.findAll("div",{"class":"bgbox-bt zzfwbox"})
        plat_pro = BeautifulSoup(str(plat_pro),"lxml")
        L1 =[]
        L2 =[]
        zzzj = ""
        gqss = ""
        yhtg = ""           
        rzjl = ""            
        jgxh = ""            
        ICP = ""
        zdtb = ""
        zqzr = ""
        tbbz = ""
        bzms = ""    
        for div in plat_pro.findAll("div",{"class":"l"}):
            L1.append(div.get_text().strip())
        for div in plat_pro.findAll("div",{"class":"r"}):
            L2.append(div.get_text().strip())
        for slzz in L1:              #獲取平臺的備案資訊
            if slzz =="註冊資金":
                zzzj = L2[L1.index(slzz)]
            if slzz =="股權上市":
                gqss = L2[L1.index(slzz)].replace(" ","")
            if slzz =="銀行存管":
                yhtg = L2[L1.index(slzz)]            
            if slzz =="融資記錄":
                rzjl = L2[L1.index(slzz)].replace(" ","")            
            if slzz =="監管協會":
                jgxh = L2[L1.index(slzz)].replace(" ","")            
            if slzz =="ICP號":
                ICP = L2[L1.index(slzz)]
            if slzz =="自動投標":
                zdtb = L2[L1.index(slzz)]
            if slzz =="債券轉讓":
                zqzr = L2[L1.index(slzz)]            
            if slzz =="投標保障":
                tbbz = L2[L1.index(slzz)]
            if slzz =="保障模式":
                bzms = L2[L1.index(slzz)]         
        plat_info.append(plat_name)  #這個地放用了很笨的方法，一個個的新增元素到列表中，存在優化空間
        plat_info.append(time_s)
        plat_info.append(location)
        plat_info.append(duration)
        plat_info.append(yield0)
        plat_info.append(rates)
        plat_info.append(zzzj)
        plat_info.append(gqss)
        plat_info.append(yhtg)
        plat_info.append(rzjl)
        plat_info.append(jgxh)
        plat_info.append(ICP)
        plat_info.append(zdtb)
        plat_info.append(zqzr)
        plat_info.append(tbbz)
        plat_info.append(bzms)
        plat_profile.append(plat_info)
        print("------------->"+plat_name+str(lists.index(site)))  #列印爬取的平臺資訊
    return plat_profile

plat_profile = plat_profile(conditions(1))  #conditions根據平臺型別的不同來設定，為1則表示正常運營平臺
name = ['平臺名稱','上線時間','區域','投資期限','平均收益率','評分',
                  '註冊資金', '股權上市', '銀行存管', '融資記錄', '監管協會', 
                  'ICP號', '自動投標', '債權轉讓', '投標保障', '保障模式']
operating = pd.DataFrame(columns=name,data= plat_profile)
operating.to_csv(r"""C:\Users\95647\Desktop\operating.csv""")   #path to save csvfile

寫該程式碼之前，還沒有學習panda的用法，所以簡單粗暴的用列表和字典來解決問題，會使用pandas的朋友可以用pandas來進行優化。爬蟲執行過程如下：

該爬蟲執行速度很快，我爬取了100個正常運營平臺的資訊，才用了5分鐘左右，部分爬蟲結果如下：
爬蟲結果展示

有問題的和其他想法的朋友，歡迎加QQ：956471511交流，這裡還有一篇關於如何爬取人人貸網站資料的博文，有興趣的朋友可以看一下。手把手教你用python爬取人人貸借款人資料

用python爬取網貸之家p2p平臺數據

網貸之家中的p2p平臺數據比較容易獲取，重要的就是如何分析網頁的原始碼然後從裡面提取自己需要的資訊，也不需要使用者登入，該網站的爬蟲比較簡單，主要用了urllib包來獲取網頁資訊，用BeautifulSoup來解析網頁，最後用正則表示式提取資料。這裡就直接上原始

我用Python爬取網易雲音樂上的Hip-hop歌單，分析rapper如何押韻

line gone 謠言大致 -i 態度大眾其中當前緣起《中國有嘻哈》這個節目在這個夏天吸引了無數的目光，也讓嘻哈走進了大眾的視野。作為我今年看的唯一一個綜藝節目，它對我的影響也蠻大。這個夏天，我基本都在杭州度過，在上下班的taxi上，我幾乎都在刷這個節目，最後

沒有內涵段子可以刷了，利用Python爬取段友之家貼吧圖片和小視頻(含源碼)

python 興趣爬蟲職業由於最新的視頻整頓風波，內涵段子APP被迫關閉，廣大段友無家可歸，但是最近發現了一個“段友”的app，版本更新也挺快，正在號召廣大段友回家，如下圖，有興趣的可以下載看看（ps：我不是打廣告的，沒收廣告費的）同時，之前同事也發了一個貼吧的段子聚居地，客官稍等，馬

用python爬取網易雲音樂，新手看了也能操作

今天小編帶大家一起來利用Python爬取網易雲音樂，分分鐘將網站上的音樂down到本地。跟著小編執行過程式碼的筒子們將網易雲歌詞抓取下來已經不再話下了，在抓取歌詞的時候在函式中傳入了歌手ID和歌曲名兩個引數，其實爬取歌曲也是同樣的道理，也需要傳入這兩個引數，只不過網易雲歌曲的

爬蟲入門——用python爬取網易雲音樂熱門歌手評論數

本文參考Monkey_D_Newdun 的文章用爬蟲獲取網易雲音樂熱門歌手評論數執行平臺：Windows 10IDE：spyderPython版本：3.6瀏覽器：360一、爬蟲基本思路a. 通過URL或者檔案獲取網頁：開啟網頁-F12-找到需要獲取的url，request h

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

用Python爬取拉鉤網招聘職位資訊

本文實現自動爬取拉鉤網招聘資訊，並將爬取結果儲存在本地文字中（也可以將資料存入資料庫）使用到的Python模組包（Python3）： 1.urllib.request 2.urllib.parse 3.json 簡單分析： 1.在向伺服器傳送請求，

Python工具 | 9個用來爬取網絡站點的 Python 庫

解析器交互 als spider 分布式協作環境 python開發簡單 1??Scrapy 一個開源和協作框架，用於從網站中提取所需的數據。以快速，簡單，可擴展的方式。官網 2??cola 一個分布式爬蟲框架。 GitHub 3??Demiurge 基於

python爬取網易雲音樂歌單音樂

string attrs default textarea bsp color read contents dom 在網易雲音樂中第一頁歌單的url：http://music.163.com/#/discover/playlist/ 依次第二頁：http://music.1

用python爬取微博數據並生成詞雲

font 意思 extra 很多返回 json 自己技術分享 pre 很早之前寫過一篇怎麽利用微博數據制作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的數據，現在重新整理了一下，任何的微博數據都可以制作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默

用python爬取i春秋的課程

out clas sse dir quest index 影響 png 繼續看課中內容是用get請求進行爬取課程，自己實踐的時候發現已經被改成post請求了，下面開始打開課程頁面我用的火狐，然後就是F12，點擊網絡，可能會有很多包，但不影響，點擊刪除就行，然後點擊第二

我用 Python 爬取微信好友，最後發現一個大秘密

代碼我們同學 strong 分享簽名 ast ron tps 前言你身處的環境是什麽樣，你就會成為什麽樣的人。現在人們日常生活基本上離不開微信，但微信不單單是一個即時通訊軟件，微信更像是虛擬的現實世界。你所處的朋友圈是怎麽樣，慢慢你的思想也會變的怎麽樣。最近在學習

怎麽用Python爬取抖音小視頻? 資深程序員都這樣爬取的(附源碼)

aid option rip size with open url var mark open 簡介抖音，是一款可以拍短視頻的音樂創意短視頻社交軟件，該軟件於2016年9月上線，是一個專註年輕人的15秒音樂短視頻社區。用戶可以通過這款軟件選擇歌曲，拍攝15秒的音樂短視頻

分手後，小夥怒用Python爬取上萬空姐照片，贏取校花選舉大賽！

代碼美女圖片 pst caption alt .... 不出 ima bee 首先展示下Python爬取到的成果：我做什麽都要爭第一，這次的校花投票選舉大賽也不例外，雖然我是個男的......但是我看到了前女友竟然已經有三百多票排到第三名了，我怎麽能眼睜

誰當年還沒看過幾本小說！我用Python爬取全站的的小說！

nec 打印 b數技術分享 mon 結果鏈接 ons ide 然後再將請求發送出去，定義變量response，用read（）方法觀察，註意將符號解碼成utf-8的形式，省的亂碼：打印一下看結果：看到這麽

項目實戰！我用Python爬取了14年所有的福彩3D信息

下載器 rap 寫入excel url req 理論 ola text port 前兩天，在網上看到一個有意思的問題：×××靠譜麽？為什麽還有那麽多的人相信×××？暫且不說，×××是否靠譜？×××也分人而異，江湖上騙術很多，有些甚至會誤以為×××的準確度可以很高，這些操盤

python爬取網易雲音樂歌曲評論信息

webkit fun 數據包 cond bubuko ret value selenium apple 　　網易雲音樂是廣大網友喜聞樂見的音樂平臺，區別於別的音樂平臺的最大特點，除了“它比我還懂我的音樂喜好”、“小清新的界面設計”就是它獨有的評論區了——————各種故事匯

微信PK10平臺開發與用python爬取微信公眾號文章

網址谷歌瀏覽器 pytho google http 開發微信安裝python rom 本文通過微信提供微信PK10平臺開發[q-21528-76294] 網址diguaym.com 的公眾號文章調用接口，實現爬取公眾號文章的功能。註意事項 1.需要安裝python s

用python爬取股票資料的一點小結

一、背景網上對於爬取股票資料有相對完善的教程。不過大部分教程都是隻能夠爬取一段時間的股票資料，針對某一隻股票的歷史資料爬取，目前還沒有看到比較好的教程。下面對近期學的東西進行一點點小結。二、股票資料爬取網站網上更多推薦的是東方財富的股票資料，連結為：http://quote.eas

用python爬取美女圖片

import urllib.request import os for i in range(2000, 2400): if not os.path.exists(‘tupian/’ + str(i)): os.makedirs(‘tupian/’ + str(i)) for j in

用python爬取網貸之家p2p平臺數據

相關推薦