用pyquery抓取分析北京房地產成交資料

阿新 • • 發佈：2018-12-23

#!/usr/bin/env python
#coding:gbk
#author:周海漢
#note:分析北京住房和城鄉建設委員會每天房產成交資料
import urllib2
import sys
import os
import datetime
import time
import shutil

from pyquery import PyQuery as pq

fn = "1.txt"
fnwork = "roominfo.csv"
lockfile = "lock.txt"
html = ""

def hasfetch():
    old=datetime.datetime.now 
()-datetime.timedelta(days =1)
    #print old
    tnow=datetime.datetime.now()
    print "NOW :",tnow



    try:

        t = open(lockfile,'r').read()
        print "LAST FETCH TIME:",t
        date = time.strptime(t[:19],"%Y-%m-%d %H:%M:%S")
        #print date
        old = datetime.datetime(date 
[0], date[1],date[2])
        print old
        #print (tnow-old).days > 0 and False or True
        #old = datetime.datetime(t)
    except Exception,e:
        print e
        return False

    if (tnow-old).days > 0 :
        return False
    return True

if hasfetch():
    print 'has crawled the room info, DO NOTHING!!!!' 

    exit(0)
headers = {'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}
url = "http://www.bjjs.gov.cn/tabid/2167/Default.aspx"
url = "http://www.bjjs.gov.cn/tabid/2207/Default.aspx"
#for chinese url

#p=pq(u'<td width="145" align="left">第A01版：<strong>今日一版</strong></td>')('td')
#print p.children().text().encode('gbk')

#if os.path.isfile(fn):
#    html = open(fn,'rb').read()
#else:
try:

    url=url.encode('utf8')
    url=urllib2.unquote(url)

    #req = urllib2.Request(url)
    f = urllib2.urlopen(url)
    html = f.read()
    type = sys.getfilesystemencoding()
    html1 =  html.decode("UTF-8").encode(type)
    #print html1


    p = pq(html.decode("UTF-8"))
    #print p.children().text().encode(type)
    #print p("#ess_ctr5233_ModuleContent").text().encode(type)
    data = p("#ess_ctr5233_ModuleContent")
    table1=data.find("table")
    #print t1.text().encode(type)
    #print table1.eq(0).text().encode(type)
    txt = ''
    for i in range(1,4):
        txt += table1.eq(i).text().replace(' ',',').encode(type)
        txt += "n"
        #print txt
    w = open(fn,"a+")
    w.write(txt)
    w.close()
    shutil.copyfile(fn,fnwork)

    print 'sucessfull!'
    l = open(lockfile,"w+")
    l.write(str(datetime.datetime.now()))
    l.close()



    #d=pq(filename=fn)

    #print d.html().encode('utf8')
    #print d.text().encode('utf8')
except Exception,e:
    print 'except'
    print e

用pyquery抓取分析北京房地產成交資料

#!/usr/bin/env python #coding:gbk #author:周海漢 #note:分析北京住房和城鄉建設委員會每天房產成交資料 import urllib2 import sys import os import datetime import time import shutil f

資料抓取分析(python + mongodb)Python資料抓取分析

　　程式設計模組：requests,lxml，pymongo，time，BeautifulSoup 　　首先獲取所有產品的分類網址：　　1 def step(): 　　2 try: 　　3 headers = { 　　4 。。。。。　　5 } 　　6 r = reque

用Python抓取朋友圈資料，通過人臉識別全面分析好友！看透朋友圈

微信：一個提供即時通訊服務的應用程式，更是一種生活方式，超過數十億的使用者，越來越多的人選擇使用它來溝通交流。不知從何時起，我們的生活離不開微信，每天睜開眼的第一件事就是開啟微信，關注著朋友圈裡好友的動態，而朋友圈中或虛或實的狀態更新，似乎都在證明自己的“有趣”，尋找那份

用Python抓取並分析了1982場英雄聯盟資料，教你開局前預測遊戲對局勝負！

英雄聯盟想必大多數讀者不會陌生，這是一款來自拳頭，由騰訊代理的大型網路遊戲，現在一進網咖，你就能發現一大片玩英雄聯盟的人。在2017年中國戰隊無緣鳥巢的世界總決賽後，一大片人選擇了棄遊，只是終究沒躲過“真香定理”，在2018年的中旬，又有大批戰友又回到熟悉的召喚師峽谷戰場，時至今日，英雄聯盟已經不僅僅是一款遊

用Python抓取並分析了1982場英雄聯盟數據，教你開局前預測遊戲對局勝負！

cross 2018年 eva root 結果 sigmoid tcl optimizer json 英雄聯盟想必大多數讀者不會陌生，這是一款來自拳頭，由騰訊代理的大型網絡遊戲，現在一進網吧，你就能發現一大片玩英雄聯盟的人。在2017年中國戰隊無緣鳥巢的世界總決賽後，一大片

用Fiddler抓取PC、手機瀏覽器\APP資料包，分析埋點

先關了防火牆然後隨便下一個fiddler，然後別升級…… 然後點開下圖的配置然後如下圖配置如下圖繼續設定，埠號找一個沒人用的，一般來說用8888，不過8888由於預設的用它的太多了，所以最好換一個，記下這個伺服器埠號然後用電腦開個手機熱點然後手機連

一個站點的誕生02--用Scrapy抓取數據

項目 selector 默認安裝找不到 shang foo 術語替換產生假設想抓數據，就須要有爬蟲程序，業內叫crawler或者spider。有各種語言版本號的開源爬蟲。c++, Java, php，在github上搜一下，以"spider c++"為k

[Python爬蟲] 之十九：Selenium +phantomjs 利用 pyquery抓取超級TV網數據

images 判斷 nco dex onf etc lac lin 利用　　一、介紹　　　　本例子用Selenium +phantomjs爬取超級TV（http://www.chaojitv.com/news/index.html）的資訊信息，輸入給定關鍵字抓取

用python 抓取B站視頻評論，制作詞雲

port mil query 雲圖 ges cal 爬取 close hid python 作為爬蟲利器，與其有很多強大的第三方庫是分不開的，今天說的爬取B站的視頻評論，其實重點在分析得到的評論化作嵌套的字典，在其中取出想要的內容。層層嵌套，眼花繚亂，分析時應細致！步驟分為

房東要給我漲800房租，生氣的我用Python抓取帝都幾萬套房源信息，我主動漲了1000。

__init__ tar extend 簡單 not in 詳細分布 obj soho 老貓我在南五環租了一個80平兩居室，租房合同馬上到期，房東打電話問續租的事，想要加房租；我想現在國家正在也在抑制房價，房子價格沒怎麽漲，房租應該也不會漲，於是霸氣拒絕了，以下是聊天記錄

用Selenium抓取新浪天氣

空氣 rom cell parse beautiful 西北風 port $path 系統環境（1）用Selenium抓取新浪天氣系統環境：操作系統：macOS 10.13.6 python ：2.7.10 用虛擬環境實現一、創建虛擬環境： mkvirtua

用wireshark抓包分析TCP三次握手、四次揮手以及TCP實現可靠傳輸的機制（轉）

關於TCP三次握手和四次揮手大家都在《計算機網路》課程裡學過，還記得當時高超老師耐心地講解。大學裡我遇到的最好的老師大概就是這位了，雖然他只給我講過《java程式設計》和《計算機網路》，但每次課幾乎都動手敲程式碼或者當場做實驗。好了不扯了，下面進入正題。關

selenium和pyquery抓取非同步載入資料

from selenium import webdriver from selenium.webdriver.support import expected_conditions as EC from selenium.webdriver.common.by import By from seleniu

selenium和pyquery抓取異步加載數據

chrome瀏覽器 put css選擇器 chrome 總頁數 _id The cto 數據 from selenium import webdriver from selenium.webdriver.support import expected_conditions

用spark分析北京積分落戶資料，整理北京積分落戶名單資料成csv格式

讀取json檔案格式資料，整理匯出成csv格式 import json,csv #載入資料 def loadData(): with open('jifenluohu.json', 'r') as f: data = json.load(f)

用spark分析北京積分落戶資料，按使用者所在單位分析

載入剛才解析json格式儲存而成的csv檔案。按使用者所在單位分析 df = spark.read.format("csv").option("header", "true").load("jif

用spark分析北京積分落戶資料，按使用者年齡分析

載入剛才解析json格式儲存而成的csv檔案。按使用者年齡分析 df = spark.read.format("csv").option("header", "true").load("jifen

用Scrapy抓取的中文字元匯出到csv中出現亂碼

背景按照這篇文章學些Scrapy框架，爬取豆瓣電影Top250的資訊，將資訊匯入到本地csv檔案時，由於電影名稱是中文，儲存時出現了亂碼。解決辦法在setting檔案中加入這樣一行語句： FEED_EXPORT_ENCODING = ‘utf-8-sig’ 儲存se

用 python 抓取知乎指定回答下的視訊

前言現在知乎允許上傳視訊，奈何不能下載視訊，好氣哦，無奈之下研究一下了，然後擼了程式碼，方便下載視訊儲存。接下來以貓為什麼一點也不怕蛇？回答為例，分享一下整個下載過程。除錯一下開啟 F12, 找到游標，如下圖：然後將游標移動到視訊上。如下圖：咦這是什麼？視野中出現了一條神祕

用Fiddler抓取手機APP資料包

1.允許遠端連線 2.允許監聽https 3.重啟Fiddler 這步很重要，不要忘了 4.手機配置用ipconfig命令查詢當前PC的區域網IP 將手機連線上同一個WIFI，並進行設定： iOS手機：設定 >

用pyquery抓取分析北京房地產成交資料

相關推薦