如何採集鏈家網二手房成交資料?
首先我們看一個城市的成交頁面:https://sh.lianjia.com/chengjiao/pg2/
擁有非常多的條件組合,同時最大顯示頁數為100頁,如果希望獲取100頁之外的,那就只能拆分搜尋條件了。
知道了條件組合 以及最大頁數之後,那麼問題來了,上面如果希望檢視詳情的話就需要下載APP,那麼APP是必須下載的嗎?
通過檢視html原始碼可以發現,房屋的圖片 有詳情頁的連結,從而可以避免下載APP了。
採集程式的大致思路就出來了,
首先是整理條件組合,區域+面積+房型差不多就夠用了
其次是採集列表
最後是採集詳情。
那麼在採集之前,首先是先建立好資料庫表結構,如下:
CREATE TABLE `lianjiaOtherCheng` (
`code` varchar(100) NOT NULL COMMENT '鏈家編號',
`firstArea` varchar(100) DEFAULT NULL COMMENT '第一區域 城市',
`firstAreaEn` varchar(10) DEFAULT NULL COMMENT '城市拼音',
`secondArea` varchar(100) DEFAULT NULL COMMENT '第二區域 區',
`thirdArea` varchar(100) DEFAULT NULL COMMENT '第三區域',
`projectName` varchar(500) DEFAULT NULL COMMENT '專案名稱',
`chengjiaoshijian` varchar(50) DEFAULT NULL COMMENT '成交時間',
`zongjia` decimal(11,2) DEFAULT NULL COMMENT '成交總價',
`zongjiadanwei` varchar(50) DEFAULT NULL COMMENT '總價單位',
`zongjiaStr` varchar(50) DEFAULT NULL COMMENT '總價 帶單位',
`chengjiaofangshi` varchar(50) DEFAULT NULL COMMENT '成交方式',
`danjia` decimal(11,2) DEFAULT NULL COMMENT '單價',
`danjiadanwei` varchar(50) DEFAULT NULL COMMENT '單價單位',
`danjiaStr` varchar(50) DEFAULT NULL COMMENT '單價 帶單位',
`touxiang` varchar(500) DEFAULT NULL COMMENT '頭像圖片',
`guapaijiage` varchar(50) DEFAULT NULL COMMENT '掛牌價格(萬)',
`chengjiaozhouqi` varchar(50) DEFAULT NULL COMMENT '成交週期(天)',
`tiaojia` varchar(50) DEFAULT NULL COMMENT '調價(次)',
`daikan` varchar(50) DEFAULT NULL COMMENT '帶看(次)',
`guanzhu` varchar(50) DEFAULT NULL COMMENT '關注(人)',
`liulan` varchar(50) DEFAULT NULL COMMENT '瀏覽(次)',
`fangwuhuxing` varchar(50) DEFAULT NULL COMMENT '房屋戶型',
`suozailouceng` varchar(50) DEFAULT NULL COMMENT '所在樓層',
`jianzhumianji` varchar(50) DEFAULT NULL COMMENT '建築面積',
`huxingjiegou` varchar(50) DEFAULT NULL COMMENT '戶型結構',
`taoneimianji` varchar(50) DEFAULT NULL COMMENT '套內面積',
`jianzhuleixing` varchar(50) DEFAULT NULL COMMENT '建築型別',
`fangwuchaoxiang` varchar(50) DEFAULT NULL COMMENT '房屋朝向',
`jianchengniandai` varchar(50) DEFAULT NULL COMMENT '建築年代',
`zhuangxiuqingkuang` varchar(50) DEFAULT NULL COMMENT '裝修情況',
`jianzhujiegou` varchar(50) DEFAULT NULL COMMENT '建築結構',
`gongnuanfangshi` varchar(50) DEFAULT NULL COMMENT '供暖方式',
`tihubili` varchar(50) DEFAULT NULL COMMENT '梯戶比例',
`chanquannianxian` varchar(50) DEFAULT NULL COMMENT '產權年限',
`peibeidianti` varchar(50) DEFAULT NULL COMMENT '配備電梯',
`jiaoyiquanshu` varchar(50) DEFAULT NULL COMMENT '交易權屬',
`guapaishijian` varchar(50) DEFAULT NULL COMMENT '掛牌時間',
`fangwuyongtu` varchar(50) DEFAULT NULL COMMENT '房屋用途',
`fangwunianxian` varchar(50) DEFAULT NULL COMMENT '房屋年限',
`fangquansuoshu` varchar(50) DEFAULT NULL COMMENT '房權所屬',
`lishichengjiao` text COMMENT '歷史成交 分號分割',
`baiduLat` varchar(50) DEFAULT NULL COMMENT '百度緯度',
`baiduLng` varchar(50) DEFAULT NULL COMMENT '百度經度',
`gaodeLat` varchar(50) DEFAULT NULL COMMENT '高德緯度',
`gaodeLng` varchar(50) DEFAULT NULL COMMENT '高德經度',
`createTime` date DEFAULT NULL COMMENT '抓取日期',
PRIMARY KEY (`code`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8 COMMENT='除北京外鏈家二手房成交記錄'
兩個經緯度這塊是我們自己新增的。網頁中顯示的是百度經緯度。
之後就開始寫程式碼了。程式碼太多,請參考:https://qianjieyun.com/new_14CAC3214C8272F32708BA0B2098912C.html
相關推薦
如何採集鏈家網二手房成交資料?
首先我們看一個城市的成交頁面:https://sh.lianjia.com/chengjiao/pg2/擁有非常多的條件組合,同時最大顯示頁數為100頁,如果希望獲取100頁之外的,那就只能拆分搜尋條件了。知道了條件組合 以及最大頁數之後,那麼問題來了,上面如果希望檢視詳情的
鏈家網二手房資料分析(承接上篇爬蟲)
import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei']#用來正常顯示中文標籤 path=
python 學習 - 爬蟲入門練習 爬取鏈家網二手房資訊
import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db") c = conn.cursor() for num in range(1,101): url = "h
利用Python爬蟲和Tableau分析鏈家網二手房資訊
1、明確分析的目標和思路 目的:近年來,房價時時刻刻牽動著廣大老百姓的心,尤其是急需買房的剛需族和二胎家庭的置換族。本文希望通過對上海市中心城區二手房資訊的分析,能夠對房價和地理位置、房齡等因素的關係有一定的掌握。 分析思路:通過python爬取鏈家網二手房資訊,經過資料
使用Java及jsoup爬取鏈家北京二手房房價資料
由於是初次使用Java寫爬蟲,所以程式碼有些繁瑣,請大家見諒,並能給與指正首先分析鏈家北京二手房頁面,使用360瀏覽器的審查元素功能,檢視原始碼,獲取查詢標籤如圖一級查詢所示,此圖標籤所獲取的是鏈家北京二手房頁面下的一級地區地址由於具體獲取有些複雜,故列大致步驟如下主頁——》
北京鏈家二手房成交資料怎麼進行採集?
鏈家二手房成交資料是公開可以進行查詢的,但是如果想要進行統計分析就必須要有全量資料才可以。之前寫過一篇文章,就是鏈家二手房成交資料應該如何採集,當時是去掉了北京這個城市的採集,當然稍微配置一下,就可以採集到北京的資料。具體連結:https://qianjieyun.com/n
學習python抓取資料——鏈家北京二手房資料
最近在學習用Python進行資料分析、機器學習,基本都是用現成資料集進行模型訓練及驗證,想用一些實際資料看一下效果,於是想到用Python嘗試抓取一些實際資料。 目標:爬取鏈家網北京二手房房價、位置、面積等資料 環境:Python3.5.2,Anaconda4.2.0 1.準備工作
43.scrapy爬取鏈家網站二手房信息-1
response ons tro 問題 import xtra dom nts class 首先分析:目的:采集鏈家網站二手房數據1.先分析一下二手房主界面信息,顯示情況如下:url = https://gz.lianjia.com/ershoufang/pg1/顯示
43.scrapy爬取鏈家網站二手房資訊-1
首先分析:目的:採集鏈家網站二手房資料1.先分析一下二手房主介面資訊,顯示情況如下:url = https://gz.lianjia.com/ershoufang/pg1/顯示總資料量為27589套,但是頁面只給返回100頁的資料,每頁30條資料,也就是隻給返回3000條資料。
44.scrapy爬取鏈家網站二手房資訊-2
全面採集二手房資料:網站二手房總資料量為27650條,但有的引數欄位會出現一些問題,因為只給返回100頁資料,具體檢視就需要去細分請求url引數去請求網站資料。我這裡大概的獲取了一下篩選條件引數,一些存在問題也沒做細化處理,大致的採集資料量為21096,實際19794條。看一下執行完成結果: {'d
分享爬取鏈家地圖找房房價資料的小爬蟲
一、說在前面 受人所託,爬取鏈家上地圖找房的資料:https://bj.lianjia.com/ditu/。 上面有按區域劃分的二手房均價和在售套數,我們的任務就是抓下這些資料。 二、開幹 2.1失敗一次 老樣子,Chrome 按下F12開啟Chrome DevTo
爬取鏈家杭州二手房3000套
匯入包 import requests import lxml.html import csv 獲取目標網頁Url lianjiaUrl='https://hz.lianjia.com/ershoufang/pg{}/' 解析Url def g
北京鏈家買二手房的經歷與感受
目錄 一、引言 一、引言 我是2016年8月畢業來到北京的,在武漢經歷了2015年股市暴跌、房價暴漲瘋狂的一年,當時想著房價太貴找工作想去天津來著,後來由於各種原因來了北京,之後就整天面對這天價房價了。
Django實戰: Python爬蟲爬取鏈家上海二手房資訊,存入資料庫並在前端顯示
好久沒寫Django實戰教程了,小編我今天就帶你把它與Python爬蟲結合做出個有趣的東西吧。我們將開發這樣一個應用,前端使用者可以根據行政區劃,房廳數和價格區間選擇需要爬取的二手房房源資訊,後臺Python開始爬取資料。爬取資料完成後,通過Django將爬來的資料存入資料庫
資料採集(四):用XPath爬取鏈家網房價資料
準備工作 編寫爬蟲前的準備工作,我們需要匯入用到的庫,這裡主要使用的是requests和lxml兩個。還有一個Time庫,負責設定每次抓取的休息時間。 import requests import requests import time from lxml
scrapy實戰(一)-------------爬取鏈家網的二手房資訊
主要是通過scrapy爬取二手房相關資訊,只關心ershoufang相關連結,原始碼地址: 程式碼更新: 1.增加了爬取已成交房產的資訊,用於做為目標樣本來預測未成交房屋的價格。 2.資料通過pip
爬蟲,爬取鏈家網北京二手房資訊
# 鏈家網二手房資訊爬取 import re import time import requests import pandas as pd from bs4 import BeautifulSoup url = 'http://bj.lianjia.com/ershouf
以58同城為例詳解如何用爬蟲採集二手房房源資料及中介聯絡方式
2008年9月4日,英國《自然》雜誌刊登了一個名為“Big Data”的專輯,首次提出大資料概念,該專輯對如何研究PB級容量的大資料流,以及目前正在制訂的、用以最為充分地利用海量資料的最新策略進行了探討。2011、2012年達沃斯世界經濟論壇將大資料作為專題討論的主題之一,釋出了《大資料、大影響:國
詳解如何批量採集58同城二手房資料及中介聯絡方式
2008年9月4日,英國《自然》雜誌刊登了一個名為“Big Data”的專輯,首次提出大資料概念,該專輯對如何研究PB級容量的大資料流,以及目前正在制訂的、用以最為充分地利用海量資料的最新策略進行了探討。2011、2012年達沃斯世界經濟論壇將大資料作為專題討論的主題之一,釋出了《大資料、大影響:國際發展新的
案例分析|鏈家網大資料平臺樞紐——工具鏈
非常感謝分享,學習了。 文 | 呂毅,鏈家網平臺架構師 鏈家網於2015年成立大資料部門,開始構建基於Hadoop的技術體系,初期大資料部門以運營資料報表需求、公司核心指標需求為主。隨著2015年鏈家網發力線上業務,toB與toC業務齊頭並進,資料需求量激增的情況也