鏈家網爬蟲

阿新 • • 發佈：2019-02-06

import requests
from bs4 import BeautifulSoup
headers={
        'UserAgent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'
}

def get_details(url):
    res=requests.get(url,headers=headers)
    soup=BeautifulSoup(res.text,'html.parser')
    titles=soup.select('#js-ershoufangList > div.content-wrapper > div.content > div.m-list > ul > li > div > div.prop-title > a' 
)
    adresses=soup.select('#js-ershoufangList > div.content-wrapper > div.content > div.m-list > ul > li > div > div.info-table > div > span.info-col.row2-text > a.laisuzhou > span')
    prices=soup.select('#js-ershoufangList > div.content-wrapper > div.content > div.m-list > ul > li > div > div.info-table > div > div > span.total-price.strong-num' 
)
    unit_prices=soup.select('#js-ershoufangList > div.content-wrapper > div.content > div.m-list > ul > li > div > div.info-table > div > span.info-col.price-item.minor')
    dd=[]
    for title,adress,price,unit_price in zip(titles,adresses,prices,unit_prices):
        data={'title' 
:title.get_text().strip(),'adress':adress.get_text().strip(),'price':price.get_text().strip(),'unit_price':unit_price.get_text().strip()}
        dd.append(data)
    return dd


url1='http://sh.lianjia.com/ershoufang/d2'
#print(get_details(url1))


'''
for i in range(1,4):
    urls='http://sh.lianjia.com/ershoufang/d{}'
    urlss=urls.format(i)
    datas=get_details(urlss)
    #print(datas)
'''
lj=[]
for i in  range(1,30):
    urls='http://sh.lianjia.com/ershoufang/' +'d'+str(i)
    #urlss=urls.format(i)
    datas=get_details(urls)
    lj.append(datas)
    #print(datas)

import pandas 
""" 
for p in range(len(lj)):

    lj[p]=pandas.DataFrame(lj[p])
""" 
lj=list(map(pandas.DataFrame,lj))

re= pandas.concat(lj)    

re.index=list(range(re.shape[0]))

re.to_excel('re.xls')

#a1=list(map(pandas.DataFrame,lj))

鏈家網爬蟲

import requests from bs4 import BeautifulSoup headers={ 'UserAgent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36

python 學習 - 爬蟲入門練習爬取鏈家網二手房資訊

import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db") c = conn.cursor() for num in range(1,101): url = "h

爬蟲，爬取鏈家網北京二手房資訊

# 鏈家網二手房資訊爬取 import re import time import requests import pandas as pd from bs4 import BeautifulSoup url = 'http://bj.lianjia.com/ershouf

初識Scrapy框架+爬蟲實戰(7)-爬取鏈家網100頁租房資訊

Scrapy簡介 Scrapy，Python開發的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試。Scrapy吸引人的地方在於它是一個框架，任何人都可以根

利用Python爬蟲和Tableau分析鏈家網二手房資訊

1、明確分析的目標和思路目的：近年來，房價時時刻刻牽動著廣大老百姓的心，尤其是急需買房的剛需族和二胎家庭的置換族。本文希望通過對上海市中心城區二手房資訊的分析，能夠對房價和地理位置、房齡等因素的關係有一定的掌握。分析思路：通過python爬取鏈家網二手房資訊，經過資料

爬蟲實戰：從鏈家網爬取資料

學習python已經很久了，從各個大牛的技術部落格中獲益良多。現在也想把自己的小小收穫公開一下，以方便大家學習python，讓python更加普及的應用。下面我準備寫一個爬蟲例項：從鏈家網爬取福田區二手房的資料。環境： win10專業版 python3.6（需

鏈家網二手房資料分析（承接上篇爬蟲）

import pandas as pd import numpy as np import matplotlib.pyplot as plt plt.rcParams['font.sans-serif']=['SimHei']#用來正常顯示中文標籤 path=

利用高德API + Python爬取鏈家網租房資訊 01

看了實驗樓的專案發現五八同城爬取還是有點難度所以轉戰鏈家實驗程式碼如下 from bs4 import BeautifulSoup from urllib.request import urlopen import csv url = 'https://gz.lia

Python的scrapy之爬取鏈家網房價資訊並儲存到本地

因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並儲存到本地。先看鏈家網的原始碼。。房價資訊都儲存在 ul 下的li 裡面爬蟲結構：其中封裝了一個數據庫處理模組，還有一個user-agent池。。先看mylian

Python的scrapy之爬取鏈家網房價信息並保存到本地

width gif pat lse idt ext tst maximum spa 因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並保存到本地。先看鏈家網的源碼。。房價信息都保存在 ul 下的li 裏面 ? 爬蟲結構： ? 其中封裝了一

運用scrapy爬取鏈家網房價並儲存到本地

因為有在北京租房的打算，於是上網瀏覽了一下鏈家網站的房價，想將他們爬取下來，並儲存到本地。先看鏈家網的原始碼。。房價資訊都儲存在 ul 下的li 裡面爬蟲結構：其中封裝了一個數據庫處理模組，還有一個user-agent池。。

爬取鏈家網北京房源及房價分析

爬取鏈家網北京房源及房價分析文章開始把我喜歡的這句話送個大家：這個世界上還有什麼比自己寫的程式碼執行在一億人的電腦上更酷的事情嗎，如果有那就是

如何採集鏈家網二手房成交資料？

首先我們看一個城市的成交頁面：https://sh.lianjia.com/chengjiao/pg2/擁有非常多的條件組合，同時最大顯示頁數為100頁，如果希望獲取100頁之外的，那就只能拆分搜尋條件了。知道了條件組合以及最大頁數之後，那麼問題來了，上面如果希望檢視詳情的

資料採集（四）：用XPath爬取鏈家網房價資料

準備工作編寫爬蟲前的準備工作，我們需要匯入用到的庫，這裡主要使用的是requests和lxml兩個。還有一個Time庫，負責設定每次抓取的休息時間。 import requests import requests import time from lxml

專訪呂毅：鏈家網技術架構的演進之路

鏈家網雖然成立於2010年，但是其技術團隊卻於2014年正式創立。此前技術開發採用的是傳統模式，每個業務都會單獨地重新開發，不僅造成各個模組孤立，並且開發人力投入成本巨大。鑑於網際網路時代企業業務發展迅速，原有的傳統化方式已經不適用，鏈家網正式建立技術團隊，在原有的傳統架構基礎上開始了優化工作。團隊對已有

scrapy實戰(一)-------------爬取鏈家網的二手房資訊

主要是通過scrapy爬取二手房相關資訊，只關心ershoufang相關連結，原始碼地址: 程式碼更新： 1.增加了爬取已成交房產的資訊，用於做為目標樣本來預測未成交房屋的價格。 2.資料通過pip

案例分析|鏈家網大資料平臺樞紐——工具鏈

非常感謝分享，學習了。文 | 呂毅，鏈家網平臺架構師　　鏈家網於2015年成立大資料部門，開始構建基於Hadoop的技術體系，初期大資料部門以運營資料報表需求、公司核心指標需求為主。隨著2015年鏈家網發力線上業務，toB與toC業務齊頭並進，資料需求量激增的情況也

分享系列--面試JAVA架構師--鏈家網

本月7日去了一趟鏈家網面試，雖然沒有面上，但仍有不少收穫，在此做個簡單的分享，當然了主要是分享給自己，讓大家見笑了。因為這次是第一次面試JAVA網站架構師相關的職位，還是有些心虛的，畢竟之前大部分時間都是在做.NET相關的技術工作，並且自己所負責過的專案規模都是比

Scrapy實戰篇（二）之爬取鏈家網成交房源數據（下）

html win64 4.0 https set 爬蟲使用創建鼓樓區在上一小節中，我們已經提取到了房源的具體信息，這一節中，我們主要是對提取到的數據進行後續的處理，以及進行相關的設置。數據處理我們這裏以把數據存儲到mongo數據庫為例。編寫pipelines.p

Scrapy實戰篇（一）之爬取鏈家網成交房源數據（上）

meta pat 分割自定義是不是 rom 創建開始 mat 今天，我們就以鏈家網南京地區為例，來學習爬取鏈家網的成交房源數據。這裏推薦使用火狐瀏覽器，並且安裝firebug和firepath兩款插件，你會發現，這兩款插件會給我們後續的數據提取帶來很大的方便。首先

鏈家網爬蟲

相關推薦