爬蟲08-鏈家

阿新 • • 發佈：2018-11-01

import requests
import re

start = int(input('起始頁碼：'))
end = int(input('終止頁碼：'))
for page in range(start, end+1):
    url = 'https://sh.lianjia.com/ershoufang/pg'+str(page)
    html = requests.get(url).content.decode('utf-8', 'ignore')
    p = re.compile('(?<=<div class="info clear">).*?(?=</div>)', re.S | re.M)
    div = p.findall(html)
    div.pop()
    for d in div:
        pa = re.compile(r'(?<=data-sl=\"\">).*?(?=</a>)')
        title = re.findall(pa, d)
        # title
        title = title[0]
        pat = re.compile(r'(?<=href=\").*?(?=\")')
        href = re.findall(pat, d)
        # url
        href = href[0]
        # 第二個頁面的資料
        second = requests.get(href).content.decode('utf-8', 'ignore')
        second_list = re.compile('<span class="label">(.*?)</span>(.*?)</li>')
        second_con = re.findall(second_list, second)
        print(second_con)
    # 總價
    total = re.compile(r'<div class="totalPrice"><span>(.*?)</span>', re.S | re.M)
    totalPrice = total.findall(html)
    for t in totalPrice:
        total_price = t + '萬'
    # 單價
    price = re.compile(r'<div class="unitPrice" .*?<span>(.*?)</span>')
    unitPrice = re.findall(price, html)
    for unit in unitPrice:
        print(unit)
    # 小區名稱
    name = re.compile(r'<div class="houseInfo">.*?region\">(.*?)</a>', re.S | re.M)
    houseInfo = re.findall(name, html)
    for house in houseInfo:
        print(house)
    # 房屋戶型 面積 朝向 裝修情況 有無電梯
    some = re.compile(r'<div class=\"houseInfo\">.*?</a>(.*?)</div>', re.S | re.M)
    some = re.findall(some, html)
    for so in some:
        print(so)

爬蟲08-鏈家

import requests import re start = int(input('起始頁碼：')) end = int(input('終止頁碼：')) for page in range(start, end+1): url = 'https://sh.lianjia.com/er

爬蟲系列之鏈家的信息爬取及數據分析

enc lib art andro 函數 strip 一次 read 訪問關於鏈家的數據爬取和分析已經實現 1.房屋數據爬取並下載 2.房屋按區域分析 3.房屋按經紀人分析 4.前十經紀人 5.經紀人最有可能的位置分析 6.實現以地區劃分房屋目前存在

爬蟲鏈家網站獲取信息

url ping __name__ rsh .com lib pin ensure %d import re import json from urllib.request import urlopen import ssl # ?掉數字簽名證書 ssl._create_

網路爬蟲筆記（Day5）——鏈家

注意：請不要爬取過多資訊，僅供學習。分析：業務需求分析......（此例為住房資訊...）查詢相關網頁資訊（以鏈家為例）分析URL，查詢我們需要的內容，建立連線定位資料儲存資料首先進入鏈家網首頁，點選租房，F12檢查網頁，查詢我們需要的資訊

python爬蟲：爬取鏈家深圳全部二手房的詳細信息

data sts rip 二手房 lse area 列表 dom bubuko 1、問題描述：爬取鏈家深圳全部二手房的詳細信息，並將爬取的數據存儲到CSV文件中 2、思路分析: (1)目標網址：https://sz.lianjia.com/ershoufang/ (2

Python爬蟲項目--爬取鏈家熱門城市新房

聲明 rules nal logging 命令行 -- new exec 狀態本次實戰是利用爬蟲爬取鏈家的新房(聲明: 內容僅用於學習交流, 請勿用作商業用途) 環境 win8, python 3.7, pycharm 正文 1. 目標網站分析通過分析, 找出相關url

Python爬蟲專案--爬取鏈家熱門城市新房

本次實戰是利用爬蟲爬取鏈家的新房(宣告: 內容僅用於學習交流, 請勿用作商業用途) 環境 win8, python 3.7, pycharm 正文 1. 目標網站分析通過分析, 找出相關url, 確定請求方式, 是否存在js加密等. 2. 新建scrapy專案 1. 在cmd命令列視窗中輸入以

python 學習 - 爬蟲入門練習爬取鏈家網二手房資訊

import requests from bs4 import BeautifulSoup import sqlite3 conn = sqlite3.connect("test.db") c = conn.cursor() for num in range(1,101): url = "h

分享爬取鏈家地圖找房房價資料的小爬蟲

一、說在前面受人所託，爬取鏈家上地圖找房的資料：https://bj.lianjia.com/ditu/。上面有按區域劃分的二手房均價和在售套數，我們的任務就是抓下這些資料。二、開幹 2.1失敗一次老樣子，Chrome 按下F12開啟Chrome DevTo

鏈家二手房樓盤爬蟲

前言想看下最近房價是否能入手，抓取鏈家二手房、新房的資訊，發現廣州有些精裝修 88平米的 3房2廳首付只要 29 萬！平均 1.1萬/平：檢視請求資訊本次用的是火狐瀏覽器32.0配合 firebug 和 httpfox 使用，基於 python3 環境，前期步驟：

Python爬蟲實戰之爬取鏈家廣州房價_04鏈家的模擬登入(記錄)

問題引入開始鏈家爬蟲的時候，瞭解到需要實現模擬登入，不登入不能爬取三個月之內的資料，目前暫未驗證這個說法是否正確，這一小節記錄一下利用瀏覽器(IE11)的開發者工具去分析模擬登入網站(鏈家)的內部邏輯過程，花了一個週末的時間，部分問題暫未解決。思路介

python3爬蟲抓取鏈家上海租房資訊

環境：win10，anaconda3（python3.5）方法一：利用requests獲取網頁資訊，再利用正則提取資料，並將結果儲存到csv檔案。程式碼地址：程式碼抓取到的資料如下所示：從左往右依次是：房屋連結、房屋描述、房屋佈局、房屋大小、所在區、所在區的具體區

python爬蟲爬取鏈家二手房資訊

一種有想做個爬蟲的想法，正好上個月有足夠的時間和精力就學了下scrapy，一個python開源爬蟲框架。好多事開始以為很難，但真正下定決心去做的時候，才發現非常簡單，scrapy我從0基礎到寫出第一個可用的爬蟲只用了兩天時間，從官網例項到我的demo，真是遇到一堆問題，通

爬蟲，爬取鏈家網北京二手房資訊

# 鏈家網二手房資訊爬取 import re import time import requests import pandas as pd from bs4 import BeautifulSoup url = 'http://bj.lianjia.com/ershouf

爬蟲練習－－鏈家

注意：請不要爬取過多資訊，僅供學習。分析：業務需求分析......（此例為住房資訊...）查詢相關網頁資訊（以鏈家為例）分析URL，查詢我們需要的內容，建立連線定位資料儲存資料首先進入鏈家網首頁，點選租房，F12檢查網頁，查詢我們需要的資訊。如圖：

初識Scrapy框架+爬蟲實戰(7)-爬取鏈家網100頁租房資訊

Scrapy簡介 Scrapy，Python開發的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試。Scrapy吸引人的地方在於它是一個框架，任何人都可以根

Django實戰: Python爬蟲爬取鏈家上海二手房資訊，存入資料庫並在前端顯示

好久沒寫Django實戰教程了，小編我今天就帶你把它與Python爬蟲結合做出個有趣的東西吧。我們將開發這樣一個應用，前端使用者可以根據行政區劃，房廳數和價格區間選擇需要爬取的二手房房源資訊，後臺Python開始爬取資料。爬取資料完成後，通過Django將爬來的資料存入資料庫

鏈家網爬蟲

import requests from bs4 import BeautifulSoup headers={ 'UserAgent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36

【R 語言爬蟲】rvest 包實戰鏈家爬蟲

rvest包簡介 rvest包是Hadley Wickham大神開發的一個專門用於網路資料抓取的R語言包，目前的發行版本為0.3.2，關於rvest包的描述以及用法可參考rvest幫助文件，花上一點時間閱讀幫助文件，相信你就可以寫出自己的爬蟲了。 help（

Python爬蟲三：抓取鏈家已成交二手房資訊（58W資料）

環境：Windows7+python3.6+Pycharm2017 目標：抓取鏈家北京地區已成交二手房資訊（無需登入），如下圖，戶型、朝向、成交時間價格等，儲存到csv。最後一共抓取約58W資料，程式執行8h。 --------全部文章：京東爬蟲、鏈家爬蟲、美團爬蟲、

爬蟲08-鏈家

相關推薦