Python2 Python3 爬取趕集網租房資訊,帶原始碼分析

阿新 • • 發佈：2019-02-18

*之前偶然看了某個騰訊公開課的視訊,寫的爬取趕集網的租房資訊,這幾天突然想起來,於是自己分析了一下趕集網的資訊,然後自己寫了一遍,寫完又用用Python3重寫了一遍.之中也遇見了少許的坑.記一下.算是一個總結.*

python2 爬取趕集網租房資訊與網站分析

分析目標網站url
尋找目標標籤
獲取,並寫入csv檔案

#-*- coding: utf-8 -*-
from bs4 import BeautifulSoup
from urlparse import urljoin
import requests
import csv

URL = 'http://jn.ganji.com/fang1/o{page}p{price}/' 

# 首先最基本的是 jn,ganji.com/fang1 其中jn為濟南,也就是我的城市,預設登入後為此
# 而fang1 位租房資訊 fang5 為二手房資訊,zhaopin 為招聘模組等,我們這次只查詢fang1
# 不過這個連結還可以更復雜 
#比如http://jn.ganji.com/fang1/tianqiao/h1o1p1/ 或者
#  http://jn.ganji.com/fang1/tianqiao/b1000e1577/
#    其中h:房型,o頁面,p價格區間,其中h,p後的數字與網站相應選單的排列順序相對應 
# 而s與e則為對應的自己輸入的價格區間
#                          h: house o:page p:price 

# jn jinan  fang1 zufang tiaoqiao:tianqiaoqu b:begin 1000  e:end start 1755

ADDR = 'http://bj.ganji.com/'
start_page =1
end_page = 5
price =1

# 注意wb格式開啟寫入可能會導致csv檔案每次寫入前面多一個空格
# 對此你可以參考這篇文章:http://blog.csdn.net/pfm685757/article/details/47806469
with open('info.csv','wb') as f :
    csv_writer = csv.writer(f,delimiter=',' 
)

    print 'starting'
    while start_page<end_page:
        start_page+=1
        # 通過分析標籤可知我們要獲取的標籤資訊必須要通過多個class確認才能保證唯一性
        # 之後是獲取資訊的具體設定
        print 'get{0}'.format(URL.format(page = start_page,price=price))
        response = requests.get(URL.format(page = start_page,price=price))
        html=BeautifulSoup(response.text,'html.parser')
        house_list = html.select('.f-list > .f-list-item > .f-list-item-wrap')
        #check house_list
        if not house_list:
            print 'No house_list'
            break
        for house in house_list:
            house_title = house.select('.title > a')[0].string.encode('utf-8')
            house_addr = house.select('.address > .area > a')[-1].string.encode('utf-8')
            house_price = house.select('.info > .price > .num')[0].string.encode('utf-8')
            house_url = urljoin(ADDR,house.select('.title > a ')[0]['href'])
            # 寫入csv檔案
            csv_writer.writerow([house_title,house_addr,house_price,house_url])
    print 'ending'

Python3 爬取趕集網i租房資訊

要注意的點

urlparse.urljoin 改為urllib.urlparse.urljoin

# python2
from urlparse import urljoin
# Python3
from urllib.parse  import urljoin

Python3中csv對bytes和str兩種型別進行了嚴格區分,open的寫入格式應該進行改變wb->w
設定utf8編碼格式

with open('info.csv','w',encoding='utf8') as f :
    csv_writer = csv.writer(f,delimiter=',')

完整程式碼如下

#-*- coding: utf-8 -*-
from bs4 import BeautifulSoup
from urllib.parse  import urljoin
import requests
import csv

URL = 'http://jn.ganji.com/fang1/o{page}p{price}/'
#                                h: house o:page p:price
#  http://jn.ganji.com/fang1/tianqiao/b1000e1577/
# jn jinan  fang1 zufang tiaoqiao:tianqiaoqu b:begin 1000  e:end start 1755
# fang5 為二手房 zhipin 為 招聘 趕集網的url劃分的都很簡單,時間充足完全可以獲取非常多的資訊

ADDR = 'http://bj.ganji.com/'
start_page =1
end_page = 5

price =1

'''
URL = 'http://jn.ganji.com/fang1/h{huxing}o{page}b{beginPrice}e{endPrice}/'
# 選擇戶型為h1-h5
# 輸入價位為 begin or end
price='b1000e2000'

# 戶型為

'''
# 預設為utf8開啟,否則會以預設編碼GBK寫入
with open('info.csv','w',encoding='utf8') as f :
    csv_writer = csv.writer(f,delimiter=',')

    print('starting')
    while start_page<end_page:
        start_page+=1
        print('get{0}'.format(URL.format(page = start_page,price=price)))
        response = requests.get(URL.format(page = start_page,price=price))
        html=BeautifulSoup(response.text,'html.parser')
        house_list = html.select('.f-list > .f-list-item > .f-list-item-wrap')
        #check house_list
        if not house_list:
            print('No house_list')
            break
        for house in house_list:
            house_title = house.select('.title > a')[0].string
            house_addr = house.select('.address > .area > a')[-1].string
            house_price = house.select('.info > .price > .num')[0].string
            house_url = urljoin(ADDR, house.select('.title > a ')[0]['href'])
            csv_writer.writerow([house_title,house_addr,house_price,house_url])
    print('ending')

最後的csv檔案展示一下:
趕集網租房資訊 csv檔案網路爬蟲

Python2 Python3 爬取趕集網租房資訊,帶原始碼分析

*之前偶然看了某個騰訊公開課的視訊,寫的爬取趕集網的租房資訊,這幾天突然想起來,於是自己分析了一下趕集網的資訊,然後自己寫了一遍,寫完又用用Python3重寫了一遍.之中也遇見了少許的坑.記一下.算是一

抓取趕集網租房資訊 python3

try: from bs4 import BeautifulSoup import requests except Exception : print("請安裝 bs4庫和 requests庫再來執行") exit(0) #獲取當前

爬取和採集趕集網租房資訊，看過來~~

本文主要介紹“趕集出租房資訊採集爬蟲”（以下簡稱“趕集租房爬蟲”）的使用教程及注意事項。趕集網二手房源資訊時效性很強，使用者基數龐大，資訊清晰明瞭，這些資訊蘊含著很高的商機，能實時的反應現階段某一地區的租房現狀和趨勢，那如何採集呢？下面，教你如何使用“趕集租房爬蟲”在雲端採集和匯

利用BeautifulSoup和Xpath爬取趕集網北京二手房房價資訊

利用BeautifulSoup和Xpath爬取趕集網北京二手房房價資訊文章開始把我喜歡的這句話送個大家：這個世界上還有什麼比自己寫的程式碼執行在一億人的電腦上更酷的事情嗎，如果有那就是讓這個數字再擴大十倍！ 1.BeautifulSoup實現 #!/usr/

分散式scrapy+redis 爬取房天下租房資訊

利用scrapy框架結合redis分散式爬蟲 #建立專案 scrapy startproject homepro #根據提示進入指定目錄建立爬蟲 scrapy genspider home example.com #spider爬蟲 scrapy genspider -t c

python爬蟲實踐——零基礎快速入門（四）爬取小豬租房資訊

接下來我們爬取小豬短租租房資訊。進入主頁後選擇深圳地區的位置。地址如下： http://sz.xiaozhu.com/ 一，標題爬取按照慣例，我們先複製標題的xpath資訊，多複製幾個進行對比： //*[@id="page_list"]/ul/li[1]/

Python 爬蟲第三步 -- 多執行緒爬蟲爬取噹噹網書籍資訊

XPath 的安裝以及使用 1 . XPath 的介紹剛學過正則表示式，用的正順手，現在就把正則表示式替換掉，使用 XPath，有人表示這太坑爹了，早知道剛上來就學習 XPath 多省事啊。其實我個人認為學習一下正則表示式是大有益處的，之所以換成 XPa

Python爬蟲專案--爬取自如網房源資訊

本次爬取自如網房源資訊所用到的知識點: 1. requests get請求 2. lxml解析html 3. Xpath 4. MongoDB儲存正文 1.分析目標站點 1. url: http://hz.ziroom.com/z/nl/z3.html?p=2

Python爬鏈家網租房資訊

爬去鏈家網的租房資訊然後儲存到資料庫中。 #-*- coding:utf-8 -*- import requests import re import random import MySQLdb from bs4 import BeautifulSoup class h

Python3 爬取51job的資料存入MongoDB並分析

1.開啟51job首頁，輸入Python，地址選擇深圳，得到搜尋頁面： 3.不同點： items.py新增如下程式碼： from scrapy import Item,Field class JobsItem(Item): # define the f

用python爬取二手房交易資訊並進行分析

用python爬取二手房交易資訊並分析第一步：編寫爬蟲爬取某平臺上海市十個區共900條二手房的交易資訊 #爬取上海十個區的二手房價資訊 import requests from bs4 import BeautifulSoup import csv #

利用高德API + Python爬取鏈家網租房資訊 01

看了實驗樓的專案發現五八同城爬取還是有點難度所以轉戰鏈家實驗程式碼如下 from bs4 import BeautifulSoup from urllib.request import urlopen import csv url = 'https://gz.lia

python3爬取“小豬短租-北京”租房資訊

爬蟲思路分析： 1. 觀察小豬短租（北京）的網頁首頁：http://www.xiaozhu.com/?utm_source=baidu&utm_medium=cpc&utm_term=PC%E6%A0%87%E9%A2%98&utm_content=pinzhuan

Python3爬取起點中文網閱讀量資訊，解決文字反爬~~~附原始碼

起點中文網，在“數字”上設定了文字反爬，使用了自定義的文字檔案ttf通過瀏覽器的“檢查”顯示的是“□”，但是可以在網頁原始碼中找到對映後的數字正則爬的是網頁原始碼，xpath是預設utf-8解析網頁資料，用xpath爬出來的也是方框，因此只能使用正則匹配爬取關鍵數字資訊本例以小說《斗羅大陸》為例

python3 爬蟲爬取深圳公租房輪候庫（深圳房網）

深圳公租房輪候庫已經朝著幾十萬人的規模前進了，這是截至16年10月之前的資料了，貼上來大家體會下所以17年已更新妥妥的10W+ 今天就拿這個作為爬蟲的練手專案 1、環境準備：作業系統：win10 python版本：python3.5.3 開發工具：sublime 3 python需要安裝的庫：　

爬取鏈家網租房資訊（萬級資料的簡單實現）

這不是一個很難的專案，沒有ajax請求，也沒有用框架，只是一個requests請求和BeautifulSoup的解析不過，看這段程式碼你會發現，BeautifulSoup不止只有find和fing_all用於元素定位，還有fing_next等其他的更簡單的，

[Python爬蟲]爬蟲例項:線上爬取噹噹網暢銷書Top500的圖書資訊

本例項還有另外的離線爬蟲實現,有興趣可點選離線爬取噹噹網暢銷書Top500的圖書資訊爬蟲說明 1.使用requests和Lxml庫爬取,(用BS4也很簡單,這裡是為了練習Xpath的語法) 2.爬蟲分類為兩種,一種是離線爬蟲,即先將所爬取的網頁儲存到本地,再從本

[Python爬蟲]爬蟲例項:離線爬取噹噹網暢銷書Top500的圖書資訊

本例項還有另外的線上爬蟲實現,有興趣可點選線上爬取噹噹網暢銷書Top500的圖書資訊爬蟲說明 1.使用requests和Lxml庫爬取,(用BS4也很簡單,這裡是為了練習Xpath的語法) 2.爬蟲分類為兩種,一種是線上爬蟲,即在網站中一邊開啟網頁一邊進行爬取;第

利用xpath爬取招聘網的招聘資訊

爬取招聘網的招聘資訊： import json import random import time import pymongo import re import pandas as pd import requests from lxml import etree impor

Python3爬取國家統計局官網2017年中國所有城市縣鎮資料

直接上程式碼： # -*- coding: utf-8 -*- # author：zjp """ 通過國家統計局2017年資料獲取中國所有城市列表 http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2017/ """ imp

Python2 Python3 爬取趕集網租房資訊,帶原始碼分析

python2 爬取趕集網租房資訊與網站分析

Python3 爬取趕集網i租房資訊

相關推薦