爬蟲實戰（安居客二手房和租房資訊爬取）

阿新 • • 發佈：2022-12-05

不說廢話，直接上程式碼！

import requests
import csv
import parsel  # 解析資料
# 安居客二手房資訊
# 網頁原始碼解析
# json資料解析
for page in range(1,51):
    print(f"正在爬取第-----{page}------頁資料資訊！")
    url=f'https://anjuke.com/sale/p{page}/'
    header = {
        'cookie': 'sessid=E8557945-A48A-DECA-D8A1-102112E95525; aQQ_ajkguid=6005B887-989E-9E1E-EB74-C01BBCE2362D; twe=2; ajk-appVersion=; fzq_h=3cdd8dc4ff49c08b22268609df890299_1670208027764_406af778a32a4516a91f70fef3d1409d_986905475; id58=CrIclWONWihf8mLgZefRAg==; ctid=231; lps=https%3A%2F%2Fyx.zu.anjuke.com%2F%7Chttps%3A%2F%2Fyuxi.anjuke.com%2F; cmctid=2040; wmda_uuid=48c23ab83834bd513b73a85f47e86a23; wmda_new_uuid=1; wmda_session_id_6289197098934=1670208078386-18df4190-2941-5746; wmda_visited_projects=%3B6289197098934; obtain_by=1; xxzl_cid=df78ca61c6fa40b680bd980d2ff3bd01; xxzl_deviceid=out+sEolHB8HXmPxXFzGJuGNceTZiUsWOVAr25QoCxZqXuiGQDtGyv3aQwmOHRGV 
',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
        'referer': 'https://yx.zu.anjuke.com/fangyuan/'
    }

    response = requests.get(url=url,headers=header)
    html_data = response.text
    # print(response)
    selectors = parsel.Selector(html_data)
    lis  
= selectors.css('.property-content')
    for li in lis:
        標題 = li.css('.property-content-title-name::text').get()
        戶型 = li.css('.property-content-info:nth-child(1) .property-content-info-text:nth-child(1) span::text').getall()
        面積 = li.css('.property-content-info:nth-child(1) .property-content-info-text:nth-child(2)::text 
').getall()
        朝向 = li.css('.property-content-info:nth-child(1) .property-content-info-text:nth-child(3)::text').get()
        樓層 = li.css('.property-content-info:nth-child(1) .property-content-info-text:nth-child(4)::text').get()
        建造時間 = li.css('.property-content-info:nth-child(1) .property-content-info-text:nth-child(5)::text').get()
        小區名稱 = li.css('.property-content-info:nth-child(2) .property-content-info-comm-name::text').getall()
        小區地址 = li.css('.property-content-info:nth-child(2) .property-content-info-comm-address span::text').getall()
        總價 = li.css('.property-price .property-price-total .property-price-total-num::text').getall()
        單價 = li.css('.property-price .property-price-average::text').getall()
        print(標題)
        with open('./txt/玉溪安居客二手房.csv',mode='a+',encoding='utf-8-sig',newline='') as f:
            csv_text = csv.writer(f)
            csv_text.writerow((標題,戶型,面積,朝向,樓層,建造時間,小區名稱,小區地址,總價,單價))
print("爬取完成！")

這是爬取下來的格式，當然裡面的標點符號我替換掉了

租房資訊：

import requests
import csv
import parsel  # 解析資料
# 安居客租房資訊
# 網頁原始碼解析
# json資料解析
for page in range(1,34):
    print(f"正在爬取第-----{page}------頁資料資訊！")
    url=f'https://yx.zu.anjuke.com/fangyuan/p{page}/'
    header = {
        'cookie': 'sessid=E8557945-A48A-DECA-D8A1-102112E95525; aQQ_ajkguid=6005B887-989E-9E1E-EB74-C01BBCE2362D; twe=2; ajk-appVersion=; fzq_h=3cdd8dc4ff49c08b22268609df890299_1670208027764_406af778a32a4516a91f70fef3d1409d_986905475; id58=CrIclWONWihf8mLgZefRAg==; ctid=231; lps=https%3A%2F%2Fyx.zu.anjuke.com%2F%7Chttps%3A%2F%2Fyuxi.anjuke.com%2F; cmctid=2040; wmda_uuid=48c23ab83834bd513b73a85f47e86a23; wmda_new_uuid=1; wmda_session_id_6289197098934=1670208078386-18df4190-2941-5746; wmda_visited_projects=%3B6289197098934; obtain_by=1; xxzl_cid=df78ca61c6fa40b680bd980d2ff3bd01; xxzl_deviceid=out+sEolHB8HXmPxXFzGJuGNceTZiUsWOVAr25QoCxZqXuiGQDtGyv3aQwmOHRGV',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36',
        'referer': 'https://yx.zu.anjuke.com/fangyuan/'
    }
    response = requests.get(url=url,headers=header)
    html_data = response.text
        # print(response)
    selectors = parsel.Selector(html_data)
    lis = selectors.css('.zu-itemmod')
    for li in lis:
        標題 = li.css('.zu-info .strongbox::text').get()
        戶型 = li.css('.zu-info .strongbox::text').getall()[1]+'室'+li.css('.strongbox::text').getall()[2]+'廳'
        面積 = li.css('.zu-info .strongbox::text').getall()[3]+'㎡'
        價格 = li.css('.zu-side .strongbox::text').getall()
        出租型別 = li.css('.zu-info .cls-1::text').getall()
        朝向 = li.css('.zu-info .cls-2::text').getall()
        電梯 = li.css('.zu-info .cls-3::text').getall()
        位置 = li.css('.zu-info .details-item::text').getall()[8]
        小區 = li.css('.zu-info a::text').getall()
        樓層 = li.css('.zu-info p::text').getall()[4]
        聯絡人 = li.css('.zu-info p::text').getall()[5]
        print(位置)
        with open('./txt/玉溪安居客租房.csv',mode='a+',encoding='utf-8-sig',newline='') as f:
            csv_text = csv.writer(f)
            csv_text.writerow((標題,戶型,面積,價格,出租型別,朝向,電梯,位置,小區,樓層,聯絡人))
print("爬取完成！")

這是爬取後修改為.xlsx格式的

懂得都懂。現在爬取資料，後續更新對於資料的處理的內容文章！

爬蟲實戰（安居客二手房和租房資訊爬取）

不說廢話，直接上程式碼！ import requests import csv import parsel# 解析資料 # 安居客二手房資訊

爬取安居客二手房房屋資訊

目標 1 開啟安居客二手房頁面，如https://nanning.anjuke.com/sale/?from=navigation。得到如下頁面。

爬蟲入門經典(二十二) | 破解base64加密之爬取安居客

大家好，我是不溫卜火，是一名計算機學院大資料專業大三的學生，暱稱來源於成語—不溫不火，本意是希望自己性情溫和。作為一名網際網路行業的小白，博主寫部落格一方面是為了記錄自己的學習過程，另一方面

頁面資料採集——網路爬蟲實戰（ASP.NET Web 部落格園為例）

技術標籤：爬蟲c#asp.net 年輕人不講武德相信很多朋友都有這種苦惱：自己的文章被搬運了！

python爬蟲實戰（一）--TXT小說下載

學習了Python3 爬蟲實戰教程_w3cschool的教程第一次做爬蟲，練手網站是筆趣閣（http://www.ibiqu.net/），反正他們也是爬別人的 ^_^!

爬蟲實戰（四）：爬優美相簿

目錄優美相簿一、網址分析二、編寫程式碼 1、獲取每類圖片的地址 2、獲取每張圖片的地址

Yum崩壞後的修復（我這個是pyton和yum都壞了）

1.解除安裝python（防止未解除安裝乾淨） rpm -qa|grep python|xargs rpm -ev --allmatches --nodeps#強制刪除已安裝程式及其關聯

【詞性標註】採用隱馬爾可夫模型（使用了3-gram和Good-Turing平滑方法），準確率93%

部落格內容有空了再補充。先貼程式碼。資料地址：連結: https://pan.baidu.com/s/1-RbHi5xxBwJDG1gqAYUReQ密碼: rkup

MySQL（三）MySQL-5.7.20 主從複製實戰（半同步複製、過濾複製、GTID模式）

技術標籤：資料庫&訊息佇列資料庫mysql MySQL-5.7.20二進位制主從複製實戰（半同步複製、過濾複製、GTID模式）

Shell_字串操作（sed命令操作文字和數字自增方式）

技術標籤：Linux字串shelllinuxsed 參考 shel字串操作 #! /bin/bash 它的作用就是告訴shell的指令碼使用哪種解析器來執行的指令碼（不指定系統預設使用當前的shell進行解釋執行），shell有很多種常見的sh，bash

【詞性標註】採用隱馬爾可夫模型（使用了3-gram和Good-Turing平滑方法），準確率93%...

技術標籤：python演算法nlp深度學習動態規劃部落格內容有空了再補充。先貼程式碼。

python基礎爬蟲——使用深度優先和廣度優先爬取圖結構網站

技術標籤：pythonpython 困於心衡於慮而後作今天要學習的目標是：深度優先爬取複雜網站，圖結構網站

sql server 獲取資料欄位（表的欄位和型別資訊）

SELECT 表名=case when a.colorder=1 then d.name else \'\' end, 表說明=case when a.colorder=1 then isnull(f.value,\'\') else \'\' end,

Docker映象實戰（ssh、systemctl、nginx、tomcat、mysql）

Docker映象實戰 1、構建ssh映象 2、構建systemctl 映象 3、構建nginx映象 4、構建tomcat映象

python實現批量操作主機（自己可以選擇互動式和非互動式兩種）

程式碼開始------------------------------------------------------------ #!/usr/bin/env python # _*_ coding:utf-8 _*_

監控使用記憶體或CPU前十名程序指令碼（文末附有sort和top命令詳解）

一、監控目的掌握系統程序對系統資源的使用情況，掌握機器動態二、監控方法

python爬蟲開發之使用python爬蟲庫requests，urllib與今日頭條搜尋功能爬取搜尋內容例項

使用python爬蟲庫requests，urllib爬取今日頭條街拍美圖程式碼均有註釋 import re,json,requests,os

python Selenium 和 PyAutoGUI合璧爬取網頁攻略

前一段時間在做關於美國請願網站的研究，需要爬取change.org這個請願網站上每個請願的資訊。大致爬蟲順序是：先爬取每個標籤下所有請願的名字和具體網址，訪問每個具體網址爬取請願的發起時間、內容等資訊。這裡就需

Request爬取各類網站的資料（例項爬取）

1. 先上程式碼 1 # !/usr/bin/env python 2 # ! _*_ coding:utf-8 _*_ 3 # @TIME: 2020/10/1213:29 4 # @Author : Noob

python爬蟲利器之requests庫的用法(超全面的爬取網頁案例)

requests庫利用pip安裝: pip install requests 基本請求 req = requests.get(\"https://www.baidu.com/\")

爬蟲實戰（安居客二手房和租房資訊爬取）

相關推薦