python爬取北京租房信息

阿新 • • 發佈：2018-06-11

python 爬蟲

租房助手

發現官網的篩選方式不能滿足自己的需求，所以爬取相關網站制作出現在的東西來

效果預覽-> <a href="https://virzc.com/2018/05/17/beijingrent/#more" target="_blank">在線預覽</a>

###下面進行詳細分析
一.首先爬取起始地和終點地的路線及沿途地鐵站名稱

1.爬取8684.cn的地鐵查詢:

  pattern = ‘http://bjdt.8684.cn/so.php?k=p2p&q={}&q1={}‘

q->起始位置，q1為目標位置。返回的是html頁面。

2.采用scrapy進行xpath解析，提取相關的html標簽和值
如提取線路方案列表的xpath表達式

            Selector(text=body).xpath(
            "//div[@class=‘iContainer clear‘]/div[@class=‘iMain‘]/div[@class=‘transferMainShowWrap‘]/ul[@class=‘tms-mn tms-project‘]/li")
            .extract()

3.提取出線路方案列表後，針對列表中的每個元素進行提取站點的操作，可參考提取a標簽，但剔除帶有class屬性的html值。

4.將所有的站點放到一個列表中，同時針對列表元素進行去重操作，記得記錄路線描述和距離，可定義相關對象來維護。

二.通過站點查詢租房信息

1.主要對自如官網進行爬取。

pattern=http://www.ziroom.com/z/nl/z2.html?qwd={}

qwd可能需要進行urlencode
返回的是html頁面，需要對頁面進行分析，首先提取出總頁數，然後根據總頁數去請求其余頁面。上面的url附加q參數，q參數為頁面索引，即是單獨頁面鏈接

2.針對單個頁面提取各個單條項目的信息。
如提取單個頁面的信息列表
```
 ls = Selector(text=body).xpath("//ul[@id=‘houseList‘]/li").extract(); 
```
針對列表進行單個處理，提取感興趣的信息。

3.處理封裝返回。
針對提取的信息，進行篩選，例如對價格進行篩選，對大小進行篩選，不用做排序。采用前端框架來進行排序。後臺做的處理已經夠多了。

三.接入到公眾號中

可以接入到公眾號中，提高公眾號的影響力，具體的公眾平臺對接請參考<a href="https://github.com/zc1024/wxplatform/blob/master/weixin.py" target="_blank">訪問github開源項目</a>

python爬取北京租房信息

python 爬蟲租房助手發現官網的篩選方式不能滿足自己的需求，所以爬取相關網站制作出現在的東西來效果預覽-> <a href="https://virzc.com/2018/05/17/beijingrent/#more" target="_blan

python 爬取微博信息

微博爬蟲 python cookie 新浪微博爬取的話需要設計到登錄，這裏我沒有模擬登錄，而是使用cookie進行爬取。獲取cookie：代碼：#-*-coding:utf8-*- from bs4 import BeautifulSoup import requests impor

python爬取主播信息

site 評論 ror sco 信息 __init__ ima href 成功之前學過python的爬蟲技術，現在回顧一下看看還會不會，果然有坑。先爬取了微博評論網友的id代碼如下 import requestsurl = ‘https://m.weibo.cn/ap

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

工具新的翻頁需求使用 html 頁面應該一個首先要明白爬網頁實際上就是：找到包含我們需要的信息的網址（URL）列表通過 HTTP 協議把頁面下載回來從頁面的 HTML 中解析出需要的信息找到更多這個的 URL，回到 2 繼續其次還要明白：一個好的列表應該：包含

Python爬蟲小實踐：尋找失蹤人口，爬取失蹤兒童信息並寫成csv文件，方便存入數據庫

python tor enc mini 執行 gem view 獲取但是前兩天有人私信我，讓我爬這個網站，http://bbs.baobeihuijia.com/forum-191-1.html上的失蹤兒童信息，準備根據失蹤兒童的失蹤時的地理位置來更好的尋找失蹤兒童，這

Python爬蟲入門 | 爬取豆瓣電影信息

Python 編程語言 web開發這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步了解爬蟲，跟著課程內容能自己爬取資源。看著文章，打開電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~好啦，正式開始我們的第二節課《爬取豆瓣電影信息》吧！啦啦哩啦啦，

Python練習【爬取銀行網站信息】

pre == sts color mysql 遊標 pattern 保存 ride 功能實現爬取所有銀行的銀行名稱和官網地址(如果沒有官網就忽略)，並寫入數據庫；銀行鏈接: http://www.cbrc.gov.cn/chinese/jrjg/index.html

Python練習【利用線程池爬取電影網站信息】

blog name insert page 處理 RoCE 獲取信息 mat etime 功能實現爬取貓眼電影TOP100(http://maoyan.com/board/4?offset=90) 1). 爬取內容: 電影名稱，主演，上映時間，圖片url地址保存

初學python3-爬取cnnvd漏洞信息

zip 技術 [0 string linux; sdc 開始時間還需要 2.x 　　因為工作需要cnnvd漏洞信息，以前用著集客搜、八爪魚之類的工具，但對其效果和速度都不滿意。最近開始接觸學習爬蟲，作為初學者，還需要慢慢完善。先記錄下第一個爬蟲。還想著在多進程和IP代理方

爬取12306車次信息

https pen __main__ 很多 ref ont ticket ica win #!/usr/bin/python2.7 # -*- coding:utf-8 -*- # 2017-10-19 """ 12306 搶票網頁分析 -

Python抓取京東商品信息

Python抓取京東商品信息打開網頁http://item.jd.com/7336413.html定位到“規格與包裝” Python抓取京東商品信息

Java爬蟲爬取京東商品信息

1.2 image 商品 void code 更改 size pri name 以下內容轉載於《https://www.cnblogs.com/zhuangbiing/p/9194994.html》，在此僅供學習借鑒只用。 Maven地址 <dependency>

python 爬取了租房資料

爬取連結：https://sh.lianjia.com/zufang/ 程式碼如下: import requests # 用於解析html資料的框架 from bs4 import BeautifulSoup # 用於操作excel的框架 from xlwt import

Python爬取指定微信公眾號所有文章！

篇文章使用到的技術: mitmdump + 電腦版微信先分析開啟視覺化抓包工具, 勾選https代理。然後開啟電腦版微信任意點選一個公眾號，再點選檢視歷史訊息進群：960410445 即可獲取原始碼！開啟後這樣 &nb

爬取起點小說信息

main 請求 .text web ttl 遍歷 import values for 沒有vip所以並沒爬取小說內容，這裏主要是解決起點小說字數的反反爬 import random import requests import re import csv from font

爬蟲基本庫request使用—爬取貓眼電影信息

sci 文件 fin 安裝 for data- return 表達 score 　　使用request庫和正則表達式爬取貓眼電影信息。 1.爬取目標　　貓眼電影TOP100的電影名稱，時間，評分，等信息，將結果以文件存儲。 2.準備工作　　安裝request庫。

Python爬蟲入門 | 5 爬取小豬短租租房信息

圖片交流 ffffff 信息 jpg http 而已基本 mat 小豬短租是一個租房網站，上面有很多優質的民宿出租信息，下面我們以成都地區的租房信息為例，來嘗試爬取這些數據。小豬短租（成都）頁面：http://cd.xiaozhu.com/1.爬取租房標題按照慣例，

我的第一個爬蟲，爬取北京地區短租房信息

爬取 connect except links 效率 chrom cti clas 爬蟲 # 導入程序所需要的庫。import requestsfrom bs4 import BeautifulSoupimport time# 加入請求頭偽裝成瀏覽器headers = {

Python 爬取淘寶商品信息和相應價格

獲得 com ppa pri 大小 light parent tps 爬取！只用於學習用途！ plt = re.findall(r‘\"view_price\"\:\"[\d\.]*\"‘,html) ：獲得商品價格和view_price字段，並保存在plt中 tlt =

python爬取nba今天的信息

headers pri 獨行俠 agent ade 偉大的 mozilla 勝利開拓者最近無聊在寫python爬蟲，分享一個爬去nba今天信息的python腳本，可能沒寫的美觀，有優化的請大神指點！? /test sudo vim nba.py #!/usr/bin/

python爬取北京租房信息

相關推薦