xpath匹配爬取房源資訊（我愛我家）

阿新 • • 發佈：2019-02-17

# requests包
import requests
# xpath包
from lxml import etree
# 本地mysql包（mysql_def包下mysql_conn函式）
from mysql_def import mysql_conn

# 定義url,含分頁 %d
base_url='https://bj.5i5j.com/zufang/changpingqu/n%d/'
# 定義headers頭
headers ={
    "Cookie": "_Jo0OQK=27E3AE8F401F48377EC641A97E866EA9401E4BF430D59F325019A8A1C06A982D5A716B0F691F396132740C3E5383A69B7EF67E84EC402AE9D0D7E4FE54D996F94C4DE8682CA7D10E3B498FB9E3C853EFEE298FB9E3C853EFEE215D8BEE34E43E5C0GJ1Z1SA==; yfx_c_g_u_id_10000001=_ck18081814101818670131507573338; yfx_mr_f_n_10000001=baidu%3A%3Amarket_type_ppzq%3A%3A%3A%3A%3A%3A%3A%3A%3A%3A%25E6%25A0%2587%25E9%25A2%2598%3A%3Abj.5i5j.com%3A%3A%3A%3A%3A%3A%25E5%25B7%25A6%25E4%25BE%25A7%25E6%25A0%2587%25E9%25A2%2598%3A%3A%25E6%25A0%2587%25E9%25A2%2598%3A%3A160%3A%3Apmf_from_adv%3A%3Abj.5i5j.com%2F; _ga=GA1.2.510886705.1534572619; _gid=GA1.2.416216966.1534572619; domain=bj; yfx_mr_n_10000001=baidu%3A%3Amarket_type_ppzq%3A%3A%3A%3Abaidu_ppc%3A%3A%25e6%2588%2591%25e7%2588%25b1%25e6%2588%2591%25e5%25ae%25b6%3A%3A%3A%3A%25E6%25A0%2587%25E9%25A2%2598%3A%3Awww.baidu.com%3A%3A%3A%3A%3A%3A%25E5%25B7%25A6%25E4%25BE%25A7%25E6%25A0%2587%25E9%25A2%2598%3A%3A%25E6%25A0%2587%25E9%25A2%2598%3A%3A160%3A%3Apmf_from_adv%3A%3Abj.5i5j.com%2F; yfx_key_10000001=%25e6%2588%2591%25e7%2588%25b1%25e6%2588%2591%25e5%25ae%25b6; PHPSESSID=m46frphieprtkvuci1tpmhnqke; Hm_lvt_94ed3d23572054a86ed341d64b267ec6=1534572623,1534577980,1534579440; _gat=1; yfx_f_l_v_t_10000001=f_t_1534572618547__r_t_1534572618547__v_t_1534579696185__r_c_0; Hm_lpvt_94ed3d23572054a86ed341d64b267ec6=1534579697",
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",
}

def a():
    # 通過迴圈將頁碼數 %i 傳給 url
    for i in range(1,4):
        url = base_url %i
        # 發起requests.get請求，請求頁面
        response = requests.get(url,headers=headers)
        # 使用 xpath 對要獲取的欄位進行匹配，匹配至擁有（共同標籤）位置
        html=etree.HTML(response.text)
        html_res=html.xpath('//div[@class="list-con-box"]/ul[@class="pList"]/li')
        # 呼叫 b() 函式，將所匹配到（共同擁有）的欄位 進行傳遞
        b(html_res)
        # 提示爬取第幾頁 使用str()將i轉換為字串，進行拼接
        print('爬取第'+str(i)+'頁中')

def b(html_res):
    #  遍歷共同欄位
    for i in html_res:
        # 提取想要欄位
        listTit=i.xpath('./div[2]/h3/a/text()')[0]
        # 提取想要欄位
        listX=i.xpath('./div[2]/div[1]/p[1]/text()')[0]
        # 提取想要欄位
        dizhi1=i.xpath('./div[2]/div[1]/p[2]/a/text()')[0]
        # 通過 ''.join() 將獲取值轉換成 str
        dizhi2=''.join(i.xpath('./div[2]/div[1]/p[2]/text()'))
        # 判斷dizhi2欄位是否為空（頁面中存在空的情況）
        if dizhi2==None:
            # 如果為空，重新賦值為空字串
            dizhi2=''
        # 將兩個獲取欄位進行拼接
        dizhi=dizhi1+dizhi2
        # 提取想要欄位
        redC=i.xpath('./div[2]/div[1]/div/p/strong/text()')[0]

        # 存入mysql   repr():原樣輸出
        sql = 'insert into woaiwojia(listTit,listX,dizhi,redC) values ({},{},{},{})'.format(repr(listTit), repr(listX),repr(dizhi), repr(redC))
        # 開啟 mysql
        mc = mysql_conn()
        mc.execute_modify_mysql(sql)


if __name__ == '__main__':
    a()

xpath匹配爬取房源資訊（我愛我家）

# requests包 import requests # xpath包 from lxml import etree # 本地mysql包（mysql_def包下mysql_conn函式） from mysql_def import mysql_conn # 定義url,

鏈家BeautifulSoup4爬取房源資訊

from bs4 import BeautifulSoup import pymysql import requests # 資料庫儲存 class Mysql_save(object): def __init__(self): sel

python 爬取動態網頁（百度圖片）

# python 3.6.3 import re import os from urllib import parse from urllib import request ################################################### # 搜尋關鍵字

Python自定義豆瓣電影種類，排行，點評的爬取與儲存（進階上）

Python 2.7 IDE Pycharm 5.0.3 Firefox 47.0.1 想了想，還是稍微人性化一點，做個成品GUI出來起因沒辦法，在知乎預告了要做個GUI出來，吹的牛逼總得自己填坑，下次一定要慎重啊，話說也複習了一下G

scrapy框架爬取資料入庫（附詳細介紹）

在論壇上看過很多的scrapy資料入庫（mysql）的例子，但是我嘗試之後總是出現一些莫名其妙的錯誤，搞得自己走了很多彎路，於是我將我認為是最簡單易懂的方法和程式碼展示給大家，歡迎大家吐槽1.建立scrapy專案（安裝scrapy框架和mysql資料庫就不在這討論了，論壇上也

python爬蟲【例項】爬取豆瓣電影評分連結並圖示（）-問題如何爬取電影圖片（解決有程式碼）

這裡只有尾巴，來分析一下確定範圍：如何爬取圖片並下載？參考：http://blog.csdn.net/chaoren666/article/details/53488083----------------------------------------------------

scrapy爬取愛上租網站的房源資訊（一）

爬取的頁面如下：愛上租的租房頁面需要爬取該頁面下所有房間的基本資訊 scrapy框架的安裝和使用教程參考以下連結 http://www.scrapyd.cn/doc/178.html 首先在spiders目錄下新建一個house_spider.py，將上面爬

利用python爬取我愛我家租賃房源資訊

主要思路： 1.通過get方法向伺服器提交head檔案和cookie資訊（通過在chrome網頁上面登入之後獲取，避免了通過賬號密碼模擬登陸的繁瑣過程），實現模擬登陸的效果 2.訪問網頁，通過萬能的正則匹配到所需要的資訊具體演算法有3步驟： 1.從租賃房源的第一頁至第10

我愛我家房源資訊爬取

我愛我家房源資訊獲取無特殊爬取需求 import requests from lxml import etree from mysql_link import mysql_connect def get_5i5j(count): mysql_

python之爬蟲的入門05------實戰：爬取貝殼網（用re匹配需要的資料）

# 第二頁：https://hz.zu.ke.com/zufang/pg2 # 第一頁：https://hz.zu.ke.com/zufang/pg1 import urllib.request import random import re def user_ip(): ''

python 3.x 爬蟲基礎---正則表示式（案例：爬取貓眼資訊，寫入txt,csv,下載圖片）

python 3.x 爬蟲基礎前言　　正則表示式是對字串的一種邏輯公式，用事先定義好的一些特定字元、及這些特定字元的組合，組成一個“規則的字串”，此字串用來表示對字串的一種“過濾”邏輯。正在在很多開發語言中都存在，而非python獨有。對其知識點進行總結後，會寫一個demo。 1.正

python3[爬蟲實戰] 使用selenium，xpath爬取京東手機（上）

當然了，這個任務也是從QQ群裡面接過來的，主要是想提升自己的技術，一接過來是很開心的，但是，接完之後，寫了又寫，昨晚寫了3小時，前提晚上寫了2小時，搞的有些晚了，搞來搞去就卡在一個地方了，希望懂的大神們多幫忙指點一下，使用selenium ，可能感覺用

爬取網易雲音樂“三部曲”（一）：爬取歌手資訊！

提到歌神張學友，大家可能不會陌生或者說是如雷貫耳，他可是有著逃犯殺手之稱，這不明天1月11號是他2019世界巡迴演唱會《香港站》的開辦日期，不知香港警方有沒有做好抓逃犯的準備【手動滑稽】。對於歌神明天的演唱會，小編其實挺嚮往的，只是奈何年底了，天天要工作，作為一個程式猿，這也是沒辦法的，為了排遣內心

python 爬蟲學習三（Scrapy 實戰，豆瓣爬取電影資訊）

利用Scrapy爬取豆瓣電影資訊主要列出Scrapy的三部分程式碼： spider.py檔案： # _*_ coding=utf-8 _*_ import scrapy from course.douban_items import DouBanItem from scra

用R語言（rvest包）爬取獵聘網招聘資訊（保證可重複性）

前言最近一直在思考動手做自己的第一個R語言資料分析專案，在R語言中文社群公眾號上看了許多爬取招聘網站的案例後，發現做招聘資訊分析是個不錯的選擇： 1. 整合並分析招聘資訊可以深入瞭解各個崗位的整體收入情況、學歷要求、經驗要求等，相信這是許多人都感興趣的； 2. 招聘網站的

爬蟲學習之18：使用selenium和chrome-headerless爬取淘寶網商品資訊（非同步載入網頁）

登入淘寶網，使用F12鍵觀察網頁結構，會發現淘寶網也是非同步載入網站。有時候通過逆向工程區爬取這類網站也不容易。這裡使用selenium和chrome-headerless來爬取。網上有結合selenium和PlantomJS來爬取的，但是最新版的Seleniu

python3實現爬取淘寶頁面的商品的資料資訊（selenium+pyquery+mongodb）

1.環境須知做這個爬取的時候需要安裝好python3.6和selenium、pyquery等等一些比較常用的爬取和解析庫，還需要安裝MongoDB這個分散式資料庫。 2.直接上程式碼 spider.py import re from config

爬蟲（進階），爬取網頁資訊並寫入json檔案

import requests # python HTTP客戶端庫，編寫爬蟲和測試伺服器響應資料會用到的類庫 import re import json from bs4 import BeautifulSoup import copy print('正在爬取網頁連結……'

[Java爬蟲] 使用 Xpath + HtmlUnit 爬取網頁基本資訊

一、前言使用 Jsoup + HttpClient （組合一）基本可以爬取很多我們需要的資訊了，Xpath + HtmlUnit （組合二）的組合更是強大，無論是從選擇上，還是從解析上，都可以勝任組合一的。下面列舉一個簡單的例子，主要展示了其主要的技術：①模

小白學 Python 爬蟲（25）：爬取股票資訊

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝小白學 Python 爬蟲（3）：前置準備（二）Linux基礎入門小白學 Python 爬蟲（4）：前置準備（三）Docker基礎入門小白學 Pyth

xpath匹配 爬取房源資訊（我愛我家）

相關推薦

xpath匹配爬取房源資訊（我愛我家）