爬取網站小豬短租的少量資訊及詳細介紹--爬蟲案例篇

阿新 • • 發佈：2018-11-07

#!/usr/bin/env python
# -*- coding:utf-8 -*- 
# @Time    : 18-10-10 下午9:21
import requests #匯入requests包;發請求網頁
from bs4 import BeautifulSoup #匯入bs4包;解析網頁
import time #匯入time包 時間作用本文為:睡眠時間
headers ={
    'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
          }#加入請求頭
def sex_xiebie (class_name): #定義一個性別函式
    if class_name == ['member_ico1']: #通過發f12,性別為女的型別為:member_ico1
        return '女'
    else:
        return '男'     #通過if方法判斷性別為女還是男,因為男的也有一個型別,可以看看

def get_links(url):
    #定義一個網頁函式
    wb_data = requests.get(url,headers=headers)
    #獲取詳細頁面的連結
    soup = BeautifulSoup(wb_data.text,'lxml')
    #解析獲取網頁
    links = soup.select('#page_list > ul > li > a')
    #links為url列表

    for link in links:
        href = link.get("href")
        get_info(href)
    #迴圈url,挨個呼叫get_info()函式

def get_info(url):
#定義獲取詳細的網頁的
    wb_data =requests.get(url,'headers=headers')
    soup = BeautifulSoup(wb_data.text,'lxml')
    #解析網頁,獲取引數資訊
    tittles = soup.select('div.pho_info > h4')
    addresses = soup.select('span.pr5')
    prices = soup.select('#pricePart > div.day_l > span')
    imgs = soup.select('#floatRightBox > div.js_box.clearfix > div.member_pic > a > img')
    names = soup.select('#floatRightBox > div.js_box.clearfix > div.w_240 > h6 > a')
    sexs = soup.select('#floatRightBox > div.js_box.clearfix > div.member_pic > div')
    #通過selector方法尋找想找的資訊
    for tittle, address, price, img, name, sex in zip(tittles,addresses,prices,imgs,names,sexs):
        data = {
            '主題':tittle.get_text().strip(),
            '地址':address.get_text().strip(),
            '價格':price.get_text(),
            '圖片':img.get("src"),
            '名稱':name.get_text(),
            '性別':sex(sex.get("class"))
        }
        print(data)
        #解析了該網頁,並獲取該網頁的資訊,通過字典的資訊列印

if __name__ == '__main__':
#主程式的入口
    urls = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0/'.format(number)
    for number in range(1,16)]
    #小豬短租可以看到下面的網址有頁面頁面數,所以就可以構造url
    #構造多頁url,構造前15頁

for single_url in urls:
 get_links(single_url)
    #迴圈呼叫get_links()函式
time.sleep(3)
#每次迴圈一次,讓爬蟲暫停3秒,防止爬蟲失敗

爬取網站小豬短租的少量資訊及詳細介紹--爬蟲案例篇

#!/usr/bin/env python # -*- coding:utf-8 -*- # @Time : 18-10-10 下午9:21 import requests #匯入requests包;發請求網頁 from bs4 import BeautifulSoup #匯入bs4包;

小豬短租網requests庫使用，爬蟲案例

請求庫官方文件指出：讓HTTP 。服務人類細心的讀者就會發現，請求庫的作用英文就是請求網站電子雜誌|網頁資料的從簡單的例項開始，講解。請求庫的使用方法。 import requests res = requests.get

Python爬蟲入門 | 5 爬取小豬短租租房資訊

小豬短租是一個租房網站，上面有很多優質的民宿出租資訊，下面我們以成都地區的租房資訊為例，來嘗試爬取這些資料。 1.爬取租房標題按照慣例，先來爬下標題試試水，找到標題，複製xpath。多複製幾個房屋的標題 xpath 進行對比：

Python爬蟲入門 | 5 爬取小豬短租租房信息

圖片交流 ffffff 信息 jpg http 而已基本 mat 小豬短租是一個租房網站，上面有很多優質的民宿出租信息，下面我們以成都地區的租房信息為例，來嘗試爬取這些數據。小豬短租（成都）頁面：http://cd.xiaozhu.com/1.爬取租房標題按照慣例，

python3爬取“小豬短租-北京”租房資訊

爬蟲思路分析： 1. 觀察小豬短租（北京）的網頁首頁：http://www.xiaozhu.com/?utm_source=baidu&utm_medium=cpc&utm_term=PC%E6%A0%87%E9%A2%98&utm_content=pinzhuan

xpath,requests爬取小豬短租網

import requests from lxml import etree import time headers = { 'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) ' 'AppleWebKit/537.3

爬取小豬短租網信息

5.0 head test == lec 信息 names file float # -*- coding: utf-8 -*- import time import lxml import requests from bs4 import BeautifulSoup h

抓取小豬短租1000張列表頁內容

pre quest 個數 import rom lxml zip .text with 代碼如下 #!/usr/bin/env python# -*- coding:utf-8 -*-from bs4 import BeautifulSoupimport requestsd

抓取小豬短租列表內容並保存在mongodb裏

抓取 select requests orm com titles mongod lin ges import pymongoimport requestsfrom bs4 import BeautifulSoupclient = pymongo.MongoClient(‘

爬蟲寫法及狀態碼的認知,以小豬短租為例---爬蟲案例

寫一個最簡單的爬蟲先介紹,我的環境: Ubuntu:18.04(64位)

Python爬蟲實戰--小豬短租爬蟲

前言：通過上次的TripAdvisor爬蟲實戰，我們學會了如何使用requests傳送一個網頁請求，並使用BeautifulSoup來解析頁面，從中提取出我們的目標內容，並將其存入文件中。同時我們也學會了如何分析頁面，並提取出關鍵資料。下面我們將進一步學習，並爬去小豬短租的詳情頁面，提取

PHP 結合前端 ajax 爬取網站信息後, 向指定用戶發送指定短信;

icloud identity coo 請求頭 array -type aid 前端之前 <?php /** * Description * @authors Your Name ([email protected]) * # 根據時時彩的最新一期的號碼

python爬蟲：爬取網站視頻

爬蟲 python python爬取百思不得姐網站視頻：http://www.budejie.com/video/新建一個py文件，代碼如下：#!/usr/bin/python # -*- coding: UTF-8 -*- import urllib,re,requests import sys

Python3.5：爬取網站上電影數據

x64 沒有 () nbsp 運行 lpar target __init__ doc 首先我們導入幾個pyhton3的庫: from urllib import requestimport urllibfrom html.parser import HTMLParser 在

利用python爬取點小圖片，滿足私欲(爬蟲)

.text write ret append jpg use download div pat import requestsimport reimport os,syslinks=[]titles=[] headers = { "User-Agent": "Mozi

網絡爬蟲（爬取網站圖片，自動保存本地）

accep RoCE itl mage pytho range @class == title 事先申明一點，這個人品沒有什麽問題，只是朋友發一段python源碼，再這裏分享大家。 1 import requests 2 from lxml import html

爬取網站時請求被拒絕？scrapy輕松解決請求頭設置！就是不講道理

scrapy 就是 setting 頁面效果 useragent 基本生效 request 默認請求頭命令行執行，新建爬蟲 scrapy startproject myspidercd myspider scrapy genspider scrapy_spid

Python 利用 BeautifulSoup 爬取網站獲取新聞流

lxml odi creat times 對比文件中 lse win 危機 0. 引言　　介紹下 Python 用 Beautiful Soup 周期性爬取 xxx 網站獲取新聞流；圖 1 項目介紹 1. 開發環境　　Python：　　　　

Request爬取網站（seo.chinaz.com）百度權重的查詢結果

save 網址 gecko rom 圖片頁面隨機數 user gen 一：腳本需求利用Python3查詢網站權重並自動存儲在本地數據庫（Mysql數據庫）中，同時導出一份網站權重查詢結果的EXCEL表格數據庫類型：MySql 數據庫表單名稱：website_w

Day11 (黑客成長日記) 爬取網站圖片

#匯入第三方庫# coding:utf-8import requests,re#找到需要爬取的網站'http://www.qqjia.com/sucai/sucai1210.htm'#1>獲取網站 2>正則表示式匹配不同圖片的地址 3>找到所有圖片的URL#開發講究見名識意#1.1 定

爬取網站小豬短租的少量資訊及詳細介紹--爬蟲案例篇

相關推薦