python3 [爬蟲實戰] selenium + requests 爬取安居客
很簡單,這裡是根據網友的求助爬取的安居客上的一個頁面的全部地區名稱跟連結
因為她用的scrapy框架,感覺有些大才小用了,所以就直接用了一個requests庫,selenium 和xpath進行一整頁資料的爬取
獲取的內容:包括地區名,地區連結:
1 一開始直接用requests庫進行網站的爬取,會訪問不到資料的, 會直接出現 訪問的頁面出現錯誤的資訊。(ps:這裡就暫時不打印出來了。)
2 因為一直報錯,腦瓜子不知道怎麼的就想到了selenium 這個框架,可能是爬安居客之前用selenium 爬取了天貓的商品內容吧。
3 selenium 的使用,我的部落格上有說過:
http:/blog.csdn.net/xudailong_blog/
4 現在貼上程式碼片段:
# -*- coding: utf-8 -*-
# @Time : 2017/9/19 21:36
# @Author : 蛇崽
# @Email : [email protected]
# @File : anjuke.py 安居客房產網
import requests
import re
from bs4 import BeautifulSoup
import csv
import time
import threading
from lxml import etree
from selenium import webdriver
from openpyxl import Workbook
num0 = 1 # 用來計數,計算爬取的書一共有多少本
baseurl = 'https://www.anjuke.com/sy-city.html'
wb = Workbook()
ws = wb.active
ws.title = '安居客'
ws.cell(row=1, column=1).value = '城市名稱'
ws.cell(row=1, column=2).value = '城市連結'
def gethtml():
chromedriver = "C:\Program Files (x86)\Google\Chrome\Application\chromedriver.exe"
browser = webdriver.Chrome(chromedriver)
browser.get(baseurl)
time.sleep(5)
js = 'window.scrollBy(0,3000)'
browser.execute_script(js)
js = 'window.scrollBy(0,5000)'
browser.execute_script(js)
html = browser.page_source
return html
def saveinfos(authorother):
global num0
nums = 0
for ver_info in authorother:
num0 = num0 + 1
ws.cell(row=num0, column=1).value = ver_info[0]
ws.cell(row=num0, column=2).value = ver_info[1]
nums += 1
print('爬取成功 ' + str(nums))
wb.save('安居客' + '.xlsx')
pass
def parseHotBook(html):
# 作者 (豆瓣使用者,簡書)
print(html)
print('*'*20)
# commentlist = html.xpath("/html/body/div[3]/div")
# 作者 (豆瓣使用者,簡書)
regAuthor = r'.*?<a href="(.*?)</a>'
reg_author = re.compile(regAuthor)
authorother = re.findall(reg_author, html)
global num0
nums = 0
for info in authorother:
verinfo = info.split('">')
print(verinfo[0],verinfo[1].replace('class="hot',''))
num0 = num0 + 1
name = verinfo[0]
link = verinfo[1].replace('class="hot','')
ws.cell(row=num0, column=1).value = name
ws.cell(row=num0, column=2).value = link
wb.save('安居客2' + '.xlsx')
print('爬取成功')
html = gethtml()
parseHotBook(html)
當然,文字儲存還有一些瑕疵,因為用的是正則表示式,並沒有進行很嚴格的匹配
貼上爬取圖片:
正確的資料 650條左右,因為問了一下給需求的小姐姐,說是可以,所以就這樣子處理了。
程式碼就是上面那些,以後有同樣入門的一塊學習的小夥伴或者需要幫忙爬蟲的,可以私信我,我可以試著去爬一下,因為自己也是自學3個月左右。程式碼有放到GitHub上了
相關推薦
python3 [爬蟲實戰] selenium + requests 爬取安居客
很簡單,這裡是根據網友的求助爬取的安居客上的一個頁面的全部地區名稱跟連結 因為她用的scrapy框架,感覺有些大才小用了,所以就直接用了一個requests庫,selenium 和xpath進行一整頁資料的爬取 獲取的內容:包括地區名,地
Python3.X 爬蟲實戰(併發爬取)
1 背景 在這一系列開始前我們就說過,簡單的爬蟲很容易,但是要完成一個高效健壯的爬蟲不是一個簡單的事情,這一系列我們已經明白了爬蟲相關的如下核心知識點。 基於上面這幾篇其實我們把爬蟲當作自己便利的開發工具來使用基本上是夠了(譬如老闆讓你定期留意觀
Python開發爬蟲之BeautifulSoup解析網頁篇:爬取安居客網站上北京二手房數據
澳洲 pytho 目標 www. 委托 user info .get web 目標:爬取安居客網站上前10頁北京二手房的數據,包括二手房源的名稱、價格、幾室幾廳、大小、建造年份、聯系人、地址、標簽等。 網址為:https://beijing.anjuke.com/sale/
爬蟲實戰--JS破解+爬取製藥食品
網址如下: http://app1.sfda.gov.cn/datasearch/face3/base.jsp?tableId=25&tableName=TABLE25&title=%B9%FA%B2%FA%D2%A9%C6%B7&bcId=124356560303886
Python3爬蟲實戰(requests模組)
上次我通過兩個實戰教學展示瞭如何使用urllib模組(http://blog.csdn.net/mr_blued/article/details/79180017)來構造爬蟲,這次告訴大家一個更好的實現爬蟲的模組,requests模組。使用requests模組進行爬蟲構造時最
360極速瀏覽器一鍵操作 訂單速記表selenium +requests爬取 openpyxl +xlrd 操作excel
#coding:utf-8 #配置前先將谷歌的chromedriver放到 360瀏覽器的目錄下 from selenium.webdriver.common.by import By #引入判斷元素載入模組 from selenium.webdriver.support.ui import W
Python爬蟲:Selenium+ BeautifulSoup 爬取JS渲染的動態內容(雪球網新聞)
爬取目標:下圖中紅色方框部分的文章內容。(需要點選每篇文章的連結才能獲得文章內容) 注:該文章僅介紹爬蟲爬取新聞這一部分,爬蟲語言為Python。 乍一看,爬蟲的實現思路很簡單: (2)通過第一步所獲得的各篇文章的URL,抓取文章內容。 但是發現簡單使用urlli
Python爬蟲實戰一:爬取csdn學院所有課程名、價格和課時
import urllib.request import re,xlwt,datetime class csdn_spider(): def __init__(self): self.c = 0 def sava_data(self,name,class_num,price
Python3 爬蟲(三) -- 爬取豆瓣首頁圖片
序 前面已經完成了簡單網頁以及偽裝瀏覽器的學習。下面,實現對豆瓣首頁所有圖片爬取程式,把圖片儲存到本地一個路徑下。 首先,豆瓣首頁部分圖片展示 這只是擷取的一部分。下面給出,整個爬蟲程式。 爬蟲程式
Python爬蟲——實戰三:爬取蘇寧易購的商品價格(渲染引擎方法)
蘇寧易購的商品價格請求URL為 https://pas.suning.com/nspcsale_0_000000000152709847_000000000152709847_0000000000_10_010_0100101_20268_1000000_
Python3爬蟲之五:爬取網站資料並寫入excel
本文主要講解如何將網頁上的資料寫入到excel表中,因為我比較喜歡看小說,我們就以筆趣閣的小說資料為例,來說明怎麼把筆趣閣的小說關鍵資訊統計出來,比如:小說名、字數、作者、網址等。 根據之前的幾次爬蟲例項分析筆趣網原始碼知道,小說名在唯一的標籤h1中,因此可以
爬蟲專案:requests爬取豆瓣電影TOP250存入excel中
這次爬取是爬取250部電影的相關內容,分別用了requests請求url,正則表示式re與BeautifulSoup作為內容過濾openpyxl作為excel的操作模組,本人為才學不久的新手,程式碼編寫有點無腦和囉嗦,希望有大神能多提建議 首先,程式碼清單如下:
Python爬蟲實戰(三):簡單爬取網頁圖片
先上程式碼:#coding=utf-8 import urllib.request for i in range(1,41): imgurl = "http://mtl.ttsqgs.com/images/img/11552/" imgurl += str(i
Python爬蟲——實戰一:爬取京東產品價格(逆向工程方法)
在京東的單個產品頁面上,通過檢視原始碼檢查html,可以看到 <span class="p-price"><span>¥</span><span class="price J-p-1279836"></sp
python3 爬蟲學習-根據關鍵詞爬取百度百科內容
小白編了好久才寫出來,記錄一下免得之後再用的時候都忘了還得重新學~ 學習爬蟲最開始是學習了慕課上的python課程,然後學習了慕課和網易雲上的爬蟲教程。這兩個自己去查一下就好了~ 開始還比較費勁,畢竟熟悉需要時間麼,而且python也不太熟悉。 關於python版本:我一開
爬取安居客上的優質業務員資訊
coding=utf-8 import urllib2 import urllib import re f = open(‘D:/python1/renwu.txt’,“a”,) from bs4 import BeautifulSoup for i in range(1,5): u
Python爬取安居客經紀人資訊
Python爬取安居客經紀人資訊 Python2.7.15 今天我們來爬取安居客經紀人的資訊。這次我們不再使用正則,我們使用beautifulsoup。不瞭解的可以先看一下這個文件,便於理解。https://beautifulsoup.readthedocs.io/zh_CN/v4.4.
python爬取安居客(BeautifulSoup)
# -*- coding: utf-8 -*- """ Created on Fri Dec 15 10:26:06 2017 @author: Administrator """ import requests from bs4 import BeautifulSou
python3[爬蟲實戰] 爬蟲之requests爬取新浪微博京東客服
爬取的內容為京東客服的微博及評論 思路:主要是通過手機端訪問新浪微博的api介面,然後進行資料的篩選, 這個主要是登陸上去的微博的url連結, 可以看到的介面: 這裡主要爬取的內容為: 說說,說說下面的評論條目 雖然很簡單,但是,不得不說句mmp,爬
python3[爬蟲實戰] 使用selenium,xpath爬取京東手機(上)
當然了,這個任務也是從QQ群裡面接過來的,主要是想提升自己的技術,一接過來是很開心的,但是,接完之後,寫了又寫,昨晚寫了3小時,前提晚上寫了2小時,搞的有些晚了,搞來搞去就卡在一個地方了,希望懂的大神們多幫忙指點一下, 使用selenium ,可能感覺用