python爬蟲學習筆記一

阿新 • • 發佈：2019-02-01

廢話不多說，直接上程式碼：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

def main():
    chrome_options = Options()
    chrome_options.add_argument('--headless')
    chrome_options.add_argument('--disable-gpu')
    driver = webdriver.Chrome(executable_path='G:/pythonLib/chromedriver.exe' 
, options=chrome_options)
    driver.get("https://www.baidu.com")
    print(driver.page_source)
    driver.save_screenshot(r'baidu_explorer.png')

    driver.close()

if __name__ == '__main__':
    main()

需要安裝

另附一段抓取網頁中的圖片的程式碼（轉自傳送門）

from urllib import request
from bs4 import BeautifulSoup
import re
import 
 time

url = "https://www.zhihu.com/question/66313867"
'''
request.urlopen(url)返回的是一個HTTPResposne型別的物件，它主要包含的方法有read()、
readinto()、getheader(name)、getheaders()、fileno()等函式和msg、version、status、reason、debuglevel、closed等屬性。
'''
resp = request.urlopen(url)
buff = resp.read()  # 網頁內容
print(resp.status)  # 列印請求結果的狀態碼 

html = buff.decode("utf8")
print(html)  # 列印請求到的網頁原始碼
soup = BeautifulSoup(html, 'html.parser')  # 將網頁原始碼構造成BeautifulSoup物件，方便操作
# print(soup.prettify())

# 用Beautiful Soup結合正則表示式來提取包含所有圖片連結（img標籤中，class=**，以.jpg結尾的連結）的語句
links = soup.find_all('img', "origin_image zh-lightbox-thumb", src=re.compile(r'.jpg$'))
print(links)

# 設定儲存圖片的路徑，否則會儲存到程式當前路徑
path = r'G:\BeautifulGril'  # 路徑前的r是保持字串原始值的意思，就是說不對其中的符號進行轉義
for link in links:
    print(link.attrs['src'])
    # 儲存連結並命名，time.time()返回當前時間戳防止命名衝突
    request.urlretrieve(link.attrs['src'], path + '\%s.jpg' % time.time())

urllib和bs4通過pip安裝就好了：
pip install urllib
pip install bs4

對其稍作修改，我們根據知乎查詢“美女”的返回結果一個個爬取美女圖片：

from urllib import request
from bs4 import BeautifulSoup
import re
import time

url = "https://www.zhihu.com/search?type=content&q=%E7%BE%8E%E5%A5%B3"
'''
request.urlopen(url)返回的是一個HTTPResposne型別的物件，它主要包含的方法有read()、
readinto()、getheader(name)、getheaders()、fileno()等函式和msg、version、status、reason、debuglevel、closed等屬性。
'''
resp = request.urlopen(url)
buff = resp.read()  # 網頁內容
print(resp.status)  # 列印請求結果的狀態碼
html = buff.decode("utf8")
print(html)  # 列印請求到的網頁原始碼
soup = BeautifulSoup(html, 'html.parser')  # 將網頁原始碼構造成BeautifulSoup物件，方便操作
# print(soup.prettify())
# 提取查詢結果中的文章連結，例如：<meta itemprop="url" content="https://www.zhihu.com/question/25509555">
links = soup.find_all('meta', itemprop='url', content=re.compile(r'^https:'))
print(links)

for link in links:
    curUrl = link.attrs['content']
    print(link.attrs['content'])
    curBuff = request.urlopen(curUrl).read()  # 網頁內容
    curHtml = curBuff.decode("utf8")
    print(curHtml)  # 列印請求到的網頁原始碼
    curSoup = BeautifulSoup(curHtml, 'html.parser')  # 將網頁原始碼構造成BeautifulSoup物件，方便操作
    # 用Beautiful Soup結合正則表示式來提取包含所有圖片連結（img標籤中，class=**，以.jpg結尾的連結）的語句
    curlinks = curSoup.find_all('img', "origin_image zh-lightbox-thumb", src=re.compile(r'.jpg$'))
    print(curlinks)

    # 設定儲存圖片的路徑，否則會儲存到程式當前路徑
    path = r'G:\BeautifulGril'  # 路徑前的r是保持字串原始值的意思，就是說不對其中的符號進行轉義
    for jpgLink in curlinks:
        print(jpgLink.attrs['src'])
        # 儲存連結並命名，time.time()返回當前時間戳防止命名衝突
        request.urlretrieve(jpgLink.attrs['src'], path + '\%s.jpg' % time.time())

但是翻頁資料現在還無法獲取，查看了知乎的翻頁，它是通過api查詢的，返回的json資料，前臺進行渲染處理的，這個後面再研究吧。

python爬蟲學習筆記一：爬蟲學習概覽與Requests庫的安裝與使用

python網路爬蟲與資訊提取學習目錄： the website is the API Requests：自動爬取HTML頁面自動網路請求提交 robots.txt：網路爬蟲排除標準 Beautiful Soup：解析HTML頁面正則表示式詳解，提取頁面關鍵資訊Re

python爬蟲學習筆記一

廢話不多說，直接上程式碼： from selenium import webdriver from selenium.webdriver.chrome.options import Options d

Python爬蟲學習筆記（一）——urllib庫的使用

scheme param https ade 網站 dmgr nor 分享圖片 out 前言我買了崔慶才的《Python3網絡爬蟲開發實戰》，趁著短學期，準備系統地學習下網絡爬蟲。在學習這本書的同時，通過博客摘錄並總結知識點，同時也督促自己每日學習。本書第一章是開發環境的

Python爬蟲學習筆記總結(一)

〇. python 基礎先放上python 3 的官方文件:https://docs.python.org/3/ (看文件是個好習慣) 關於python 3 基礎語法方面的東西,網上有很多,大家可以自行查詢. 一. 最簡單的爬取程式爬取百度首頁原始碼:

python爬蟲學習筆記（一）—— 爬取騰訊視訊影評

前段時間我忽然想起來，以前本科的時候總有一些公眾號，能夠為我們提供成績查詢、課表查詢等服務。我就一直好奇它是怎麼做到的，經過一番學習，原來是運用了爬蟲的原理，自動登陸教務系統爬取的成績等內容。我覺得挺好玩的，於是自己也琢磨了一段時間，今天呢，我為大家分享一個爬蟲

Python爬蟲學習（一）

code time response utf path urllib quest ext .com Python訪問網頁主要使用包urllib 打開網頁使用 urllib.request.urlopen(url, data=None, [timeout, ]*, cafi

Python爬蟲學習筆記之微信宮格驗證碼的識別(存在問題)

依次返回結果 ptc 接下來 clas 軌跡 self top http 本節我們將介紹新浪微博宮格驗證碼的識別。微博宮格驗證碼是一種新型交互式驗證碼，每個宮格之間會有一條指示連線，指示了應該的滑動軌跡。我們要按照滑動軌跡依次從起始宮格滑動到終止宮格，才可以完成驗證，

Python爬蟲學習筆記之模擬登陸並爬去GitHub

過程 eight res 開發者工具 @value clas 之前自己 8.0 (1)環境準備: 請確保已經安裝了requests和lxml庫 (2)分析登陸過程: 首先要分析登陸的過程，需要探究後臺的登陸請求是怎樣發送的，登陸之後又有怎樣的

Python爬蟲學習筆記（二）——requests庫的使用

pip 安裝 .text rep 瀏覽器 ror clas ade 學習筆記準備工作 requests庫不是python自帶的庫，可以用pip安裝。在使用時導入requests即可。基本用法 GET請求 r = requests.get(url) print(r.tex

Python爬蟲學習筆記（三）——正則表達式

斜杠這一 seh 爬蟲 class 學習常用方法部分介紹介紹正則表達式是一種處理字符串的強大工具，能實現字符串的檢索、替換、匹配驗證等。在爬蟲中，正則表達式主要用於從HTML裏提取所需要的信息常用的匹配規則模式描述 \w 匹配字母、數字及下劃

Python爬蟲學習筆記（七）——智高考數據爬取

pid items bubuko strong eai res har href name 介紹智高考是一個高考誌願網站，也是基於Ajax的。高中的時候我在wyz大神的幫忙下，嘗試過爬取信息來為填誌願做準備。但是當時沒有系統學習過爬蟲，幾乎都是靠大神帶飛，因此今天再次嘗試

【Python爬蟲學習筆記2】urllib庫的基本使用

代理服務 cor proc 技術 origin car windows tpc -c urllib庫是python內置的實現HTTP請求的基本庫，通過它可以模擬瀏覽器的行為，向指定的服務器發送一個請求，並保存服務器返回的數據。 urlopen函數函數原型：urlopen(

【Python爬蟲學習筆記8-2】MongoDB數據庫操作詳解

參考資料 adding ocl 切換 username 詳解 top .com min 上一篇學習筆記8-1中介紹了MySQL和MongoDB的安裝、啟動和配置，本節我們接著學習有關MongoDB的一些概念、基本操作和在python中的使用。 MongoDB常用概念為更好

【Python爬蟲學習筆記10】多線程中的生產者消費者模式

其中因此問題共享 and 生產者消費者模式共享問題由於接下來在多線程編程中，最經典的模式是生產者消費者模式。其中，生產者是專門用來生產數據的線程，它把數據存放在一個中間變量中；而消費者則從這個中間變量取出數據進行消費。由於生產者和消費者共享中間變量，這些變量大

python爬蟲學習筆記-urllib的使用

學習爬蟲，最基本的操作即為模擬瀏覽器向伺服器發出請求，python內建了一個名為urllib的內建HTTP請求庫，有了它，我們只需要關心請求的連結是什麼，需要傳遞什麼引數，以及設定請求頭等其他資訊即可。這樣，我們就不用深入底層的連線具體是怎樣傳輸和通訊（當然，這是站在巨人的肩膀上）。urll

python爬蟲學習筆記-requests用法

python內建的urllib在某些高階應用時存在很多不方便的地方且功能似乎也沒有想象的那麼強大，於是更為強大第三方庫requests庫應運而生，有了它，cookies，代理，登陸操作都是簡化很多。首先確認安裝requests庫： pip install requests 1.類

python爬蟲學習筆記二：Requests庫詳解及HTTP協議

Requests庫的安裝：https://mp.csdn.net/postedit/83715574 r=requests.get(url,params=None,**kwargs) 這個r是Response物件 url ：擬獲取頁面的url連結 params：url中的額外引數

python爬蟲學習筆記三：圖片爬取

圖片爬取的程式碼 r.content 檔案的二進位制格式 Python引入了with語句來自動幫我們呼叫close()方法： open(path, ‘-模式-‘,encoding=’UTF-8’) w：以寫方式開啟， a：以追加模式開啟 (從 EOF 開始, 必要時建

python爬蟲學習筆記五：Re庫的介紹和使用

Re庫介紹 Re庫是Python的標準庫，主要用於字串匹配。呼叫方式： import re 正則表示式的表示型別 *raw string 型別（原生字串型別）： re庫採用raw string型別表示正則表示式，表示為：r'text' 例如：r'[1-9]\d{5}

python爬蟲學習筆記四：BeautifulSoup庫對HTML文字進行操作

只要你提供的資訊是標籤，就可以很好的解析怎麼使用BeautifulSoup庫？ from bs4 import BeautifulSoup soup=BeautifulSoup('<p>data<p>','html.parser'）例如： import

python爬蟲學習筆記一

廢話不多說，直接上程式碼：

另附一段抓取網頁中的 圖片的程式碼（轉自傳送門）

對其稍作修改，我們根據知乎查詢“美女”的返回結果一個個爬取美女圖片：

相關推薦

另附一段抓取網頁中的圖片的程式碼（轉自傳送門）