爬取百度照片

阿新 • • 發佈：2020-12-28

這裡寫自定義目錄標題

目標url：https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&f=3&oq=%E5%A4%8F%E7%9B%AE&rsp=1
轉為翻頁式：https://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&f=3&oq=%E5%A4%8F%E7%9B%AE&rsp=1 （第一頁）
https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&pn=20&gsm=3c&ct=&ic=0&lm=-1&width=0&height=0 （第二頁）
https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&pn=60&gsm=64&ct=&ic=0&lm=-1&width=0&height=0 （第四頁）
規律：'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + keyword + '&pn=' + page page = (i-1)*20
請求網頁，獲取網頁原始碼
尋找圖片url
儲存圖片
請求網頁，獲取網頁原始碼
獲取圖片資訊
儲存圖片
歡迎使用Markdown編輯器

目標url：https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&f=3&oq=%E5%A4%8F%E7%9B%AE&rsp=1

轉為翻頁式：https://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&f=3&oq=%E5%A4%8F%E7%9B%AE&rsp=1 （第一頁）

https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&pn=20&gsm=3c&ct=&ic=0&lm=-1&width=0&height=0 （第二頁）

#https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&pn=40&gsm=50&ct=&ic=0&lm=-1&width=0&height=0 （第三頁）

https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&pn=60&gsm=64&ct=&ic=0&lm=-1&width=0&height=0 （第四頁）

規律：‘https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=’ + keyword + ‘&pn=’ + page page = (i-1)*20

‘’’
用正則表示式爬取百度照片
‘’’

請求網頁，獲取網頁原始碼

import requests
def get_source(url):
req = requests.get(url,headers=headers)
req.encoding = ‘utf-8’
source = req.text
return source

尋找圖片url

import re
def get_img(source):
img = re.findall(’“objURL”:"(.*?)"’,source)
print(img)
return img

儲存圖片

def save_img(img):
for each_img in img:
name = each_img[-10]
name = re.sub(’/’,’’,name) # 防止圖片命名出現/，儲存失敗
end = re.search(r’(.jpg|.png|.jpeg|.gif)$’,name) # 處理圖片末尾檔案格式
if end == None:
name = name + ‘.jpg’

    with open('img/'+name,'wb') as f:
        try:
            r = requests.get(each_img,headers=headers)
        except Exception as e:
            print(e)
        f.write(r.content)

import urllib.parse
import os
if name == ‘main’:
os.mkdir(‘img’)
headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36’}
keyword = input(‘請輸入查詢照片關鍵詞：’)
keyword = urllib.parse.quote(keyword)
page_start = int(input(‘請輸入查詢初始頁碼：’))
page_end = int(input(‘請輸入查詢末端頁碼：’))
# print(keyword)
for i in range(page_start,page_end+1):
page = str((i-1)*50)
url = ‘https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=’+ keyword +’&pn=’+ page
print(url)
source = get_source(url)
img = get_img(source)
save_img(img)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
‘’’
用xpath爬取百度照片
‘’’

請求網頁，獲取網頁原始碼

import requests
def get_source(url):
response = requests.get(url,headers=headers)
# print(response) # <Response [200]>
response.encoding = ‘utf-8’
return response.text

獲取圖片資訊

import lxml
from lxml import etree
def get_img(source):
html_element = etree.HTML(source)
img = html_element.xpath(’//div/ul/li/a/img/@src’)
print(img)
return img

儲存圖片

import re
def save_img(img):
for each_img in img:
name = each_img[-10]
name = re.sub(’/’,’’,name) # 防止圖片命名出現/，儲存失敗
end = re.search(r’(.jpg|.png|.jpeg|.gif)$’,name) # 處理圖片末尾檔案格式
if end == None:
name = name + ‘.jpg’

    with open('img1/'+name,'wb') as f:
        try:
            r = requests.get(each_img,headers=headers)
        except Exception as e:
            print(e)
        f.write(r.content)

import urllib.parse
import os
if name == ‘main’:
os.mkdir(‘img1’)
headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36’}
keyword = input(‘請輸入查詢照片關鍵詞：’)
keyword = urllib.parse.quote(keyword)
page_start = int(input(‘請輸入查詢初始頁碼：’))
page_end = int(input(‘請輸入查詢末端頁碼：’))
# print(keyword)
for i in range(page_start,page_end+1):
page = str((i-1)*50)
url = ‘https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=’+ keyword +’&pn=’+ page
print(url)
source = get_source(url)
img = get_img(source)
save_img(img)

歡迎使用Markdown編輯器

你好！這是你第一次使用 Markdown編輯器 所展示的歡迎頁。如果你想學習如何使用Markdown編輯器, 可以仔細閱讀這篇文章，瞭解一下Markdown的基本語法知識。

新的改變

我們對Markdown編輯器進行了一些功能拓展與語法支援，除了標準的Markdown編輯器功能，我們增加了如下幾點新功能，幫助你用它寫部落格：

全新的介面設計 ，將會帶來全新的寫作體驗；
在創作中心設定你喜愛的程式碼高亮樣式，Markdown 將程式碼片顯示選擇的高亮樣式 進行展示；
增加了 圖片拖拽 功能，你可以將本地的圖片直接拖拽到編輯區域直接展示；
全新的 KaTeX數學公式 語法；
增加了支援甘特圖的mermaid語法¹ 功能；
增加了 多螢幕編輯 Markdown文章功能；
增加了 焦點寫作模式、預覽模式、簡潔寫作模式、左右區域同步滾輪設定 等功能，功能按鈕位於編輯區域與預覽區域中間；
增加了 檢查列表 功能。

功能快捷鍵

撤銷：Ctrl/Command + Z
重做：Ctrl/Command + Y
加粗：Ctrl/Command + B
斜體：Ctrl/Command + I
標題：Ctrl/Command + Shift + H
無序列表：Ctrl/Command + Shift + U
有序列表：Ctrl/Command + Shift + O
檢查列表：Ctrl/Command + Shift + C
插入程式碼：Ctrl/Command + Shift + K
插入連結：Ctrl/Command + Shift + L
插入圖片：Ctrl/Command + Shift + G
查詢：Ctrl/Command + F
替換：Ctrl/Command + G

合理的建立標題，有助於目錄的生成

直接輸入1次#，並按下space後，將生成1級標題。
輸入2次#，並按下space後，將生成2級標題。
以此類推，我們支援6級標題。有助於使用TOC語法後生成一個完美的目錄。

如何改變文字的樣式

強調文字 強調文字

加粗文字 加粗文字

標記文字

~~刪除文字~~

引用文字

H₂O is是液體。

2¹⁰ 運算結果是 1024.

插入連結與圖片

連結: link.

圖片: Alt

帶尺寸的圖片: Alt

居中的圖片: Alt

居中並且帶尺寸的圖片: Alt

當然，我們為了讓使用者更加便捷，我們增加了圖片拖拽功能。

如何插入一段漂亮的程式碼片

去部落格設定頁面，選擇一款你喜歡的程式碼片高亮樣式，下面展示同樣高亮的 程式碼片.

// An highlighted block
var foo = 'bar';

生成一個適合你的列表

專案
- 專案
  - 專案

專案1
專案2
專案3

計劃任務
完成任務

建立一個表格

一個簡單的表格是這麼建立的：

專案	Value
電腦	$1600
手機	$12
導管	$1

設定內容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列	第二列	第三列
第一列文字居中	第二列文字居右	第三列文字居左

SmartyPants

SmartyPants將ASCII標點字元轉換為“智慧”印刷標點HTML實體。例如：

TYPE	ASCII	HTML
Single backticks	`'Isn't this fun?'`	‘Isn’t this fun?’
Quotes	`"Isn't this fun?"`	“Isn’t this fun?”
Dashes	`-- is en-dash, --- is em-dash`	– is en-dash, — is em-dash

建立一個自定義列表

Markdown

Text-to- HTML conversion tool

Authors

John

Luke

如何建立一個註腳

一個具有註腳的文字。²

註釋也是必不可少的

Markdown將文字轉換為 HTML。

KaTeX數學公式

您可以使用渲染LaTeX數學表示式 KaTeX:

Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n−1)!∀n∈N 是通過尤拉積分

Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞tz−1e−tdt.

你可以找到更多關於的資訊 LaTeX 數學表示式here.

新的甘特圖功能，豐富你的文章

關於 甘特圖 語法，參考這兒,

UML 圖表

可以使用UML圖表進行渲染。 Mermaid. 例如下面產生的一個序列圖：

這將產生一個流程圖。:

關於 Mermaid 語法，參考這兒,

FLowchart流程圖

我們依舊會支援flowchart的流程圖：

關於 Flowchart流程圖 語法，參考這兒.

匯出與匯入

匯出

如果你想嘗試使用此編輯器, 你可以在此篇文章任意編輯。當你完成了一篇文章的寫作, 在上方工具欄找到 文章匯出 ，生成一個.md檔案或者.html檔案進行本地儲存。

匯入

如果你想載入一篇你寫過的.md檔案，在上方工具欄可以選擇匯入功能進行對應副檔名的檔案匯入，
繼續你的創作。

mermaid語法說明 ↩︎
註腳的解釋 ↩︎

爬取百度照片

這裡寫自定義目錄標題

https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&pn=20&gsm=3c&ct=&ic=0&lm=-1&width=0&height=0 （第二頁）

https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&pn=60&gsm=64&ct=&ic=0&lm=-1&width=0&height=0 （第四頁）

規律：‘https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=’ + keyword + ‘&pn=’ + page page = (i-1)*20

請求網頁，獲取網頁原始碼

尋找圖片url

儲存圖片

請求網頁，獲取網頁原始碼

獲取圖片資訊

儲存圖片

歡迎使用Markdown編輯器

新的改變

功能快捷鍵

合理的建立標題，有助於目錄的生成

如何改變文字的樣式

插入連結與圖片

如何插入一段漂亮的程式碼片

生成一個適合你的列表

建立一個表格

設定內容居中、居左、居右

SmartyPants

建立一個自定義列表

如何建立一個註腳

註釋也是必不可少的

KaTeX數學公式

新的甘特圖功能，豐富你的文章

UML 圖表

FLowchart流程圖

匯出與匯入

匯出

匯入

相關推薦