1. 程式人生 > 其它 >爬取百度照片

爬取百度照片

這裡寫自定義目錄標題

目標url:https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&f=3&oq=%E5%A4%8F%E7%9B%AE&rsp=1

轉為翻頁式:https://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&f=3&oq=%E5%A4%8F%E7%9B%AE&rsp=1 (第一頁)

https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&pn=20&gsm=3c&ct=&ic=0&lm=-1&width=0&height=0 (第二頁)

#https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&pn=40&gsm=50&ct=&ic=0&lm=-1&width=0&height=0 (第三頁)

https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&pn=60&gsm=64&ct=&ic=0&lm=-1&width=0&height=0 (第四頁)

規律:‘https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=’ + keyword + ‘&pn=’ + page page = (i-1)*20

‘’’
用正則表示式爬取百度照片
‘’’

請求網頁,獲取網頁原始碼

import requests
def get_source(url):
req = requests.get(url,headers=headers)
req.encoding = ‘utf-8’
source = req.text
return source

尋找圖片url

import re
def get_img(source):
img = re.findall(’“objURL”:"(.*?)"’,source)
print(img)
return img

儲存圖片

def save_img(img):
for each_img in img:
name = each_img[-10]
name = re.sub(’/’,’’,name) # 防止圖片命名出現/,儲存失敗
end = re.search(r’(.jpg|.png|.jpeg|.gif)$’,name) # 處理圖片末尾檔案格式
if end == None:
name = name + ‘.jpg’

    with open('img/'+name,'wb') as f:
        try:
            r = requests.get(each_img,headers=headers)
        except Exception as e:
            print(e)
        f.write(r.content)

import urllib.parse
import os
if name == ‘main’:
os.mkdir(‘img’)
headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36’}
keyword = input(‘請輸入查詢照片關鍵詞:’)
keyword = urllib.parse.quote(keyword)
page_start = int(input(‘請輸入查詢初始頁碼:’))
page_end = int(input(‘請輸入查詢末端頁碼:’))
# print(keyword)
for i in range(page_start,page_end+1):
page = str((i-1)*50)
url = ‘https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=’+ keyword +’&pn=’+ page
print(url)
source = get_source(url)
img = get_img(source)
save_img(img)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
‘’’
用xpath爬取百度照片
‘’’

請求網頁,獲取網頁原始碼

import requests
def get_source(url):
response = requests.get(url,headers=headers)
# print(response) # <Response [200]>
response.encoding = ‘utf-8’
return response.text

獲取圖片資訊

import lxml
from lxml import etree
def get_img(source):
html_element = etree.HTML(source)
img = html_element.xpath(’//div/ul/li/a/img/@src’)
print(img)
return img

儲存圖片

import re
def save_img(img):
for each_img in img:
name = each_img[-10]
name = re.sub(’/’,’’,name) # 防止圖片命名出現/,儲存失敗
end = re.search(r’(.jpg|.png|.jpeg|.gif)$’,name) # 處理圖片末尾檔案格式
if end == None:
name = name + ‘.jpg’

    with open('img1/'+name,'wb') as f:
        try:
            r = requests.get(each_img,headers=headers)
        except Exception as e:
            print(e)
        f.write(r.content)

import urllib.parse
import os
if name == ‘main’:
os.mkdir(‘img1’)
headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36’}
keyword = input(‘請輸入查詢照片關鍵詞:’)
keyword = urllib.parse.quote(keyword)
page_start = int(input(‘請輸入查詢初始頁碼:’))
page_end = int(input(‘請輸入查詢末端頁碼:’))
# print(keyword)
for i in range(page_start,page_end+1):
page = str((i-1)*50)
url = ‘https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=’+ keyword +’&pn=’+ page
print(url)
source = get_source(url)
img = get_img(source)
save_img(img)

歡迎使用Markdown編輯器

你好! 這是你第一次使用 Markdown編輯器 所展示的歡迎頁。如果你想學習如何使用Markdown編輯器, 可以仔細閱讀這篇文章,瞭解一下Markdown的基本語法知識。

新的改變

我們對Markdown編輯器進行了一些功能拓展與語法支援,除了標準的Markdown編輯器功能,我們增加了如下幾點新功能,幫助你用它寫部落格:

  1. 全新的介面設計 ,將會帶來全新的寫作體驗;
  2. 在創作中心設定你喜愛的程式碼高亮樣式,Markdown 將程式碼片顯示選擇的高亮樣式 進行展示;
  3. 增加了 圖片拖拽 功能,你可以將本地的圖片直接拖拽到編輯區域直接展示;
  4. 全新的 KaTeX數學公式 語法;
  5. 增加了支援甘特圖的mermaid語法1 功能;
  6. 增加了 多螢幕編輯 Markdown文章功能;
  7. 增加了 焦點寫作模式、預覽模式、簡潔寫作模式、左右區域同步滾輪設定 等功能,功能按鈕位於編輯區域與預覽區域中間;
  8. 增加了 檢查列表 功能。

功能快捷鍵

撤銷:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜體:Ctrl/Command + I
標題:Ctrl/Command + Shift + H
無序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
檢查列表:Ctrl/Command + Shift + C
插入程式碼:Ctrl/Command + Shift + K
插入連結:Ctrl/Command + Shift + L
插入圖片:Ctrl/Command + Shift + G
查詢:Ctrl/Command + F
替換:Ctrl/Command + G

合理的建立標題,有助於目錄的生成

直接輸入1次#,並按下space後,將生成1級標題。
輸入2次#,並按下space後,將生成2級標題。
以此類推,我們支援6級標題。有助於使用TOC語法後生成一個完美的目錄。

如何改變文字的樣式

強調文字 強調文字

加粗文字 加粗文字

標記文字

刪除文字

引用文字

H2O is是液體。

210 運算結果是 1024.

插入連結與圖片

連結: link.

圖片: Alt

帶尺寸的圖片: Alt

居中的圖片: Alt

居中並且帶尺寸的圖片: Alt

當然,我們為了讓使用者更加便捷,我們增加了圖片拖拽功能。

如何插入一段漂亮的程式碼片

部落格設定頁面,選擇一款你喜歡的程式碼片高亮樣式,下面展示同樣高亮的 程式碼片.

// An highlighted block
var foo = 'bar';

生成一個適合你的列表

  • 專案
    • 專案
      • 專案
  1. 專案1
  2. 專案2
  3. 專案3
  • 計劃任務
  • 完成任務

建立一個表格

一個簡單的表格是這麼建立的:

專案Value
電腦$1600
手機$12
導管$1

設定內容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列第二列第三列
第一列文字居中第二列文字居右第三列文字居左

SmartyPants

SmartyPants將ASCII標點字元轉換為“智慧”印刷標點HTML實體。例如:

TYPEASCIIHTML
Single backticks'Isn't this fun?'‘Isn’t this fun?’
Quotes"Isn't this fun?"“Isn’t this fun?”
Dashes-- is en-dash, --- is em-dash– is en-dash, — is em-dash

建立一個自定義列表

Markdown
Text-to- HTML conversion tool
Authors
John
Luke

如何建立一個註腳

一個具有註腳的文字。2

註釋也是必不可少的

Markdown將文字轉換為 HTML

KaTeX數學公式

您可以使用渲染LaTeX數學表示式 KaTeX:

Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n1)!nN 是通過尤拉積分

Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t   . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=0tz1etdt.

你可以找到更多關於的資訊 LaTeX 數學表示式here.

新的甘特圖功能,豐富你的文章

Mon 06 Mon 13 Mon 20 已完成 進行中 計劃一 計劃二 現有任務 Adding GANTT diagram functionality to mermaid
  • 關於 甘特圖 語法,參考 這兒,

UML 圖表

可以使用UML圖表進行渲染。 Mermaid. 例如下面產生的一個序列圖:

張三 李四 王五 你好!李四, 最近怎麼樣? 你最近怎麼樣,王五? 我很好,謝謝! 我很好,謝謝! 李四想了很長時間, 文字太長了 不適合放在一行. 打量著王五... 很好... 王五, 你怎麼樣? 張三 李四 王五

這將產生一個流程圖。:

連結 長方形 圓角長方形 菱形
  • 關於 Mermaid 語法,參考 這兒,

FLowchart流程圖

我們依舊會支援flowchart的流程圖:

Created with Raphaël 2.2.0 開始 我的操作 確認? 結束 yes no
  • 關於 Flowchart流程圖 語法,參考 這兒.

匯出與匯入

匯出

如果你想嘗試使用此編輯器, 你可以在此篇文章任意編輯。當你完成了一篇文章的寫作, 在上方工具欄找到 文章匯出 ,生成一個.md檔案或者.html檔案進行本地儲存。

匯入

如果你想載入一篇你寫過的.md檔案,在上方工具欄可以選擇匯入功能進行對應副檔名的檔案匯入,
繼續你的創作。


  1. mermaid語法說明 ↩︎

  2. 註腳的解釋 ↩︎