爬取百度照片
這裡寫自定義目錄標題
- 目標url:https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&f=3&oq=%E5%A4%8F%E7%9B%AE&rsp=1
- 轉為翻頁式:https://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&f=3&oq=%E5%A4%8F%E7%9B%AE&rsp=1 (第一頁)
- https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&pn=20&gsm=3c&ct=&ic=0&lm=-1&width=0&height=0 (第二頁)
- https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&pn=60&gsm=64&ct=&ic=0&lm=-1&width=0&height=0 (第四頁)
- 規律:'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + keyword + '&pn=' + page page = (i-1)*20
- 請求網頁,獲取網頁原始碼
- 尋找圖片url
- 儲存圖片
- 請求網頁,獲取網頁原始碼
- 獲取圖片資訊
- 儲存圖片
- 歡迎使用Markdown編輯器
目標url:https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&f=3&oq=%E5%A4%8F%E7%9B%AE&rsp=1
轉為翻頁式:https://image.baidu.com/search/flip?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=index&fr=&hs=0&xthttps=111111&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&f=3&oq=%E5%A4%8F%E7%9B%AE&rsp=1 (第一頁)
https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&pn=20&gsm=3c&ct=&ic=0&lm=-1&width=0&height=0 (第二頁)
#https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&pn=40&gsm=50&ct=&ic=0&lm=-1&width=0&height=0 (第三頁)
https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%A4%8F%E7%9B%AE%E5%8F%8B%E4%BA%BA%E5%B8%90%E5%A4%B4%E5%83%8F&pn=60&gsm=64&ct=&ic=0&lm=-1&width=0&height=0 (第四頁)
規律:‘https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=’ + keyword + ‘&pn=’ + page page = (i-1)*20
‘’’
用正則表示式爬取百度照片
‘’’
請求網頁,獲取網頁原始碼
import requests
def get_source(url):
req = requests.get(url,headers=headers)
req.encoding = ‘utf-8’
source = req.text
return source
尋找圖片url
import re
def get_img(source):
img = re.findall(’“objURL”:"(.*?)"’,source)
print(img)
return img
儲存圖片
def save_img(img):
for each_img in img:
name = each_img[-10]
name = re.sub(’/’,’’,name) # 防止圖片命名出現/,儲存失敗
end = re.search(r’(.jpg|.png|.jpeg|.gif)$’,name) # 處理圖片末尾檔案格式
if end == None:
name = name + ‘.jpg’
with open('img/'+name,'wb') as f:
try:
r = requests.get(each_img,headers=headers)
except Exception as e:
print(e)
f.write(r.content)
import urllib.parse
import os
if name == ‘main’:
os.mkdir(‘img’)
headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36’}
keyword = input(‘請輸入查詢照片關鍵詞:’)
keyword = urllib.parse.quote(keyword)
page_start = int(input(‘請輸入查詢初始頁碼:’))
page_end = int(input(‘請輸入查詢末端頁碼:’))
# print(keyword)
for i in range(page_start,page_end+1):
page = str((i-1)*50)
url = ‘https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=’+ keyword +’&pn=’+ page
print(url)
source = get_source(url)
img = get_img(source)
save_img(img)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
‘’’
用xpath爬取百度照片
‘’’
請求網頁,獲取網頁原始碼
import requests
def get_source(url):
response = requests.get(url,headers=headers)
# print(response) # <Response [200]>
response.encoding = ‘utf-8’
return response.text
獲取圖片資訊
import lxml
from lxml import etree
def get_img(source):
html_element = etree.HTML(source)
img = html_element.xpath(’//div/ul/li/a/img/@src’)
print(img)
return img
儲存圖片
import re
def save_img(img):
for each_img in img:
name = each_img[-10]
name = re.sub(’/’,’’,name) # 防止圖片命名出現/,儲存失敗
end = re.search(r’(.jpg|.png|.jpeg|.gif)$’,name) # 處理圖片末尾檔案格式
if end == None:
name = name + ‘.jpg’
with open('img1/'+name,'wb') as f:
try:
r = requests.get(each_img,headers=headers)
except Exception as e:
print(e)
f.write(r.content)
import urllib.parse
import os
if name == ‘main’:
os.mkdir(‘img1’)
headers = {‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36’}
keyword = input(‘請輸入查詢照片關鍵詞:’)
keyword = urllib.parse.quote(keyword)
page_start = int(input(‘請輸入查詢初始頁碼:’))
page_end = int(input(‘請輸入查詢末端頁碼:’))
# print(keyword)
for i in range(page_start,page_end+1):
page = str((i-1)*50)
url = ‘https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=’+ keyword +’&pn=’+ page
print(url)
source = get_source(url)
img = get_img(source)
save_img(img)
歡迎使用Markdown編輯器
你好! 這是你第一次使用 Markdown編輯器 所展示的歡迎頁。如果你想學習如何使用Markdown編輯器, 可以仔細閱讀這篇文章,瞭解一下Markdown的基本語法知識。
新的改變
我們對Markdown編輯器進行了一些功能拓展與語法支援,除了標準的Markdown編輯器功能,我們增加了如下幾點新功能,幫助你用它寫部落格:
- 全新的介面設計 ,將會帶來全新的寫作體驗;
- 在創作中心設定你喜愛的程式碼高亮樣式,Markdown 將程式碼片顯示選擇的高亮樣式 進行展示;
- 增加了 圖片拖拽 功能,你可以將本地的圖片直接拖拽到編輯區域直接展示;
- 全新的 KaTeX數學公式 語法;
- 增加了支援甘特圖的mermaid語法1 功能;
- 增加了 多螢幕編輯 Markdown文章功能;
- 增加了 焦點寫作模式、預覽模式、簡潔寫作模式、左右區域同步滾輪設定 等功能,功能按鈕位於編輯區域與預覽區域中間;
- 增加了 檢查列表 功能。
功能快捷鍵
撤銷:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜體:Ctrl/Command + I
標題:Ctrl/Command + Shift + H
無序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
檢查列表:Ctrl/Command + Shift + C
插入程式碼:Ctrl/Command + Shift + K
插入連結:Ctrl/Command + Shift + L
插入圖片:Ctrl/Command + Shift + G
查詢:Ctrl/Command + F
替換:Ctrl/Command + G
合理的建立標題,有助於目錄的生成
直接輸入1次#,並按下space後,將生成1級標題。
輸入2次#,並按下space後,將生成2級標題。
以此類推,我們支援6級標題。有助於使用TOC
語法後生成一個完美的目錄。
如何改變文字的樣式
強調文字 強調文字
加粗文字 加粗文字
標記文字
刪除文字
引用文字
H2O is是液體。
210 運算結果是 1024.
插入連結與圖片
連結: link.
圖片:
帶尺寸的圖片:
居中的圖片:
居中並且帶尺寸的圖片:
當然,我們為了讓使用者更加便捷,我們增加了圖片拖拽功能。
如何插入一段漂亮的程式碼片
去部落格設定頁面,選擇一款你喜歡的程式碼片高亮樣式,下面展示同樣高亮的 程式碼片
.
// An highlighted block
var foo = 'bar';
生成一個適合你的列表
- 專案
- 專案
- 專案
- 專案
- 專案1
- 專案2
- 專案3
- 計劃任務
- 完成任務
建立一個表格
一個簡單的表格是這麼建立的:
專案 | Value |
---|---|
電腦 | $1600 |
手機 | $12 |
導管 | $1 |
設定內容居中、居左、居右
使用:---------:
居中
使用:----------
居左
使用----------:
居右
第一列 | 第二列 | 第三列 |
---|---|---|
第一列文字居中 | 第二列文字居右 | 第三列文字居左 |
SmartyPants
SmartyPants將ASCII標點字元轉換為“智慧”印刷標點HTML實體。例如:
TYPE | ASCII | HTML |
---|---|---|
Single backticks | 'Isn't this fun?' | ‘Isn’t this fun?’ |
Quotes | "Isn't this fun?" | “Isn’t this fun?” |
Dashes | -- is en-dash, --- is em-dash | – is en-dash, — is em-dash |
建立一個自定義列表
-
Markdown
- Text-to- HTML conversion tool Authors
- John
- Luke
如何建立一個註腳
一個具有註腳的文字。2
註釋也是必不可少的
Markdown將文字轉換為 HTML。
KaTeX數學公式
您可以使用渲染LaTeX數學表示式 KaTeX:
Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n−1)!∀n∈N 是通過尤拉積分
Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞tz−1e−tdt.
你可以找到更多關於的資訊 LaTeX 數學表示式here.
新的甘特圖功能,豐富你的文章
- 關於 甘特圖 語法,參考 這兒,
UML 圖表
可以使用UML圖表進行渲染。 Mermaid. 例如下面產生的一個序列圖:
這將產生一個流程圖。:
- 關於 Mermaid 語法,參考 這兒,
FLowchart流程圖
我們依舊會支援flowchart的流程圖:
- 關於 Flowchart流程圖 語法,參考 這兒.
匯出與匯入
匯出
如果你想嘗試使用此編輯器, 你可以在此篇文章任意編輯。當你完成了一篇文章的寫作, 在上方工具欄找到 文章匯出 ,生成一個.md檔案或者.html檔案進行本地儲存。
匯入
如果你想載入一篇你寫過的.md檔案,在上方工具欄可以選擇匯入功能進行對應副檔名的檔案匯入,
繼續你的創作。
註腳的解釋 ↩︎