SpringBoot+Swagger匯出HTML、MarkDown等離線檔案

阿新 • • 發佈：2020-12-19

一、介紹

Beautiful Soup 是一個可以從HTML或XML檔案中提取資料的Python庫.它能夠通過你喜歡的轉換器實現慣用的文件導航,查詢,修改文件的方式.Beautiful Soup會幫你節省數小時甚至數天的工作時間.目前已經開發到4.0以上了

baautifulsoup常用的解析器如下：

解析器	使用方法	優勢	劣勢
Python標準庫	`BeautifulSoup(markup,"html.parser")`	Python的內建標準庫執行速度適中文件容錯能力強	Python 2.7.3 or 3.2.2)前的版本中文件容錯能力差
lxml HTML 解析器	`BeautifulSoup(markup,"lxml")`	速度快文件容錯能力強	需要安裝C語言庫
lxml XML 解析器	`BeautifulSoup(markup,["lxml","xml"])` `BeautifulSoup(markup,"xml")`	速度快唯一支援XML的解析器	需要安裝C語言庫
html5lib	`BeautifulSoup(markup,"html5lib")`	最好的容錯性以瀏覽器的方式解析文件生成HTML5格式的文件	速度慢不依賴外部擴充套件

二、BeautifulSoup的使用

1、遍歷文件樹

遍歷文件樹：即直接通過標籤名字選擇，特點是選擇速度快，但如果存在多個相同的標籤則只返回第一個

# 1、用法：
from bs4 import BeautifulSoup
soup=BeautifulSoup(html_doc,'lxml')
head=soup.head
# print(head)

# 2、獲取標籤的名字： 重點
p = soup.p
print(p.name) #>: p

# 3、獲取標籤的屬性  重點
p = soup.body.p # 獲取body下的p標籤
print(p.attrs) # 結果：{'id': 'my_p', 'class': ['title']}
# 獲取p標籤內屬性值的三種方法
p.attrs.get('class')
p.get('class')
p['class']

# 4、獲取標籤的內容  重點
'''
text: 取所選標籤內下所有的文字內容
string: 若所選標籤下的文字只有一個時，取到，否則為None
strings: 拿到一個生成器物件，取下所選標籤下的所有文字內容
stripped_strings: 是去掉空白
get_text():是用來調取內部屬性text的方法。
區別：string獲取的是該標籤的直系內容，無法獲取該標籤子標籤的直系內容，
     而text/get_text()可以
注意：如果選標籤下包含多個節點，則string輸出結果是None,比如：body下有多個p節點
'''
p=soup.body.p
print(p.text)
print(p.string)
print(p.strings)  #結果：<generator object _all_strings at 0x0000026619237BF8>
for line in p.stripped_strings:
    print(line)
print(p.get_text())

# 5、巢狀選擇    重點
s = soup.body.a
print(s.get('id'))

# 6、子節點、子孫節點
print(soup.p.contents) #取出p下的所有子節點
print(soup.p.children) #取出包含p標籤下所有子節點,返回一個迭代器
print(list(soup.p.children))

# 7、父節點、祖先節點
print(soup.a.parent) #獲取a標籤的父節點(只有一個)
print(soup.p.parent) #獲取p標籤的父節點
print(soup.a.parents) #返回生成器，找到a標籤所有的祖先節點，父親的父親，父親的父親的父親...
print(list(soup.a.parents))#找到a標籤所有的祖先節點，父親的父親，父親的父親的父親...

# 8、兄弟節點
print(soup.a.next_sibling) #下一個兄弟
print(soup.a.previous_sibling) #上一個兄弟

print(list(soup.a.next_siblings)) #下面的兄弟們=>生成器物件
print(list(soup.a.previous_siblings)) #上面的兄弟們=>生成器物件

2、搜尋文件樹

(1)find()和find_all()

'''
 find_all(name , attrs , recursive , text , **kwargs)
 用處：找到所有符合要求的標籤
 引數：name是標籤名，attrs是一個字典引數，用來搜尋包含特殊屬性的標籤，比如：data-*型別的屬性
 recursive：True，則會搜尋當前標籤的子孫節點，如果是False，則只搜尋當前標籤的子節點。
 text: 可以是字元，列表，True,正則
 注意：按類名查詢的時候，關鍵字是class_
'''
soup.find_all('a') #
soup.find(['a','p']) #找到所有a和p標籤
soup.find_all('a',limit=2) #找到前兩個a標籤
soup.find_all('a',attrs={'data-fooo':'value'})
soup.find_all('p',attrs={'class':'title'})
soup.find_all('p',recursive=False)
soup.find_all('a',text='Lacie')
soup.find_all(text='Lacie')
soup.find_all(class_='title')
'''
 find_(name , attrs , recursive , text , **kwargs)
 用處：找到第一個符合要求的標籤
 引數：name是標籤名，attrs是一個字典引數，用來搜尋包含特殊屬性的標籤，比如：data-*型別的屬性
 recursive：True，則會搜尋當前標籤的子孫節點，如果是False，則只搜尋當前標籤的子節點。
 text: 可以是字元，列表，True,正則
 注意：按類名查詢的時候，關鍵字是class_
'''
print(soup.find('a')) #尋找a標籤
print(soup.find('a',id='link3'))  #尋找id是link3的a標籤
print(soup.find('a',class_='sister2'))
print(soup.find('a',title='xxx')) #尋找title是xxx的a標籤

'''
區別：find_all() 方法的返回結果是值包含一個元素的列表,而 find() 方法直接返回結果.
     find_all() 方法沒有找到目標是返回空列表, find() 方法找不到目標時,返回 None 
'''

(2)五種過濾器

'''
五種過濾器：字串、正則表示式、列表、True、方法
'''
# 1、字串：也就是標籤名
soup.find_all('b')
# 2、正則表示式
import re
soup.find_all(re.compile('^b')) #找b開頭的標籤
# 3、列表
soup.find_all(['a','p'])
# 4、True: 匹配任何值
soup.find_all(True)  #查詢所有標籤，但是不會返回字串節點
# 5、方法：可以是自己定義的方法
def myfunc(tag):
    return tag.has_attr('class') and not tag.has_attr('id')
soup.find_all(myfunc())

(3)css選擇器

'''
css選擇器：返回的是列表
'''
# 1、獲取標籤
print(soup.select('.element'))
print(soup.select('#link3'))
# 2、獲取標籤的屬性
soup.select('#link3')[0].attrs
# 3、獲取標籤的內容
soup.select('#link3')[0].get_text()

三國演義小說爬取案例：

# -*-coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
import lxml
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
}
req=requests.get('http://www.shicimingju.com/book/sanguoyanyi.html',headers=headers)
soup=BeautifulSoup(req.text,'lxml')
li_list=soup.select('.book-mulu > ul > li > a')

for li in li_list:
    url='http://www.shicimingju.com'+li['href']
    title = li.string
    req_detail=requests.get(url,headers=headers)
    soup_detail=BeautifulSoup(req_detail.text,'lxml')
    detail_text=soup_detail.find('div',class_='chapter_content').text
    file_name=title+'.txt'
    with open(file_name,'w',encoding='utf-8') as f:
        f.write(detail_text)
        print(title+'   載入完畢')

爬肯德基餐廳資訊(ajax請求，是post請求，返回的是資料)

# -*-coding:utf-8 -*-
import requests
import json
url='http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx?op=keyword'
headers={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36',
}
# word=input(">>:")
data={
    'cname': '',
    'pid': '',
    'keyword': '普寧',
    'pageIndex': 1,
    'pageSize': 10,
      }
res=requests.post(url,data=data,headers=headers)
print(res.json())

SpringBoot+Swagger匯出HTML、MarkDown等離線檔案

技術標籤：spring Bootswagger2Api匯出前言: 1、兩種方法： 1.1主要步驟： 1.2主要依賴：

將Swagger2文件匯出為HTML或markdown等格式離線閱讀解析

網上有很多《使用swagger2構建API文件》的文章，該文件是一個線上文件，需要使用HTTP訪問。但是在我們日常使用swagger介面文件的時候，有的時候需要介面文件離線訪問，如將文件匯出為html、markdown格式。又或者我們

關於使用eclipse執行html、jsp等檔案時出現404錯誤

使用eclipse執行html、jsp等檔案時出現404錯誤時，可以檢查一下檔案是否放錯了位置。如圖html（也可以是jsp）檔案與WebContent檔案同級，此時檔案就是放錯了位置！！！

django模板中匯入js、css等靜態檔案

開啟settings.py,在底部新增： import os STATIC_URL = \'/static/\' STATICFILES_DIRS = ( os.path.join(os.path.dirname(__file__), \'../static/\').replace(\'\\\\\',\'/\'),

Django模板新增圖片、CSS、JavaScript等靜態檔案

https://docs.djangoproject.com/en/3.1/howto/static-files/ Managing static files (e.g. images, JavaScript, CSS)

將txt、csv等文字檔案匯入Hive

將txt、csv等文字檔案匯入Hive 目錄將txt、csv等文字檔案匯入Hive00.資料在虛擬機器外01.啟動hadoop、hdfs02.將檔案放置在hdfs目錄下03.登入hive並進入指定資料庫04.根據檔案建立表05.執行匯入語句

hadoop、zookeeper、mysql等pid檔案許可權不對無法啟動問題

技術標籤：LinuxMySQLhadooplinuxjavamysqlhadoop資料庫在學習大資料的階段，難免會遇到沒有一步步關閉hdfs、yarn之類就直接關電腦的情況，下次來的時候就會發現，咦，怎麼打不開了，一看報錯是xxx.pid拒絕訪問

js動態新增html標籤和屬性_手動插入meta、script、div、img等標籤

web網頁是由html標籤一層層組成的，js也可以動態新增對應的標籤，比如mate標籤、script標籤、div標籤、img標籤等，動態建立的方法基本都差不多，下面將簡單介紹下如何實現

SpringBoot（六）——檢索、任務、安全等

iwehdio的部落格園：https://www.cnblogs.com/iwehdio/ 1、檢索 ElasticSearch：開源的全文搜尋引擎，是一個分散式搜尋服務，提供Restful API。

springboot +redis 實現點贊、瀏覽、收藏、評論等數量的增減操作

springboot +redis 實現點贊、瀏覽、收藏、評論等數量的增減操作前言第一次寫部落格，記錄一下：

Axure高階教程：做一個能在Axure中引用html、css、js等程式碼的控制元件

今天要講高階一點的教程，如何在Axure中使用html、html5、css、javascript、jQuery、AJAX等程式碼？

HTML的中文是:超文字標記語言是一種用於建立網頁的標準標記語言以下是標題、段落、連線、影象等的表示方法

HTML的主要標籤有: <h1> ~ <h6>定義標題 <p>定義段落 <a>定義連結 <img>定義影象

SpringBoot+Thymeleaf中靜態資源css、js等的引用問題

技術標籤：springcssbootstrapmaven 文章目錄 1、靜態資源的位置1.1、在SpringBoot專案執行的時候，引用靜態資源需要使用Thymeleaf.1.2、靜態資源在沒有配置位置的時候預設是在resources/static目錄中的1.3、

資料庫表結構匯出工具（Excel、Word等）

MySQL表結構匯出Excel、匯出Word 該工具主要用於匯出excel、word，方便快速編寫《資料庫設計文件》，同時可以快速查看錶的結構和相關資訊

使用minio伺服器實現普通檔案、圖片等上傳功能（Springboot/Springcloud）

一、minio伺服器下載安裝，進入官網http://www.minio.org.cn/按自己需求直接下載，我這裡下載windows64的

Springboot進階-JDBC、Druid、Mybatis、Swagger、SpringMVC、Mail

1.Springboot-JDBC Springboot整合JDBC後，引入spring-boot-starter-jdbc，通過JdbcTemplate來操作資料庫。

使用jacob呼叫Windows的com物件，進行word、ppt等轉換成ptf、html(二)

富文字轉pdf : 注意：simsun.ttc 可以百度下載：http://www.pc6.com/softview/SoftView_100415.html

SpringBoot 整合Swagger後提通過http://localhost:8001/swagger-ui.html#/訪問得不到頁面

SpringBoot 整合Swagger後提通過http://localhost:8001/swagger-ui.html#/訪問得不到頁面： spring boot 整合 swagger2步驟：

分庫分表的5大方案，百度、騰訊、阿里等大廠都在用！

資料庫瓶頸不管是IO瓶頸，還是CPU瓶頸，最終都會導致資料庫的活躍連線數增加，進而逼近甚至達到資料庫可承載活躍連線數的閾值。在業務Service來看就是，可用資料庫連線少甚至無連線可用。接下來就可以想象了吧（併發

SpringBoot實現攔截器、過濾器、監聽器過程解析

這篇文章主要介紹了SpringBoot實現攔截器、過濾器、監聽器過程解析,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

SpringBoot+Swagger匯出HTML、MarkDown等離線檔案

一、介紹

二、BeautifulSoup的使用

1、遍歷文件樹

2、搜尋文件樹

相關推薦