application：bs4+requests對網頁資料進行解析

阿新 • • 發佈：2020-10-13

邏輯過程：

1.通過requests對網頁進行爬取，返回網頁html

2.通過bs4對網頁資料進行解析，返回列表資料

3.格式化輸出資料

函數語言程式設計：

定義獲取html資料函式，判斷響應情況，返回網頁resopense.text

定義解析函式：通過對資料函式返回內容進行解析，返回解析後的資料

定義展示函式：列印輸出函式

定義執行函式：呼叫其他函式進行執行

亮點：

將所有資料解析放入一個列表中，在展示時，通過設定長度遍歷解析資料所在列表，進行控制讀取資料

問題及相關需要注意點：

soup.find('標籤名').children：需要注意這裡是否成功get了網頁text，未成功可能會報錯

soup.標籤.string:當標籤中有多個子標籤時，會返回None，推薦使用soup.標籤.text

https://blog.csdn.net/lin252931/article/details/105403723

python程式碼實現：

由於本地不好使用爬蟲，因此通過open讀取網頁的形式進行爬取

#中國大學排名定向爬蟲
import requests
from bs4 import BeautifulSoup
import bs4
def getHtmltext(url):
    try:
        res=requests.get(url,timeout=30)
        res.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return " "
def open_html(name):
    with open(name,'rb')as f:
        html=f.read()
    
    return html

def fillUnivList(urlist,html):
    #提取資料
    soup=BeautifulSoup(html,'html.parser')
    for tr  in soup.tbody.children:
        #獲取tbody標籤所有子節點tr標籤
        if isinstance(tr,bs4.element.Tag):
            #判斷獲得所有滿足條件的標籤
            
            tds=tr('td')
            
            #快速獲取tr標籤中的所有tds標籤
            urlist.append([tds[0].string,tds[1].text,tds[2].text])
           
#格式化輸出比較常用print函式的formate格式化字串        

def  printUnivlist(urlist,num):
    print("{0}\t{1}\t{2}".format('排名','學校','地區'))
    for i in  range(num):
        u=urlist[i]
        print("{0}\t{1}\t{2}".format(u[0],u[1],u[2]))
   

def main():
    uinfo=[]
    #url='view-source:http://www.shanghairanking.cn/rankings/bcur/2020'
    #html=getHtmltext(url)
    html=open_html('大學排名.html')
    fillUnivList(uinfo,html)
    
    printUnivlist(uinfo,20)#20 univs
main()

application：bs4+requests對網頁資料進行解析

邏輯過程： 1.通過requests對網頁進行爬取，返回網頁html 2.通過bs4對網頁資料進行解析，返回列表資料

利用OpenCV中對影象資料進行64F和8U轉換的方式

在OpenCV中很多對資料的運算都需要轉換為64F型別，比如伽瑪變換，這個很明顯要求冪的底數是double型別~

Vue表格中對某個資料進行簡單處理

Vue表格中對某個資料進行簡單處理在很多的場景中，我們後端從資料庫拿到的資料需要進行一些處理再展示到前端上，比如本文舉例的論文查重系統中的重複率這一列，該列的資料在資料庫是小數形式存在，前端需要展示的是

SpringBoot結合JSR303對前端資料進行校驗的示例程式碼

一、校驗分類資料的校驗一般分為**前端校驗、後端校驗** 二、前端校驗前端校驗是最為明顯的，先說一下：

用自定義的form表單對jqgrid資料進行檢索查詢

資料如下：http://stackoverflow.com/questions/5819071/jqgrid-custom-form-to-search-data-select-box-problem

Python對商店資料進行lstm和xgboost銷售量時間序列建模預測分析

原文連結：http://tecdat.cn/?p=17748 在資料科學學習之旅中，我經常處理日常工作中的時間序列資料集，並據此做出預測。

使用機器學習和Python對約會資料進行排序

作者|Marco Santos 編譯|Flin 來源|towardsdatascience 在無休止地瀏覽成百上千個交友檔案，卻沒有一個與之匹配之後，人們可能會開始懷疑這些檔案是如何在手機上出現的。所有這些配置檔案都不是他們要找的型別。他們

EM 演算法-對鳶尾花資料進行聚類

公號：碼農充電站pro 主頁：https://codeshellme.github.io 之前介紹過K 均值演算法，它是一種聚類演算法。今天介紹EM 演算法，它也是聚類演算法，但比K 均值演算法更加靈活強大。

專案：利用adaboost對Employee滿意度進行分類

技術標籤：python機器學習資料分析演算法專案介紹：利用adaboost對Employee滿意度進行分類

利用transforms Dataset DataLoader對影象資料進行處理並構建自己的資料集

技術標籤：python機器學習計算機視覺深度學習pytorch 1. torchvision.transforms 在CV任務中，可以用此對影象進行預處理，資料增強等操作

使用空間校正對地圖資料進行配準

1. 拿到了一份北京54座標的地圖資料，直接在ArcGIS中進行座標轉換，效果不好。

A_05 效能調優：採用BenchmarkDotNet對c#程式碼進行基準測試，

1、BenchmarkDotNet BenchmarkDotNet可幫助將方法轉換為基準、跟蹤其效能並共享可重複的測量實驗。簡而言之，採用BenchmarkDotNet可以對方法或者程式碼塊進行基準測試，可以對程式碼進行調優，並且對程式碼進行侵入

Python對系統資料進行採集監控——psutil

大家好，我是辰哥～今天給大家介紹一個可以獲取當前系統資訊的庫——psutil

用Python對Excel資料進行分列處理

split用法以下例項展示了 split() 函式的使用方法： #!/usr/bin/python3 str = \"this is string example....wow!!!\"print (str.split( )) # 以空格為分隔符print (str.split(\'i\',1)) # 以 i 為分隔符print (st