5分鐘 NLP ：Hugging Face 主要類和函式介紹 🤗

阿新 • • 發佈：2022-03-04

演算法原理

　　在已知條件中，選取一個條件作為樹根，然後再看是否還需要其他判斷條件，如果需要的話，繼續構建一個分支來判斷第二個條件，以此類推。最終形成的這棵樹上，所有葉子節點都是要輸出的類別資訊，所有非葉子節點都是特徵資訊

　　決策樹演算法使用資訊增益的方法來衡量一個特徵和特徵之間的重要性

　　理想狀態下，決策樹上的每一個葉子節點都是一個純粹的分類；實際上，決策樹實現的時候採用貪心演算法，來尋找一個最近的最優解

優點

1.非常直觀，可解釋極強

2.預測速度比較快

3.既可以處理離散值，也可以處理連續值，還可以處理缺失值

缺點

1.容易過擬合

2.需要處理樣本不均衡的問題

3.樣本的變化會引發樹結構的鉅變

由於容易過擬合，所以會剪枝，一般用後剪枝

預剪枝：在決策樹構建之初就設定一個閾值，當分裂節點的熵閾值小於設定值的時候就不再進行分裂

後剪枝：在決策樹已經構建完成以後，再根據設定的條件來判斷是否要合併一些中間節點，使用葉子節點來代替

# -*- coding: utf-8 -*-
"""
Created on Tue Mar  8 15:19:05 2022

@author: 鄒凡
"""

#決策樹
from sklearn import datasets #sklearn的資料集
from sklearn.tree import DecisionTreeClassifier #引入決策樹演算法包 

import numpy as np #矩形運算庫numpy

np.random.seed(0)
#設定隨機種子，不設定的話預設是按系統時間作為引數，設定後可以保證我們每次產生的隨機數是一樣的

iris = datasets.load_iris() #獲取鳶尾花資料集
iris_x = iris.data #資料部分
iris_y = iris.target #類別部分

#從150條資料中選取140條作為訓練集，10條作為測試集。permutation接收一個數作為引數（這裡為資料集長度150），
#產生一個0-149亂序一維陣列
indices = np.random.permutation(len(iris_x))
iris_x_train  
= iris_x[indices[:-10]]  #訓練集資料
iris_y_train = iris_y[indices[:-10]]  #訓練集標籤
iris_x_test = iris_x[indices[-10:]]   #測試集資料
iris_y_test = iris_y[indices[-10:]]   #測試集資料

#設定樹的最大深度為4
clf = DecisionTreeClassifier(max_depth=4)

#呼叫該物件的訓練方法，主要接收兩個引數：訓練資料集及其類別標籤
clf.fit(iris_x_train,iris_y_train)

#引入圖畫相關的包
from IPython.display import Image
from sklearn import tree

#dot是一個程式化生成流程圖的簡單語言
import pydotplus
dot_data = tree.export_graphviz(clf,out_file=None,
                                feature_names=iris.feature_names,
                                class_names=iris.target_names,
                                filled=True,rounded=True,
                                special_characters=True)
graph = pydotplus.graph_from_dot_data(dot_data)
Image(graph.create_png())

#對測試結果進行預測

iris_y_predict = clf.predict(iris_x_test)

#呼叫該物件的打分方法，計算出準確率
score = clf.score(iris_x_test,iris_y_test,sample_weight=None)

#輸出測試結果
print('iris_y_predict=')
print(iris_y_predict)

#輸出原始測試資料集的正確標籤，以方便對比
print('iris_y_test=')
print(iris_y_test)

#輸出準確率計算結果
print('Accuracy:',score)

5分鐘 NLP ：Hugging Face 主要類和函式介紹 🤗

主要包括Pipeline, Datasets, Metrics, and AutoClasses HuggingFace是一個非常流行的 NLP 庫。本文包含其主要類和函式的概述以及一些程式碼示例。可以作為該庫的一個入門教程。

5分鐘NLP：從 Bag of Words 到 Transformer 的時間年表總結

本文不是 NLP 研究的完整列表，因為太多了無法總結的這麼完整！但是本文對影響NLP研究的一些重要的模型進行總結，並儘量讓它簡約而不是簡單，如果你剛剛進入NLP領域，本文可以作為深入研究該領域的起點。

5分鐘NLP：使用 HuggingFace 微調BERT 並使用 TensorBoard 視覺化

上篇文章我們已經介紹了Hugging Face的主要類，在本文中將介紹如何使用Hugging Face進行BERT的微調進行評論的分類。其中包含：AutoTokenizer、AutoModel、Trainer、TensorBoard、資料集和指標的使用方法。

5分鐘NLP：HuggingFace 內建資料集的使用教程

對於NLP 愛好者來說HuggingFace肯定不會陌生，因為現在幾乎一提到NLP就會有HuggingFace的名字出現，HuggingFace為NLP任務提供了維護了一系列開源庫的應用和實現，雖然效率不是最高的，但是它為我們入門和學習提供了非

5 分鐘讀懂Python 中的 Hook 鉤子函式

1. 什麼是Hook 經常會聽到鉤子函式(hook function)這個概念，最近在看目標檢測開源框架mmdetection，裡面也出現大量Hook的程式設計方式，那到底什麼是hook？hook的作用是什麼？

微軟 Surface Laptop 5 配置曝光：可選 R7 6980U 和 i7-1280P，120Hz 屏

2 月 15 日訊息，據 mylaptopguide 網站報道，“WindowsPrime”現已曝光了即將推出的 Surface Laptop 5 的技術規格表。如上所示，微軟 Surface Laptop 5 可選 13.5 英寸和 15 英寸螢幕，2K 級解析度，120Hz 重新整理

Python機器學習的練習七：K-Means聚類和主成分分析

這部分練習涵蓋兩個吸引人的話題：K-Means聚類和主成分分析（PCA），K-Means和PCA都是無監督學習技術的例子，無監督學習問題沒有為我們提供任何標籤或者目標去學習做出預測，所以無監督演算法試圖從資料本身中學習一

DX12龍書 02 - DirectXMath 庫中與向量有關的類和函式

0x00 需要用到的標頭檔案 #include <DirectXMath> #include <DirectXPackedVector.h> using namespace DirectX;

python呼叫另一個.py檔案中的類和函式

原部落格地址：https://www.cnblogs.com/AmyHu/p/10654500.html 在同一資料夾下呼叫 1.呼叫函式

CDH GC 持續時間 Garbage Collection 上的平均時間是每分鐘 5 分鐘。警告閾值：30.00%

GC 持續時間 Garbage Collection 上的平均時間是每分鐘 5 分鐘。警告閾值：30.00%。

WebSocket協議：5分鐘從入門到精通

一、內容概覽 WebSocket的出現，使得瀏覽器具備了實時雙向通訊的能力。本文由淺入深，介紹了WebSocket如何建立連線、交換資料的細節，以及資料幀的格式。此外，還簡要介紹了針對WebSocket的安全攻擊，以及協議是如

案例：5分鐘自動跳轉頁面監聽單擊事件倒計時跳轉

技術標籤：JavaScriptjavascript 案例：5分鐘自動跳轉頁面點選跳轉頁面和自動跳轉頁面

5分鐘看懂系列：Python 執行緒池原理及實現

概述傳統多執行緒方案會使用“即時建立，即時銷燬”的策略。儘管與建立程序相比，建立執行緒的時間已經大大的縮短，但是如果提交給執行緒的任務是執行時間較短，而且執行次數極其頻繁，那麼伺服器將處於不停的建立

JUC（5）：常用的輔助類

技術標籤：JUC併發程式設計多執行緒java併發程式設計 Callable Callable學習三個常用的輔助類

5 分鐘銷量突破 30 萬臺，Redmi K40 系列下週一再次開售：瘋狂備貨中

3月4日訊息今日 0 點，RedmiK40 系列正式開售，搭載雙旗艦驍龍 870 和 888，售價 1999 元起。Redmi 官方資料顯示，K40 首銷 5 分鐘銷量突破 30 萬臺。

《萬智牌：傳奇》5分鐘演示無冬OL開發商打造

大型多人線上動作RPG遊戲《萬智牌：傳奇》即將於3月23日在Epic商城展開測試，近日IGN帶來了本作的5分鐘演示視訊，視訊來自遊戲的Beta版。本作由曾打造過《無冬之夜OL》的完美旗下美國工作室Cryptic

首銷 5 分鐘破 5 億，一加 9/Pro 今天上午 10 點再開售：驍龍 888 + 哈蘇手機影像

4月1日訊息一加 9 和一加 9Pro 於 3 月 24 日正式釋出，3 月 30 日，一加 9 系列正式首銷，開售後僅 10 秒全網銷售額破 3 億，5 分鐘破 5 億。一加手機表示，4 月 1 日上午 10 點再次開售。

全球首個活體機器人再升級：5 分鐘自愈嚴重傷口，具備 “記憶”功能

據外媒 Tech Xplore 報道，來自美國塔弗茨大學（Tufts University）和佛蒙特大學（University of Vermont，UVM）的研發團隊成功開發了第二代微型生物機器人 “Xenobots”，同樣基於非洲爪蟾細胞構建。

《寶可夢：大集結》開場CG和5分鐘上手視訊公開

團隊策略免費對戰遊戲《寶可夢：大集結》開場CG和5分鐘上手視訊公開，中文字幕，本作將於7月登陸Switch，9月上線手機端。

2021 年全國電競酒店將達 1.5 萬家：主要價位 250 元/間夜，使用者最愛玩《英雄聯盟》

7 月 16 日訊息，同程旅行釋出了《中國電競酒店市場研究報告 2021》（下稱《報告》），對國內電競酒店市場的發展現狀及消費趨勢等進行了系統分析。

5分鐘 NLP ：Hugging Face 主要類和函式介紹 🤗

演算法原理

優點

缺點

相關推薦