機器學習常用sklearn庫
Sklearn.model_selection(模型選擇)
Cross_val_score:交叉驗證
Train_test_split:資料切割
GridsearchCV:網格搜尋
Sklearn.metrics(覆蓋了分類任務中大部分常用驗證指標)
Confusion_matrix(y_test,y_predict):混淆矩陣
Classification_report(y_test,y_predict):分類報告
Precision_score(test_y,prey):精確率
recall_score(test_y,prey):召回率
F1_score(test_y,prey):F1值
Roc_auc_score(test_y,prey):AUC值
Roc_curve(test_y,prepro[:,1]):ROC曲線引數
Mean_squared_error:均方差
R2_score:R2決定係數
Sklearn.tree(決策樹)
DecisionTreeClassifier:分類決策樹
DecisionTreeRegression:迴歸決策樹
Export_graphviz():生成決策樹圖片
export_graphviz(best_dt,'best_dt.dot')
os.system('dot -Tjpg best_dt.dot -o 1604C.jpg')
Sklearn.decomposition(分解降維)
PCA:降維
explained_variance_ratio_ :每一行對應的等級數集
TruncatedSVD:文字降維
Sklearn.cluster(聚類)
Kmeans:K均值
AgglomerativeClustering:層次聚類
DBSCAN:密度聚類
Sklearn.linear_model(線性迴歸)
Lasson:L1正則化
ridge:嶺迴歸L2正則化
LinearRegression:線性迴歸
Sklearn.ensemble(整合演算法
RandomForestClassifier:隨機森林
ExtraTreesClassifier:極限隨機樹
AdaBoostClassifier:Adaboost演算法(弱學習器)
GradientBoostingClassifier:GBDT(梯度提升迴歸樹)演算法
Sklearn.neighbors(鄰近)
KNeighborsClassifier:KNN演算法
Sklearn.svm
SVC:支援向量機
Sklearn.naive_bayes(樸素貝葉斯演算法)
GaussionNB:高斯樸素貝葉斯
MultionmialNB:多項式樸素貝葉斯
BernoulliNB:伯努利樸素貝葉斯(分詞)
Sklearn.proprecessing(資料預處理)
oneHotEncoder:獨熱編碼
MinMaxscaler:線性歸一化
StandardScaler:標準差歸一化
LabelEncoder:數值標準化(類別特徵轉數值特徵)
polynomialFeatures:多項式
Sklearn.feature_extraction.text(特徵文字抽取)
CountVectorizer:詞向量化
Sklearn.pipeline:管道
Pipeline:管道
Jieba
analyse:文字分析
Analyse.extract_tags 方法,提取排名靠前的關鍵詞
Posseg:詞性
Posseg.lcut() 方法,詞性標註
Gensim
Corpora:全集
Corpora.Dictionary() 方法,構建詞典
Models:模型
Models.Ldamodel() 方法,建立LDA主題模型,生成主題
From sqlalchemy import create_engine 連線mysql資料庫
create_engine("mysql+pymysql://root:[email protected]t:3306/pysql")
from wordcloud import WordCloud : 雲詞圖
From PIL import Image 讀取圖片
wordcloud=WordCloud(font_path="simhei.ttf",background_color="white",max_font_size=80,mask=image)