1. 程式人生 > >8.5 Python機器學習--微博聚類和音樂分類理論記錄

8.5 Python機器學習--微博聚類和音樂分類理論記錄

Python機器學習:隆重推出scikit-learn機器學習庫Scikit-Learn是基於python的機器學習模組Scikit-Learn中的機器學習模型非常豐富,包括SVM,決策樹, GBDT,KNN等等,可以根據問題的型別選擇合適的模型Scikit-Learn的安裝需要numpy,scipy,matplotlib等模組微博聚類:資料集(微博資料)演算法使用(scikit-learn中的kmeans)期望結果(相似微博聚到同一類)額外支援模組(jieba中文分詞庫)案例流程:一行行讀入原始微博讀的同時進行分詞並存入語料庫使用sklearn包中feature_extraction的方法計算出每條微博每個詞 中的tf-idf值將計算出的微博向量矩陣帶入到演算法中去聚類將聚類結果和原始微博資料進行整合存入一個結果檔案音樂分類:資料集(音樂資料)演算法使用(scikit learn中的logistic regression(邏輯迴歸))期望結果(輸入一首歌,可以對輸入的歌曲進行分類)額外支援模組(安裝dateutil-->six-->pyparsing-->pytz-->matplotlib)案例流程:["classical", "jazz", "country", "pop", "rock", "metal"]通過傅立葉變換將以上6類裡面所有原始wav格式音樂檔案轉換為 特徵,並取前1000個特徵,存入檔案以便後續訓練使用讀入以上6類特徵向量資料作為訓練集使用sklearn包中LogisticRegression的fit方法計算出分類模型讀入黑豹樂隊歌曲”無地自容”並進行傅立葉變換同樣取前1000維 作為特徵向量呼叫模型的predict方法對音樂進行分類,結果分為rock即搖滾類