機器學習特徵值特徵抽取
阿新 • • 發佈:2018-11-07
根據文字的的特徵值,進行特徵值的抽取
from sklearn.feature_extraction import DictVectorizer from sklearn.feature_extraction.text import CountVectorizer def countvec(): """ 對文字進行特徵值化 """ cv = CountVectorizer() # 把資料返回給data data = cv.fit_transform(["life is short,i like python","life is too long,i dislike python"]) # 列印data的值 print("列印data的值:") print(data) # 統計所有文章中點給錢所有的詞,重複只看做一次 print(cv.get_feature_names()) # 對每篇文章,在詞的列表裡面進行統計每個詞出現的次數,單個字母不進行統計 print("將資料轉換成陣列形式:") print(data.toarray()) return None if __name__ == "__main__": countvec()