P6 文字特徵抽取以及中文問題

阿新 • • 發佈：2020-12-29

http://bilibili.com/video/BV184411Q7Ng?p=6

"""
演示字典的特徵抽取，
DictVectorizer是一個類的名字
"""
from sklearn.feature_extraction import DictVectorizer


def dictvec():
    """
    字典資料抽取
    :return:
    加入引數sparse=False可以把轉換成的資料轉換成陣列
    """
    dict=DictVectorizer(sparse=False) #例項化 sparse=False
    data=dict.fit_transform([{' 
city':'北京','temperature':100},{'city':'上海','temperature':60},{'city':'深圳','temperature':30}])      # 呼叫fit_transform就是把字串資料轉化成特徵,返回的是個data
    print(dict.inverse_transform(data))


    return None


if __name__=="__main__":
    dictvec()

執行結果：

C:\Users\TJ\AppData\Local\Programs\Python\Python37\python.exe D:/qcc/python/mnist/feature_abstract.py
[{'city=北京': 1.0, 'temperature': 100.0}, {'city=上海': 1.0, 'temperature': 60.0}, {'city=深圳': 1.0, 'temperature': 30.0}]

Process finished with exit code 0

"""
演示字典的特徵抽取，
DictVectorizer是一個類的名字
 CountVectorizer是一個類的名字,可以用來例項化一個變數
"""
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer

def dictvec():
    """
    字典資料抽取
    :return:
    加入引數sparse=False可以把轉換成的資料轉換成陣列
     
"""
    dict=DictVectorizer(sparse=False) #例項化 sparse=False
    data=dict.fit_transform([{'city':'北京','temperature':100},{'city':'上海','temperature':60},{'city':'深圳','temperature':30}])      # 呼叫fit_transform就是把字串資料轉化成特徵,返回的是個data
    print(dict.inverse_transform(data))


    return None


def countvec():
    """
    對文字進行特徵值化
    :return:
    """
    cv=CountVectorizer() #例項化一個物件
    data=cv.fit_transform(["life is short,i like python","life is too long,i dislike python"])  #逗號隔開的代表兩篇文章,呼叫方法後有一個返回值
    print(cv.get_feature_names())
    print(data.toarray())

    return None



if __name__=="__main__":
    countvec()

執行結果：

C:\Users\TJ\AppData\Local\Programs\Python\Python37\python.exe D:/qcc/python/mnist/feature_abstract.py
['dislike', 'is', 'life', 'like', 'long', 'python', 'short', 'too']
[[0 1 1 1 0 1 1 0]
[1 1 1 0 1 1 0 1]]

Process finished with exit code 0

註解：

統計兩篇文章中所有單詞，返回一個列表，重複的單詞只統計一次。
執行結果的下面的二維矩陣說明：針對每篇文章，在詞的列表裡面統計每個詞出現的次數。

P6 文字特徵抽取以及中文問題

http://bilibili.com/video/BV184411Q7Ng?p=6 \"\"\" 演示字典的特徵抽取， DictVectorizer是一個類的名字

Day 40：文字特徵抽取，中文特徵值化

技術標籤：學習記錄學習成長學習筆記大資料資料分析python字串機器學習 Python 回憶錄

機器學習進度01（sklearn、字典特徵抽取、文字特徵抽取（CountVectorizer、TfidfVevtorizer）、中文文字特徵抽取）

sklearn資料集 1 scikit-learn資料集API介紹 sklearn.datasets 載入獲取流行資料集 datasets.load_*()

sklearn--文字特徵抽取

技術標籤：python機器學習 #文字特徵抽取 #作用：對文字資料進行特徵值化 from sklearn.feature_extraction.text import CountVectorizer

python機器學習-中文文字特徵提取

#中文分詞 def cut_word(text): text=\" \".join(list(jieba.cut(text))) return text #中文文字的特徵提取

什麼是機器學習的特徵工程？【資料集特徵抽取（字典，文字TF-Idf）、特徵預處理（標準化，歸一化）、特徵降維（低方差，相關係數，PCA）】

2.特徵工程 2.1 資料集 2.1.1 可用資料集 Kaggle網址：https://www.kaggle.com/datasets UCI資料集網址： http://archive.ics.uci.edu/ml/

ajax post下載flask檔案流以及中文檔名問題

ajax post下載檔案後端返回檔案流，flask中可使用 return send_file(檔案路徑) 返回二進位制檔案流，在headers中傳送檔案相關資訊（如檔名）。

Javaweb接收表單資料以及中文亂碼處理

目錄前端表單資料後臺接收資料中文亂碼處理前端表單資料常見的表單項的傳值，如：

lession 1，資料特徵提取，字典特徵提取，文字特徵提取

from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.feature_extraction import DictVectorizer

iOS UITextView設定富文字不能輸入中文問題

專案中我們會經常使用UITextView輸入文字，正常使用比較簡單，但往往設計的妹子會提出調個行間距呀之類的問題，此刻我們就不得不設定富文字來實現這個效果，下面就簡述下我的採坑之路。

深度學習之文字特徵值抽取

技術標籤：Python 首先構建三個字串： str1="疫情之下，全球化的道路將得到更多支援票還是反對票？人類社將更渴求一個相容幷包、相互支撐、分工合作的共生體，還是各自封閉，在保護主義和單邊主義的矯飾中飲

前端學習之如何在文字框中禁用中文輸入法

對於文字框的設定是我們，每一個參加前端培訓學員必須掌握的知識技能，哪們對於文字框的瞭解我們知道多少呢，今天就為大家來介紹一下前端培訓技術種文字框禁用中文輸入法的幾個方法。

文字特徵提取

英文文字特徵提取方法步驟： ①匯入相關API from sklearn.feature_extraction.text import CountVectorizer

js獲取url引數，以及中文亂碼問題

// 兩種獲取方法 function GetQueryString(parameter) { var reg = new RegExp(\"(^|&)\" + parameter + \"=([^&]*)(&|$)\");

CeiT：訓練更快的多層特徵抽取ViT

【GiantPandaCV導語】來自商湯和南洋理工的工作，也是使用卷積來增強模型提出low-level特徵的能力，增強模型獲取區域性性的能力，核心貢獻是LCA模組，可以用於捕獲多層特徵表示。

基於視覺-語義中間綜合屬性特徵的影象中文描述生成演算法論文筆記

1.摘要該文提出了基於多層次選擇性視覺語義屬性特徵的影象中文描述生成演算法。該演算法結合目標檢測和注意力機制,充分考慮了影象高層視覺語義所對應的中文屬性資訊,抽取不同尺度和層次的屬性上下文表示。

Django生成PDF文件顯示網頁上以及PDF中文顯示亂碼的解決方法

專案地址：https://github.com/PythonerKK/django-generate-pdf/tree/master 這個demo實現了通過使用者輸入自己的個人資訊生成一份簡歷pdf，來闡述如何使用Django的HttpResponse生成PDF的文件。

python使用正則表示式去除中文文字多餘空格，保留英文之間空格方法詳解

在pdf轉為文字的時候，經常會多出空格，影響資料觀感，因此需要去掉文字中多餘的空格，而文字中的英文之間的正常空格需要保留，輸入輸出如下：

Element的el-tree控制元件後臺資料結構的生成以及方法的抽取

最近用到了el-tree控制元件，主要是資料的格式，按照官網的資料格式來就可以顯示節點的樹形結構了。

Echarts && 餅圖引導線以及周圍文字位置的改變

我們在官網的demo中看到餅圖的引導線都是直接對接文字的但是需求是要把文字放在引導線上方

P6 文字特徵抽取以及中文問題

相關推薦