NLP自然語言處理

阿新 • • 發佈：2020-11-18

老實來講這課我一頭霧水滿腦袋問號

import numpy as np
from collections import Counter

counttime = 0  

#統計訓練語料:spam 和 ham 各自評論總數，單詞頻率
def seperate(filename):
    hamcnt = Counter() #ham 評論統計字典
    spamcnt = Counter() #spam 評論統計字典
    totalNum = 0 # 郵件的總數
    hamNum = 0 # ham 評論數
    spamNum = 0 # spam 評論數
    global counttime #!!!
    i = 0
    file = open(filename, encoding='gb18030', errors='ignore')
    for line in file: #逐行處理
        i = i + 1
        new = line.split() # 一行郵件，以 ham/spam 標記分開 #預設為所有的空字元，包括空格、換行(\n)、製表符(\t)等。分割次數。預設為 -1, 即分隔所有。
        totalNum = totalNum + 1
        if new[0]=='1': # ham 好的評論數
            hamNum = hamNum + 1
            for word in new[1:]:
                hamcnt[word] += 1 #ham 中詞頻計數
        if new[0]=='0': # spam 評論數
            spamNum = spamNum + 1
            for word in new[1:]:
                spamcnt[word] += 1 #spam 詞頻計數
    if  counttime == 0 :
        print('訓練樣本的總行數：%s' % i)
        print('ham 樣本：%s' % hamNum)
        print('spam 樣本：%s' % spamNum)
        counttime += 1
    return hamcnt, spamcnt, totalNum, hamNum, spamNum


def train(filename, preData):
    hamcnt, spamcnt, totalNum, hamNum, spamNum = seperate(filename) #統計 spam/ham 詞典
    # 計算 spam/ham 各自總詞數
    wordNumerOfham = 0
    for key in hamcnt:
        wordNumerOfham += hamcnt[key]
    wordNumerOfspam = 0
    for key in spamcnt:
        wordNumerOfspam += spamcnt[key]

    # 計算概率 p(spam|total),p(ham|total)
    p1_spam = spamNum / totalNum #ham 先驗概率
    p1_ham = hamNum / totalNum #spam 先驗概率
    hamProbablity = 1
    spamProbability = 1
    

    # 針對測試文字文字計算條件概率
    newPreData = preData.split()
    for word in newPreData: #計算測試語料中每個詞的條件概率
        try: #加 1 平滑
            hamProbablity = hamProbablity * (hamcnt[word] + 1) / (wordNumerOfham + len(hamcnt))
        except: # 文字中沒有該單詞
            hamProbablity = hamProbablity * 1 / (wordNumerOfham + len(hamcnt))
    res1 = hamProbablity * p1_ham #為 ham 類的概率：先驗*條件

    for word in newPreData:
        try:
            spamProbability = spamProbability * (spamcnt[word] + 1) / (wordNumerOfspam + len(spamcnt))
        except:
            spamProbability = spamProbability * (1) / (wordNumerOfspam + len(spamcnt))
    res2 = spamProbability * p1_spam #為 spam 類的概率：先驗*條件

    if res1 == res2:
        print('res1', res1, 'res2', res2)

    if res1 > res2:
        print('好的評論!', 'ham概率:',res1, '     spam概率:', res2)
        return 0
    else:
        print('糟糕評論!', 'ham概率:',res1, '     spam概率:', res2)
        return 1

filename = 'kaggle_training.txt' #訓練語料
for line in open("kaggle_test.txt", encoding='gb18030', errors='ignore'):
    #print(line)
    #line = line.encode()
    res = train(filename, line)
    #print("RES: "+str(res))

不管別的

如何讓部分程式碼只執行一次 counttime在函式外宣告一次在函式內用global表示一下 https://www.cnblogs.com/fendou-999/p/3822028.html
byte string：https://blog.csdn.net/lqzdreamer/article/details/76549256 split：這個地方跟給的區別https://blog.csdn.net/weixin_40283816/article/details/83591582
（忘記我改的啥了最後看到上面有對應的操作：encoding='gb18030', errors='ignore'）
想讓列印輸出的那堆有固定的格式，於是：

https://blog.csdn.net/liuweiyuxiang/article/details/100574386 但是都不可以因為都四捨五入全成0了

NLP自然語言處理

老實來講這課我一頭霧水滿腦袋問號 import numpy as np from collections import Counter counttime = 0

自然語言處理(NLP)——簡介

自然語言處理（NLP Natural Language Processing）是一種專業分析人類語言的人工智慧。就是在機器語⾔和⼈類語言之間溝通的橋梁，以實現人機交流的目的。

python+spaCy進行自然語言處理(NLP)

參考文章：使用 Python+spaCy 進行簡易自然語言處理 spaCy教程學習 - 人工智慧遇見磐創 - 部落格園

自然語言處理nlp小姜機器人(閒聊) nlp_xiaojiang-996station GitHub鑑賞官

Override the entrypoint of an image Introduced in GitLab and GitLab Runner 9.4. Read more about the extended configuration options.

哈工大自然語言處理工具箱之ltp在windows10下的安裝使用教程

ltp是哈工大出品的自然語言處理工具箱,pyltp是python下對ltp(c++)的封裝. 在linux下我們很容易的安裝pyltp,因為各種編譯工具比較方便. 但是在windows下需要安裝vs並且還得做一些配置,因為我服務的人都是在windows下辦

使用scikit-learn進行自然語言處理——文件特徵提取(基於詞袋模型bag-of-words) 計算tf-idf

首先python環境已經安裝了numpy, scipy, sklearn, jieba # coding=utf-8 \"\"\" @desc: \"\"\" from scipy import sparse

自然語言處理1-2: 編輯距離

原文出處：https://algorithms.tutorialhorizon.com/dynamic-programming-edit-distance-problem/ 問題：假設我們現在有兩個字串s1和s2，並且給出如下所示的三個編輯操作，寫出一個演算法，當每次只能使用其中一個編

自然語言處理4-3:語言模型之n-gram模型

n-gram模型 unigram模型：假設每個單詞的出現概率和前面的單詞無關，寫成表示式就是：

自然語言處理4-4：語言模型之模型評估perplexity

perplexity可以用來評估訓練的語言模型的好壞，其實就是下面這個公式 $$perplexity = 2^{-x}\\qquad x表示的是平均的log likelihood，也可以理解為平均的概率啦$$

自然語言處理4-5：語言模型之平滑操作

為什麼需要平滑操作假設有一個預料集我喜歡喝奶茶我喜歡吃巧克力我喜歡健身

自然語言處理「迷惑行為大賞」第二季

作為一名NLPer，"自然語言處理太難了" 成為你的口頭禪了嗎？今天整理了一系列自然語言處理的迷惑行為，和大家一起欣賞

自然語言處理「迷惑行為大賞」，自然語言處理太難難難了！

點選上方“AI遇見機器學習”，選擇“星標”公眾號重磅乾貨，第一時間送達

【學術】計算傳播學：自然語言處理技術的用途和應用潛力

目錄一、社會傳播學研究二、目前社會傳播學存在的挑戰（1）如何高效地收集、整合資料，並進行資訊的提取與利用。

人工智慧-自然語言處理（1）

人工智慧-自然語言處理（1）本章將介紹一些不同的方法，這些方法將我們正在使用的單詞轉換為可操縱和進行計算的向量。

自然語言處理中的Attention機制

Attention機制的理解 Attention機制也就是注意力機制，在自然語言處理中，就是對於一個語言序列的不同的部分給予不同的注意力，在數學上一般表現為權重，也就是對一個語言序列的各個元素加權。

W06 - 999、基於自然語言處理篩選簡歷

初學耗時：999h 注：CSDN手機端暫不支援章節內鏈跳轉，但外鏈可用，更好體驗還請上電腦端。

清華大學劉知遠：知識指導的自然語言處理

“語言是一塊琥珀，許多珍貴和絕妙的思想一直安全地儲存在裡面。”從人類誕生伊始，自然語言就承載著世世代代的智慧，積聚了無窮無盡的知識。這片深蘊寶藏的沃土吸引了眾多滿懷好奇的AI研究者，投入其中耕

【直播回放】新手如何入門並學習自然語言處理

大家好，歡迎來到我們的付費視訊直播回放欄目，在這個專欄中我們會每一次針對某一個主題，做1～2個小時左右的直播，包含PPT的講解與微信群的答疑交流。

自然語言處理（1）：Transformer模型實現原理詳解

劃時代的產物在2018年，谷歌推出了BERT模型之後，該模型在11項NLP任務中奪得STOA結果，引爆了整個NLP界。而BERT取得成功的一個關鍵因素是Transformer的強大作用。谷歌的Transformer模型最早是用於機器翻譯

自然語言處理之語料庫

語料庫定義：語料庫(corpus)就是存放語言材料的倉庫(語言資料庫）語料庫技術的發展

NLP自然語言處理

相關推薦