【小實驗講解】貝葉斯拼寫檢查器

阿新 • • 發佈：2021-01-09

技術標籤：Python_小實驗原理解析 python 深度學習自然語言處理機器學習

貝葉斯拼寫檢查器

python程式碼
- 拼寫檢查器的程式碼+註釋

python程式碼

big.txt只是一個語料庫大家網上可以找得到。
在這裡插入圖片描述

拼寫檢查器的程式碼+註釋

# ##求解: argmaxc P(c|w) > argmaxc P(w|c) P(c) / P(w)
# - P(c)， 文章中出現一個正確拼寫詞c的概率，也就是說，在英語文章中，c出現的概率有多大
# - P(w|c). 在使用者想鍵入c的情況下敲成心w的概率、因為這個是代表使用者會以多大的概率把c敲錯成w。
# - argmaxc, 用來列舉所有可能的c並且選取概率最大的 



import collections
import re

# 所有單詞以及出現的次數
Dict_Word_Frequency = ''

def get_Words(text):
    '''把語料中的單詞全部抽取出來, 轉成小寫, 並且去除單詞中間的特殊符號'''
    new_text = re.findall('[a-z]+',text.lower())
    return new_text

def get_Word_Frequency(words):
    '''獲取詞頻，統計每個單詞出現的次數'''
    # 建立字典（鍵為單詞名，值為詞頻），預設每個單詞出現一次 

    model = collections.defaultdict(lambda :1)
    # 為每一個單詞計算詞頻
    for i in words:
        model[i] = model[i] + 1
    return model

def calculate_Edits1(word):
    '''返回所有編輯距離為1的單詞集合'''
    # 所有字母
    alphabet = 'abcdefghijklmnopqrstuvwxyz'
    # 單詞長度
    n = len(word)
    # 所有可能拼錯的的單詞集合
    word_sets = 
set()

    # 缺少單詞的（eg：the-th）
    for i in range(n):
        word_sets.add(word[0:i] + word[i + 1:])
    # 順序調換的（eg：the-eth）
    for i in range(n - 1):
        word_sets.add(word[0:i] + word[i + 1] + word[i] + word[i + 2:])
    # 單詞替換的（eg：the-thy）
    for c in alphabet:
        for i in range(n):
            word_sets.add(word[0:i] + c + word[i + 1:])
    # 單詞多加的（eg：the-thei）
    for c in alphabet:
        for i in range(n):
            word_sets.add(word[0:i] + c + word[i:])

    return word_sets

def calculate_Edits2(word):
    '''返回所有編輯距離為2的單詞集合,但只選擇正確的'''
    # 所有可能拼錯的的單詞集合
    word_sets =set()
    for ele1 in calculate_Edits1(word):
        for ele2 in calculate_Edits1(ele1):
            word_sets.add(ele2)
    return word_sets

def known(words):
    '''只把那些正確的詞作為候選詞'''
    word_sets = set()
    for w in words:
        if(w in Dict_Word_Frequency):
            word_sets.add(w)
    return word_sets

def correct(word):
    '''如果known(set)非空, candidate 就會選取這個集合, 而不繼續計算後面的'''
    candidates = known([word]) or known(calculate_Edits1(word)) or calculate_Edits2(word) or [word]
    # 根據詞頻選擇candidates中詞頻最高的拿出來返回
    return max(candidates, key=lambda w: Dict_Word_Frequency[w])

if __name__ == '__main__':

    # 語料庫路徑
    File_Path = 'big.txt'
    # 讀取語料庫中的全部文字
    All_Word_Text = open(File_Path).read()
    # 把語料中的單詞全部抽取出來, 轉成小寫, 並且去除單詞中間的特殊符號
    All_New_Word_Text = get_Words(All_Word_Text)
    # 從所有單詞中獲取詞頻
    Dict_Word_Frequency = get_Word_Frequency(All_New_Word_Text)
    # 進行拼寫檢查
    print(correct('thi'))

【小實驗講解】貝葉斯拼寫檢查器

技術標籤：Python_小實驗原理解析python深度學習自然語言處理機器學習貝葉斯拼寫檢查器

樸素貝葉斯拼寫檢查

技術標籤：機器學習機器學習使用每個詞作為特徵並觀察它們是否出現，這樣得到的特徵數目會有多少呢？針對的是哪一種人類語言呢？當然不止一種語言。據估計，僅在英語中，單詞的總數就有500 000①之多。為了能進

實驗三樸素貝葉斯演算法及應用

樸素貝葉斯演算法及應用作業資訊個人班級機器學習實驗-計算機18級實驗題目

實驗三樸素貝葉斯演算法

部落格班級 AHPU機器學習作業要求作業要求作業目標熟練掌握程式碼編寫學號 3180701209

實驗三樸素貝葉斯演算法及應用

部落格班級機器學習作業要求實驗三作業目標理解樸素貝葉斯演算法及應用學號

機器學習實驗三樸素貝葉斯演算法及應用

作業屬於課程機器學習實驗—計算機18級作業要求連結實驗三樸素貝葉斯演算法及應用

實驗三樸素貝葉斯演算法及應用

所在班級機器學習實驗要求樸素貝葉斯演算法及應用實驗目標理解樸素貝葉斯演算法原理，能實現樸素貝葉斯演算法

機器學習實驗三樸素貝葉斯演算法及應用

1. 作業資訊這個作業屬於哪個課程機器學習這個作業要求在哪裡作業要求學號

機器學習——實驗三樸素貝葉斯演算法及應用

實驗三樸素貝葉斯演算法及應用部落格班級 https://edu.cnblogs.com/campus/ahgc/machinelearning

實驗三樸素貝葉斯演算法

部落格班級 AHPU-機器學習-計算機18級實驗名稱 [實驗三樸素貝葉斯演算法(https://edu.cnblogs.com/campus/ahgc/machinelearning/homework/12085)

實驗三樸素貝葉斯

作業資訊部落格班級機器學習實驗-計算機18級作業要求作業要求作業目標理解樸素貝葉斯演算法及應用

樸素貝葉斯新聞分類器詳解

機器學習的三要素是模型、策略（使用Cost Function計算這個模型是不是好的）和優化演算法（不斷的尋找最優引數，找到一個引數後用策略判斷一下是不是可以，不行再找）。

【樸素貝葉斯】理解與使用

1：原理理解舉個形象的例子，若我們走在街上看到一個黑面板的外國友人，讓你來猜這位外國友人來自哪裡。十有八九你會猜是從非洲來的，因為黑面板人種中非洲人的佔比最多，雖然黑面板的外國人也有可能是美洲人或

【阿里天池雲-龍珠計劃】薄書的機器學習筆記——樸素貝葉斯(Naive Bayes)Task02

樸素貝葉斯分類器Numpy實現【原創程式碼】

技術標籤：個人雜記問題：已知 dayoutlooktemperaturehumiditywindPlaytennis1sunnyhothighweakno2sunnyhothighstrongno3overcasthothighweakyes4rainmildhighweakyes5raincoolnormalweakyes6raincoolnormalstr

【Basic】樸素貝葉斯分類演算法

技術標籤：機器學習機器學習我們一再說機器學習模型脫胎於統計學的知識，樸素貝葉斯分類演算法應該是其中統計學味道最濃的一款演算法。

【LSTM預測】基於matlab貝葉斯網路改進LSTM預測【含Matlab原始碼 1158期】

一、簡介基於matlab貝葉斯網路改進LSTM預測二、原始碼 %%%%%%%%%%Gaussian Process Regression (GPR)%%%%%%%%%

實驗一貝葉斯分類器的設計以及應用試驗

實驗目的：理解樸素貝葉斯分類器的原理；能夠獨立實現貝葉斯分類器的設計；

【模式識別、樸素貝葉斯方法】最大似然估計（MLE）、最大後驗概率估計（MAP）

引言貝葉斯公式中依據先驗概率 P ( ω i ) P(\\omega_i) P(ωi)和類條件概率密度 P ( X ∣

白話貝葉斯公式_關於tfidf及多項式/伯努利貝葉斯用於文字分類的詳細講解（完整示例程式碼+手工推導）...

技術標籤：白話貝葉斯公式關於tfidf以及文字分類中貝葉斯模型的介紹，網路上有很多。然而，大部分文章存在著講解片面的情況，且忽視了幾個非常容易產生誤解的地方。例如，tfidf的取值一般不是非負整數，其對應

【小實驗講解】貝葉斯拼寫檢查器

貝葉斯拼寫檢查器

python程式碼

拼寫檢查器的程式碼+註釋

相關推薦