小專案--貝葉斯實現拼寫檢查

阿新 • • 發佈：2018-11-04

求解：argmaxc P(c|w) -> argmaxc P(w|c)P©/P(w)
P©：文章中出現一個正確拼寫詞c的概率，也就是語料庫中c出現的概率有多大
P(w|c)：在使用者想鍵入c的情況下敲成w的概率，也就是使用者會以多大的概率把c敲錯成w
argmaxc：用來列舉所有可能的c並且選取概率最大的

import re #正則表示式
from collections import defaultdict #

#定義一個函式將文字中所有的單詞抽取出來，轉換成小寫並去除特殊字元
def words(text):
    return re.findall("[a-z]+",text.lower())

#定義詞頻函式
def wordsFrequency(word):
    #定義一個字典
    model = defaultdict(lambda:1) #定義一個字典預設值為1,因為當我們遇到沒有見過的新詞，因為語料庫沒有這個詞則返回的概率為0
    #就是表示不能發生事件，而在我們的概率模型中我們期望用一個很小的概率代替這種情況，所以初始的詞頻都為1
    print(type(model)) #<class 'collections.defaultdict'>

    for w in word:
        model[w] += 1 #如果語料庫出現了這個詞則加一
    return model

nwords = wordsFrequency(words(open(r'big.txt').read()))
#print(nwords)

alphabet = "abcdefghijklmnopqrstuvwxyz"
#print(len(alphabet))

#編輯距離
#兩個詞之間的編輯距離定義為使用了幾次插入（插入一個單字母）、刪除、交換、替換的操作從一個詞變到另一個詞
def edits1(word): #返回所有與單詞w編輯距離為1（做一次操作）的集合
    n = len(word)
    #刪除、交換、替換、插入
    return set([word[0:i]+word[i+1:] for i in range(n)] +
               [word[0:i]+word[i+1]+word[i]+word[i+2:] for i in range(n-1)] +
               [word[0:i]+c+word[i+1:] for i in range(n) for c in alphabet] +
               [word[0:i]+c+word[i:] for i in range(n) for c in alphabet])

#與something編輯距離為2（做兩個操作，如替換兩個字母）的單詞居然達到了114324個
def edits2(word): #編輯距離為2的集合
    return set(e2 for e1 in edits1(word) for e2 in edits1(e1))

#按照編輯距離來算資料量太大，我們需要優化，只返回在語料庫中出現的的詞"smoothing","something","soothing"
def known(words):
    return set(w for w in words if w in nwords)

#定義返回的糾正詞
def correct(word):
    candidates = known([word]) or known(edits1(word)) or known(edits2(word)) or [word]
    return max(candidates,key=lambda w:nwords[w])

correctword = correct("morw")
print(correctword) #more

小專案--貝葉斯實現拼寫檢查

求解：argmaxc P(c|w) -> argmaxc P(w|c)P©/P(w) P©：文章中出現一個正確拼寫詞c的概率，也就是語料庫中c出現的概率有多大 P(w|c)：在使用者想鍵入c的情況下敲成w的概率，也就是使用者會以多大的概率把c敲錯成w argmaxc：用來列舉所有可能的

機器學習小實戰（三）貝葉斯實現拼寫檢查器

一、貝葉斯（Bayes）簡介貝葉斯老爺爺是一位有名的老人家！貝葉斯演算法和概率有關，貝葉斯公式其實高中學過的，就是忘了而已。二、貝葉斯實現拼寫檢查器 1. 原理 argmaxc P(A|B)=argmaxc P(B|A) P(A) /P(B) P(

用貝葉斯實現拼寫檢查器

alt rec lam 最終 findall features 判斷 edit correct 貝葉斯公式 p(A|D)=p(A)*p(D|A)/p(D); 可以應用於垃圾郵件的過濾和拼寫檢查例如：對於拼寫檢查，寫出一個單詞D，判斷該單詞為正確單詞A的概率。為上述條件概率

python樸素貝葉斯實現-2

本文主要內容： 1. 樸素貝葉斯為何需要特徵條件獨立 2. 樸素貝葉斯三種模型: 特徵是離散的時候，使用多項式模型特徵是連續變數的時候，應該採用高斯模型特徵的取值只能是1和0伯努利模型) 3. 多項式模型的python實現樸

python：貝葉斯實現例項

資料的重要性毋庸置疑，但是如何讓資料產生價值呢？對一個全棧老碼農而言，經常在開發或者研發管理的時候遇到各種預測、決策、推斷、分類、檢測、排序等諸多問題。面對“你的程式碼還有 bug 麼？”這樣的挑戰，一種理智的回答是，我們已經執行了若干測試用例，程式碼中存在bug的可能性是百

jieba和樸素貝葉斯實現文字分類

#盜取男票年輕時候的程式碼，現在全給我教學使用了，感恩臉#分類文件為多個資料夾資料夾是以類別名命名內含多個單個文件#coding: utf-8 from __future__ import print_function, unicode_literals import

python樸素貝葉斯實現-1( 貝葉斯定理，全概率公式 )

樸素貝葉斯 (naive Bayes) 法是基於貝葉斯定理與特徵條件獨立假設的分類方法。在研究樸素貝葉斯之前，先回顧下：概率論中的條件概率以及貝葉斯定理。本部分內容基本來源於盛驟, 謝

【ML學習筆記】17：多元正態分佈下極大似然估計最小錯誤率貝葉斯決策

簡述多元正態分佈下的最小錯誤率貝葉斯如果特徵的值向量服從d元正態分佈，即其概率密度函式為：即其分佈可以由均值向量和對稱的協方差矩陣唯一確定。如果認為樣本的特徵向量在類內服從多元正態分佈：即對於每個類i，具有各自的類內的均值向量和協

利用樸素貝葉斯實現簡單的留言過濾

一、樸素貝葉斯　　首先第一個問題，什麼是樸素貝葉斯？　　貝葉斯分類是一類分類演算法的總稱，這類演算法均以貝葉斯定理為基礎，故統稱為貝葉斯分類。而樸素樸素貝葉斯分類是貝葉斯分類中最簡單，也是常見的一種分類方法。而我們所想要實現的留言過濾其實是一種分類行為，是通過對於概率的判斷，來對樣本進行一個歸類的過程

貝葉斯拼寫檢查器

ida 貝葉斯 read alter lower AD rect open altera 本拼寫檢查器是基於樸素貝葉斯的基礎來寫的，貝葉斯公式以及原理就不在詳述。直接上代碼 import re, collections def words(text): re

怎樣寫一個拼寫檢查器-貝葉斯-python

怎樣寫一個拼寫檢查器 Peter Norvig 翻譯: Eric You XU 原版： http://norvig.com/spell-correct.html 翻譯： htt

貝葉斯算法的基本原理和算法實現

utf shape less 流程我們 def .sh 詞向量貝葉斯算法一. 貝葉斯公式推導　　樸素貝葉斯分類是一種十分簡單的分類算法，叫它樸素是因為其思想基礎的簡單性：就文本分類而言，它認為詞袋中的兩兩詞之間的關系是相互獨立的，即一個對象的特征向量

<Machine Learning in Action >之二樸素貝葉斯 C#實現文章分類

options 直升機 water 飛機 math mes 視頻 write mod def trainNB0(trainMatrix,trainCategory): numTrainDocs = len(trainMatrix) numWords =

樸素貝葉斯分類算法介紹及python代碼實現案例

urn bus 人的元素 1.2 -s index 代碼步驟樸素貝葉斯分類算法 1、樸素貝葉斯分類算法原理 1.1、概述貝葉斯分類算法是一大類分類算法的總稱貝葉斯分類算法以樣本可能屬於某類的概率來作為分類依據樸素貝葉斯分類算法是貝葉斯分類算法中最簡單的一種註：

樸素貝葉斯算法資料整理和PHP 實現版本

樸素貝葉斯樸素貝葉斯算法簡潔http://blog.csdn.net/xlinsist/article/details/51236454 引言先前曾經看了一篇文章，一個老外程序員寫了一些很牛的Shell腳本，包括晚下班自動給老婆發短信啊，自動沖Coffee啊，自動掃描一個DBA發來的郵件啊，等等。於是我也想