1. 程式人生 > >【中文分詞系列】 5. 基於語言模型的無監督分詞

【中文分詞系列】 5. 基於語言模型的無監督分詞

轉載:https://spaces.ac.cn/archives/3956/

迄今為止,前四篇文章已經介紹了分詞的若干思路,其中有基於最大概率的查詞典方法、基於HMM或LSTM的字標註方法等。這些都是已有的研究方法了,筆者所做的就只是總結工作而已。查詞典方法和字標註各有各的好處,我一直在想,能不能給出一種只需要大規模語料來訓練的無監督分詞模型呢?也就是說,怎麼切分,應該是由語料來決定的,跟語言本身沒關係。說白了,只要足夠多語料,就可以告訴我們怎麼分詞。

看上去很完美,可是怎麼做到呢?《2.基於切分的新詞發現》中提供了一種思路,但是不夠徹底。那裡居於切分的新詞發現方法確實可以看成一種無監督分詞思路,它就是用一個簡單的凝固度來判斷某處該不該切分。但從分詞的角度來看,這樣的分詞系統未免太過粗糙了。因此,我一直想著怎麼提高這個精度,前期得到了一些有意義的結果,但都沒有得到一個完整的理論。而最近正好把這個思路補全了。因為沒有查詢到類似的工作,所以這算是筆者在分詞方面的一點原創工作了。

語言模型

首先簡單談一下語言模型。

很多資料探勘的讀者都已經聽說過Word2Vec,知道它是一個能夠生成詞向量的工具,很多人也知道將詞向量作為模型的特徵來進行輸入。但相信不少讀者不知道為什麼會有詞向量,為什麼Word2Vec能生成詞向量。Word2Vec本身的光芒(Google出品、速度快、效果也不錯、在Python中有很好實現等)已經把同類產品以及背後的原理都給掩蓋下去了。事實上,詞向量的初衷,是為了更好地生成語言模型,最經典的文章應該是深度學習的鼻祖之一——Bengio——的《A Neural Probabilistic Language Model》。這一段的重點是談語言模型,不是詞向量。關於詞向量,有興趣的讀者可以參考下面的文章:

語言模型是計算條件概率

p(wn|w1,w2,…,wn−1)
的模型,其中w1,w2,…,wn−1是句子中的前n−1個詞(或字),wn是第n個詞(或字)。語言模型在很多方面都有應用,比如說分詞、語音識別、機器翻譯等。為了得到語言模型,有很多方法,比如說最簡單的是“統計+平滑”的方法,還有最大熵語言模型、CRF語言模型等,而當前深度學習框架下研究得很多的是“神經網路語言模型”,它的大概思路是:p(wn|w1,w2,…,wn−1)是關於w1,w2,…,wn的一個函式,這個函式的具體形式我不知道,所以利用神經網路去擬合它,為了更好地擬合,並且減少模型引數,還把詞語“嵌入”到實數空間中,用短向量來表示詞語,跟語言模型一起訓練。從這個角度看,詞向量只是語言模型的副產品。

語言模型生成的詞向量能夠較好地表示語義,這是很有趣的,卻也是在情理之中。什麼是語義?對人類來說,語義是一種推理和理解的過程,而我們的語言模型,就是從前

相關推薦

中文系列 5. 基於語言模型監督

轉載:https://spaces.ac.cn/archives/3956/ 迄今為止,前四篇文章已經介紹了分詞的若干思路,其中有基於最大概率的查詞典方法、基於HMM或LSTM的字標註方法等。這些都是已有的研究方法了,筆者所做的就只是總結工作而已。查詞典方法和字

asp.net core 系列5 佈局頁和靜態資源

# 0. 前言 在之前的4篇的內容裡,我們較為詳細的介紹了路由以及控制器還有檢視之間的關係。也就是說,系統如何從使用者的HTTP請求解析到控制器裡,然後在控制器裡處理資料,並返回給檢視,在檢視中顯示出來。這一篇我將為大家介紹基礎的最後一部分,佈局頁和靜態資源引入。 # 1. 佈局頁 在控制器和檢視那一篇

阿里雲IoT+YF33005. Alink物模型之服務下發

名詞解釋:         服務:裝置的功能模型之一,裝置可被外部呼叫的能力或方法,可設定輸入引數和輸出引數。相比於屬性,服務可通過一條指令實現更復雜的業務邏輯,如執行某項特定的任務。    -摘自阿里雲物聯網產品文件。  

中文系列 8 更好的新詞發現演算法

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

GAN ZOO翻譯系列基於能量的生成對抗網路 Energy-Based Generative Adversarial Networks

趙俊博, Michael Mathieu, Yann LeCun 紐約大學計算機科學系 Facebook人工智慧研究院 {jakezhao, mathieu, yann}@cs.nyu.edu 原文連結https://arxiv.org/abs/1609.031

用膝蓋寫程式碼系列(5):NOIP2013普及組複賽詳解

有人問我為什麼2013在2014之後? 那是因為。。。。。。你醜(這句劃掉) 2013年難啊! …… 第一題:計數問題 題面簡述:試計算在區間 1 到 n 的所有整數中,數字 x(0 ≤

技術類遙感入門系列5、遙感分類技術

遙感的最終成果之一就是從遙感影象上獲取資訊,遙感分類是獲取資訊的重要手段。同時遙感影象分類也是目前遙感技術中的熱點研究方向,每年都有新的分類方法推出。 本小節主要內容: 遙感分類基本概念 常見遙感分類方法 1       遙感分類概述  遙感影象通過亮度值或像元值的高低差異(反映地物的光譜資訊)及空間變

SQL Server 學習系列-- sql 隨機生成中文名字

nbsp ima table https ltrim ble clas div rom 原文:【SQL Server 學習系列】-- sql 隨機生成中文名字 1 DECLARE @fName TABLE(Id INT IDENTITY(1,1) PRIMARY KEY

開源專案系列如何基於 Spring Cache 實現多級快取(同時整合本地快取 Ehcache 和分散式快取 Redis)

## 一、快取 當系統的併發量上來了,如果我們頻繁地去訪問資料庫,那麼會使資料庫的壓力不斷增大,在高峰時甚至可以出現數據庫崩潰的現象。所以一般我們會使用快取來解決這個資料庫併發訪問問題,使用者訪問進來,會先從快取裡查詢,如果存在則返回,如果不存在再從資料庫裡查詢,最後新增到快取裡,然後返回給使用者,當然了,接

數據庫系列MySql中的select的鎖表範圍

nbsp 範圍 nod 指定 lock 無數據 才會 rdb sele 由於InnoDB預設的是Row-Level Lock,只有明確指定主鍵的時候MySql才會執行Row lock,否則MySql將會執行Table Lock. 1、明確指定主鍵則是行鎖 2、明確指定主鍵,

SQL Server 學習系列-- 獲取字符串中出現某字符的次數及字符某次出現的下標

nbsp pan urn ace server type char sel sql DECLARE @Str NVARCHAR(500) = ‘1_BB_CC_DD_AA_EE_YY_WW_HH_GG‘ --// 1. 獲取下劃線在字符串中出現的次數 SELECT LE

ASP.NET MVC系列淺談MVC

後端 nbsp 文獻 ats 路勁 onf 將在 cot get 描述 本篇文章主要概述ASP.NET MVC,具體包括如下內容: 1.MVC模式概述 2.WebForm概述 3.WebForm與MVC區別 4.ASP.NET MVC發展歷程 5.運用程序結構 6.ASP.

APS.NET 框架系列淺談ASP.NET 框架

處理請求 splay bapi tps cat 底層 show 一個 優化 本篇文章稍微偏原理且底層,有一定難度和且比較晦澀。 本篇文章主要是從廣度上概括一下,具體的更細粒度的,會在後續的文章中,結合具體的Demo實例分析。 一 .NET框架概述

ASP.NET MVC系列淺談表單和HTML輔助方法

繼承 好的 內容 概述 調用 復制 畫圖 models pac 【01】淺談Google Chrome瀏覽器(理論篇) 【02】淺談Google Chrome瀏覽器(操作篇)(上) 【03】淺談Google Chrome瀏覽器(操作篇)(下) 【04】淺談AS

spring cloud 入門系列七:基於Git存儲的布式配置中心--Spring Cloud Config

入門 代碼結構 dev eas TP scope ict AI 新項目 我們前面接觸到的spring cloud組件都是基於Netflix的組件進行實現的,這次我們來看下spring cloud 團隊自己創建的一個全新項目:Spring Cloud Config.它用來為分

笨方法學PAT1013 Battle Over Cities(25

一、題目 It is vitally important to have all the cities connected by highways in a war. If a city is occupied by the enemy, all the highways from/towa

笨方法學PAT1012 The Best Rank(25

一、題目 To evaluate the performance of our first year CS majored students, we consider their grades of three courses only: C - C Programmin

笨方法學PAT1011 World Cup Betting(20

一、題目 With the 2010 FIFA World Cup running, football fans the world over were becoming increasingly excited as the best players from the best teams

笨方法學PAT1009 Product of Polynomials(25

一、題目 This time, you are supposed to find A×B where A and B are two polynomials. Input Specification: Each input

死磕springboot2.0springboot基於web開發

宣告,使用 maven3.5.4,springboot2.0,JDK8 ,idea2018.2 模組目錄結構: main 主方法: @SpringBootApplication public class WebApplication { public static voi