中文自然語言處理入門流程
中文自然語言處理的完整機器處理流程
簡單好用的中文分詞利器jieba和HanLP
動手實戰中文文字中的關鍵字提取
瞭解資料必備的文字視覺化技巧
面向非結構化資料轉換的詞袋和詞向量模型
動手實戰基於ML的中文短文字分類
動手實戰基於ML的中文短文字聚類
從自然語言處理角度看HMM和CRF
一網打盡神經序列模型之RNN及其變種LSTM、GRU
動手實戰基於CNN的電影推薦系統
動手實戰基於LSTM輕鬆生成各種古詩
完全基於情感詞典的文字情感分析
動手製作自己的簡易聊天機器人
基於HanLP分詞的命名實體提取
基於CRF的中文命名實體的識別模式
知識挖掘與知識圖譜概述
Neo4j從入門到構建一個簡單知識圖譜
中文自然語言處理的應用、現狀和未來
相關推薦
中文自然語言處理入門流程
中文自然語言處理的完整機器處理流程 簡單好用的中文分詞利器jieba和HanLP 動手實戰中文文字中的關鍵字提取 瞭解資料必備的文字視覺化技巧 面向非結構化資料轉換的詞袋和詞向量模型 動手實戰基於ML的中文短文字分類 動手實戰基於ML的中文短文字聚類 從自然語言處理角度看HMM和CRF 一網打盡神經
Hanlp中文自然語言處理入門基礎知識
watermark holo bottom ava 領域 elastic 最短 oid 變化 自然語言處理定義:自然語言處理是一門計算機科學、人工智能以及語言學的交叉學科。雖然語言只是人工智能的一部分(人工智能還包括計算機視覺等),但它是非常獨特的一部分。這個星球上有許多生
自然語言處理入門----中文分詞原理
1.中文分詞原理介紹 1.1 中文分詞概述 中文分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨的詞。分詞就是將連續的字序列按照一定的規範重新組合成詞序列的過程。 1.2 中文分詞方法介紹 現有的分詞方法可分為三大類:基於字串匹配的分
自然語言處理入門(2)——中文文字處理利器snownlp
SnowNLP是一個python寫的類庫,可以方便的處理中文文字內容。如中文分詞、詞性標註、情感分析、文字分類、提取文字關鍵詞、文字相似度計算等。 snownlp示例如下所示: # -*- coding: utf-8 -*- """ Created on
自然語言處理入門(4)——中文分詞原理及分詞工具介紹
本文首先介紹下中文分詞的基本原理,然後介紹下國內比較流行的中文分詞工具,如jieba、SnowNLP、THULAC、NLPIR,上述分詞工具都已經在github上開源,後續也會附上github連結,以供參考。 1.中文分詞原理介紹 1.1 中文分詞概述 中
HanLP《自然語言處理入門》筆記--3.二元語法與中文分詞
筆記轉載於GitHub專案:https://github.com/NLP-LOVE/Introduction-NLP 3. 二元語法與中文分詞 上一章中我們實現了塊兒不準的詞典分詞,詞典分詞無法消歧。給定兩種分詞結果“商品 和服 務”以及“商品 和 服務”,詞典分詞不知道哪種更加合理。 我們人類確知道第二種更
Spark2.0 特征提取、轉換、選擇之二:特征選擇、文本處理,以中文自然語言處理(情感分類)為例
true 方便 linear value taf 文檔 ota ati inter 特征選擇 RFormula RFormula是一個很方便,也很強大的Feature選擇(自由組合的)工具。 輸入string 進行獨熱編碼(見下面例子country) 輸入數值型轉換為dou
快速了解掌握中文自然語言處理
自然語言處理 Hadoop NLP是什麽在計算機領域, NLP(Natural Language Processing),也就是人們常說的「自然語言處理」,就是研究如何讓計算機讀懂人類語言。這包括,既要能讓計算機理解自然語言文本的意義,也能以自然語言文本來表達給定的深層的意圖、思想等。所以,這項技術往
斯坦福大學-自然語言處理入門 筆記 第二十一課 問答系統(2)
一、問答系統中的總結(summarization) 目標:產生一個摘要文字包含那些對使用者重要和相關的資訊 總結的應用領域:任何文件的摘要和大綱,郵件摘要等等 根據總結的內容,我們可以把總結分為兩類: 單文件總結:給出一個單一文件的摘要、大綱、標題
斯坦福大學-自然語言處理入門 筆記 第二十課 問答系統(question answering)
1、什麼是問答系統 問答系統是最早的NLP任務,根據問題的依存關係,找到適合的依存關係的回答。 在現代系統中問題被分為兩類 事實問題的回答一般都是一個簡單的片語或者是命名實體 兩種問答系統的正規化 基於資訊檢索的路徑:TREC; I
斯坦福大學-自然語言處理入門 筆記 第十九課 單詞含義與相似性
一、單詞含義與單詞關係 回顧:詞目(lemma)與單詞形式(wordform) 詞目:表示相同的詞根、詞性以及大致的語義 單詞形式:表示在文件中出現的具體單詞形式 一個詞目可能會含有很多含義(sense)。含義(sense)表示單
斯坦福大學-自然語言處理入門 筆記 第十八課 排序檢索介紹(ranked retrieval)
一、介紹 之前我們的請求都是布林型別。對於那些明確知道自己的需求並且瞭解集合體情況的使用者而言,布林型別的請求是很有效的。但是對於大部分的其他使用者而言,布林請求的問題是:大部分使用者不熟悉布林請求;布林請求比較複雜;布林請求的結果不是太多就是太少。排序檢索應運而生。 排序
斯坦福大學-自然語言處理入門 筆記 第十七課 資訊檢索(information retrieval)
一、介紹 資訊檢索(information retrieval)是從海量集合體(一般是儲存在計算機中的文字)中找到滿足資訊需求(information need)的材料(一般是文件) 資訊檢索的應用領域:網頁搜尋,郵件搜尋,電腦內部搜尋,法律資訊檢索等等 資訊檢索的基
斯坦福大學-自然語言處理入門 筆記 第十六課 依存句法分析(Dependency Parsing)
一、介紹 1、依存句法 依存句法假設:句法結構包含相互之間是雙邊不對稱關係的詞典(lexical)元素,這種不對稱的關係成為依存(dependency),在圖中的表現是單向箭頭。 箭頭通常還會打上這種語法關係的名字(主語,前置賓語等等) 箭頭一邊連線中心詞head
斯坦福大學-自然語言處理入門 筆記 第十五課 詞彙化(Lexicalization)的PCFGs
一、介紹 一個短語的中心詞(head word)可以很好地代表這個短語的結構和含義,在構建PCFG模型的時候,可以考慮將這部分資訊納入其中。如下圖所示加入單詞資訊可以幫助我們更好地選擇出合適的模型。 二、Charniak模型 Charniak模型是詞彙化P
斯坦福大學-自然語言處理入門 筆記 第十四課 CGSs和PCFGs
一、概率上下文無關文法((Probabilistic) Context-Free Grammars) 1、上下文無關文法(Context-Free Grammars) 我們也可以稱之為片語結構語法(Phrase structure grammars) 由四個成分構成G=
斯坦福大學-自然語言處理入門 筆記 第十三課 統計語言句法分析(prasing)
課程來源:Introduction to NLP by Chris Manning & Dan jurafsky 關於專用名詞和概念:剛接觸NLP領域,所以有些專有名詞的翻譯和專有概念可能會存在一定的偏誤,隨著學習的深入,我會隨時更新改正。 一、關於句法結構的兩種看法
斯坦福大學-自然語言處理入門 筆記 第十二課 詞性標註(Part-of-speech tagging)
一、詞性(part-of-speech)介紹 詞性:名詞(Nouns),動詞(Verbs),形容詞(Adjectives), 副詞(Adverbs)等等就是我們想要研究的詞性 我們可以把詞性分為開放類(open class)和閉合類(closed class)。
斯坦福大學-自然語言處理入門 筆記 第十一課 最大熵模型與判別模型(2)
一、最大熵模型 1、模型介紹 基本思想:我們希望資料是均勻分佈的,除非我們有其他的限制條件讓給我們相信資料不是均勻分佈的。均勻分佈代表高熵(high entropy)。所以,最大熵模型的基本思想就是我們要找的分佈是滿足我們限制條件下,同時熵最高的分佈。 熵:表示分佈的不
斯坦福大學-自然語言處理入門 筆記 第十課 關係抽取(relation extraction)
一、簡介 關係抽取就是從文件中抽取關係,例子如下: 為什麼進行關係抽取 建立新的關係型知識庫(knowledge bases) 增強目前的知識庫(knowledge bases) 支援問題回答(question answering)