自然語言處理界的小螺絲釘

阿新 • • 發佈：2018-11-28

Title

劉煥勇， liuhuanyong，語言學及應用語言學碩士，2017年畢業於北京語言大學，目前就職於中國科學院軟體研究所，主要從事資訊抽取，知識圖譜，情感分析, 社會計算等自然語言處理研發工作，興趣包括：

語言資源構建
資訊抽取與知識圖譜
輿情監測與社會計算

聯絡郵箱：[email protected]

github主頁：https://github.com/liuhuanyong

github專案主頁：https://liuhuanyong.github.io/

目前嘗試的相關類別專案如下：

一、參會總結

專案名稱	中文名稱	專案技術點
CCKS2018Summary	CCKS2018會議總結	知識圖譜,個人心得
CCL2018Summary	CCL2018參會總結	自然語言處理,心得

二、語言資源構建

專案名稱	中文名稱	專案技術點
SentimentWordExpansion	情感詞擴充套件	SOPMI
BaikeInfoExtraction	百科資訊抽取	Urllib,xpath
SougouWordCollector	搜狗詞庫自動構建	Urllib,Scrapy
LanguageResources	語言資源	語言資源庫，語義庫，常用詞典
BaikeKnowledgeSchema	百科知識體系構建	Urllib,xpath,遞迴，知識庫本體概念

三、自然語言處理基本元件

專案名稱	中文名稱	專案技術點
WordSegment	分詞	HMM, MAXCUT,Ngram
HuanNLP	自然語言處理元件	HMM, maxent, CRF
Pinyin2Chinese	拼音轉文字	Trie樹，HMM, bigram
QueryCorrection	查詢糾錯	edit-distance
ChineseCixing	中文詞形查詢	字形，音形
ChineseAntiword	中文反義詞查詢	反義詞

四、資訊抽取

專案名稱	中文名稱	專案技術點
WordMultiSenseDisambiguation	中文多義詞詞義消歧	百科知識庫,詞義語義表示,詞義語義相似度計算
TextFeatureExtraction	文字特徵提取	IG，CHI ，DF，MI
WordCollocation	搭配抽取	MI
KeyInfoExtraction	關鍵資訊提取	TFIDF，TextRank
EventTriplesExtraction	事件三元組提取	dependency parser

知識圖譜與事理圖譜

專案名稱	中文名稱	專案技術點
CrimeKgAssitant	法律罪行智慧助手	知識圖譜, 智慧預判, 自動問答
QASystemOnMedicalKG	醫療知識圖譜與自動問答	知識圖譜構建及自動問答
ComplexEventExtraction	複合事件圖譜	複合事件，條件事件、反轉事件抽取
CausalityEventExtraction	因果事件圖譜	因果圖譜，因果事件抽取
SequentialEventExtration	順承事件圖譜	動賓短語提取，事件圖譜
LanguageKnowledgeGraph	語言政策知識圖譜	Neo4j,Echarts,D3js
HyponymyExtraction	上下位關係圖譜	模式匹配，上下位概念表示
MusicLyricChatbot	歌詞對對碰	es搜尋,歌詞知識庫

五、文字挖掘與社會計算

專案名稱	中文名稱	專案技術點
DocSentimentAnalysis	基於句法依存的情感分析	Template, Dependencyparser
LearningBasedSentiment	基於深度學習的情感分析	CNN,RNN,ML
TextGrapher	文字結構化圖譜表示	EventExtraction，知識表示
ImportantEventExtractor	文字重要性計算	textrank
ZhuguanDetection	文字主觀性計算	subjective knowledge base
SentenceSimilarity	句子相似度計算	distance, hash, haiming ,eidtdistance
TopicCluster	文字話題聚類	LDA，Kmeans
EventMonitor	特定事件追蹤	新聞採集，事件監測架構，scrapy
PoemMining	中國古代詩詞挖掘	語料庫構建，文字挖掘
LawCrimeMining	司法文字挖掘	語料庫構建，文字挖掘
HumorMining	幽默計算	語料庫構建，文字挖掘
LanguagePlatform	整合自然語言處理技術的語言平臺	Neo4j,Echarts,Django

六、深度學習與語義表示

專案名稱	中文名稱	專案技術點
DeepLearningInaction	深度學習練習	Keras, Tensorflow
Seq2SeqTranslation	端到端的翻譯模型	keras, lstm
Word2Vector	詞向量表示	CBOW, SKIP-GRAM，Co-Matrix
Sentence2Vector	句子向量表示	CBOW
BiLSTM-NER	基於BI-LSTM的命名實體識別	keras, bi-lstm

七、輿情資訊採集

專案名稱	中文名稱	專案技術點
WeiboIndexSpyder	微博指數採集	selenium,xpath
BaiduIndexSpyder	百度指數採集	xpath,selenium
AliIndexSpyder	阿里指數採集	selenium,xpath

懂語言者，得天下。要做好理解人類語言這件事，需要語言學家和電腦科學家一起努力，作為一個語言學背景而又敲程式碼的小菜來說，希望能夠從點滴做起，從語言資源出發，構建器儘可能全和優質的語言資源，包括基礎詞庫、知識庫、知識圖譜，並結合當下的一些業務，解決一些實際問題，這條路，將一直走下去。

若有交流，可聯絡：
劉煥勇，中國科學院軟體研究所，北京市海淀區中關村南四街四號。
郵箱：[email protected]
github主頁:https://github.com/liuhuanyong
github專案主頁：https://liuhuanyong.github.io/

自然語言處理界的小螺絲釘

自然語言處理界的小螺絲釘

小象學院自然語言處理第二期

nodejs在自然語言處理中的一些小應用

python3.6實現中文分詞統計-自然語言處理小專案

小象學院自然語言處理（1）

《深入淺出Python機器學習(段小手)》PDF代碼+《推薦系統與深度學習》PDF及代碼+《自然語言處理理論與實戰(唐聃)》PDF代碼源程序

自然語言處理中的Attention Model：是什麽及為什麽

gensim自然語言處理

NLP系列(1)_從破譯外星人文字淺談自然語言處理的基礎

文本情感分析的基礎在於自然語言處理、情感詞典、機器學習方法等內容。以下是我總結的一些資源。

自然語言處理哪家強？

2017MySQL中文索引解決辦法自然語言處理(N-gram parser)

(zhuan) 自然語言處理中的Attention Model：是什麽及為什麽

95、自然語言處理svd詞向量

NLP-python 自然語言處理01

cs224d 自然語言處理作業 problem set3 (一) 實現Recursive Nerual Net Work 遞歸神經網絡

自然語言處理怎麽最快入門？

Python自然語言處理1

數學之美讀書筆記——自然語言處理教父和他的弟子們

自然語言處理隨筆（一）

自然語言處理界的小螺絲釘

相關推薦