1. 程式人生 > >自然語言處理界的小螺絲釘

自然語言處理界的小螺絲釘

Title

劉煥勇, liuhuanyong,語言學及應用語言學碩士,2017年畢業於北京語言大學,目前就職於中國科學院軟體研究所,主要從事資訊抽取,知識圖譜,情感分析, 社會計算等自然語言處理研發工作,興趣包括:

  • 語言資源構建
  • 資訊抽取與知識圖譜
  • 輿情監測與社會計算

聯絡郵箱:[email protected]

github主頁:https://github.com/liuhuanyong

github專案主頁:https://liuhuanyong.github.io/

目前嘗試的相關類別專案如下:

一、參會總結

專案名稱 中文名稱 專案技術點
CCKS2018Summary CCKS2018會議總結 知識圖譜,個人心得
CCL2018Summary CCL2018參會總結 自然語言處理,心得

二、語言資源構建

專案名稱 中文名稱 專案技術點
SentimentWordExpansion 情感詞擴充套件 SOPMI
BaikeInfoExtraction 百科資訊抽取 Urllib,xpath
SougouWordCollector 搜狗詞庫自動構建 Urllib,Scrapy
LanguageResources 語言資源 語言資源庫,語義庫,常用詞典
BaikeKnowledgeSchema 百科知識體系構建 Urllib,xpath,遞迴,知識庫本體概念

三、自然語言處理基本元件

專案名稱 中文名稱 專案技術點
WordSegment 分詞 HMM, MAXCUT,Ngram
HuanNLP 自然語言處理元件 HMM, maxent, CRF
Pinyin2Chinese 拼音轉文字 Trie樹,HMM, bigram
QueryCorrection 查詢糾錯 edit-distance
ChineseCixing 中文詞形查詢 字形,音形
ChineseAntiword 中文反義詞查詢 反義詞

四、資訊抽取

專案名稱 中文名稱 專案技術點
WordMultiSenseDisambiguation 中文多義詞詞義消歧 百科知識庫,詞義語義表示,詞義語義相似度計算
TextFeatureExtraction 文字特徵提取 IG,CHI ,DF,MI
WordCollocation 搭配抽取 MI
KeyInfoExtraction 關鍵資訊提取 TFIDF,TextRank
EventTriplesExtraction 事件三元組提取 dependency parser
知識圖譜與事理圖譜
專案名稱 中文名稱 專案技術點
CrimeKgAssitant 法律罪行智慧助手 知識圖譜, 智慧預判, 自動問答
QASystemOnMedicalKG 醫療知識圖譜與自動問答 知識圖譜構建及自動問答
ComplexEventExtraction 複合事件圖譜 複合事件,條件事件、反轉事件抽取
CausalityEventExtraction 因果事件圖譜 因果圖譜,因果事件抽取
SequentialEventExtration 順承事件圖譜 動賓短語提取,事件圖譜
LanguageKnowledgeGraph 語言政策知識圖譜 Neo4j,Echarts,D3js
HyponymyExtraction 上下位關係圖譜 模式匹配,上下位概念表示
MusicLyricChatbot 歌詞對對碰 es搜尋,歌詞知識庫

五、文字挖掘與社會計算

專案名稱 中文名稱 專案技術點
DocSentimentAnalysis 基於句法依存的情感分析 Template, Dependencyparser
LearningBasedSentiment 基於深度學習的情感分析 CNN,RNN,ML
TextGrapher 文字結構化圖譜表示 EventExtraction,知識表示
ImportantEventExtractor 文字重要性計算 textrank
ZhuguanDetection 文字主觀性計算 subjective knowledge base
SentenceSimilarity 句子相似度計算 distance, hash, haiming ,eidtdistance
TopicCluster 文字話題聚類 LDA,Kmeans
EventMonitor 特定事件追蹤 新聞採集,事件監測架構,scrapy
PoemMining 中國古代詩詞挖掘 語料庫構建,文字挖掘
LawCrimeMining 司法文字挖掘 語料庫構建,文字挖掘
HumorMining 幽默計算 語料庫構建,文字挖掘
LanguagePlatform 整合自然語言處理技術的語言平臺 Neo4j,Echarts,Django

六、深度學習與語義表示

專案名稱 中文名稱 專案技術點
DeepLearningInaction 深度學習練習 Keras, Tensorflow
Seq2SeqTranslation 端到端的翻譯模型 keras, lstm
Word2Vector 詞向量表示 CBOW, SKIP-GRAM,Co-Matrix
Sentence2Vector 句子向量表示 CBOW
BiLSTM-NER 基於BI-LSTM的命名實體識別 keras, bi-lstm

七、輿情資訊採集

專案名稱 中文名稱 專案技術點
WeiboIndexSpyder 微博指數採集 selenium,xpath
BaiduIndexSpyder 百度指數採集 xpath,selenium
AliIndexSpyder 阿里指數採集 selenium,xpath

懂語言者,得天下。要做好理解人類語言這件事,需要語言學家和電腦科學家一起努力,作為一個語言學背景而又敲程式碼的小菜來說,希望能夠從點滴做起,從語言資源出發,構建器儘可能全和優質的語言資源,包括基礎詞庫、知識庫、知識圖譜,並結合當下的一些業務,解決一些實際問題,這條路,將一直走下去。

若有交流,可聯絡:
劉煥勇,中國科學院軟體研究所,北京市海淀區中關村南四街四號。
郵箱:[email protected]
github主頁:https://github.com/liuhuanyong
github專案主頁:https://liuhuanyong.github.io/