自然語言處理界的小螺絲釘
阿新 • • 發佈:2018-11-28
劉煥勇, liuhuanyong,語言學及應用語言學碩士,2017年畢業於北京語言大學,目前就職於中國科學院軟體研究所,主要從事資訊抽取,知識圖譜,情感分析, 社會計算等自然語言處理研發工作,興趣包括:
- 語言資源構建
- 資訊抽取與知識圖譜
- 輿情監測與社會計算
聯絡郵箱:[email protected]
github主頁:https://github.com/liuhuanyong
github專案主頁:https://liuhuanyong.github.io/
目前嘗試的相關類別專案如下:一、參會總結
專案名稱 | 中文名稱 | 專案技術點 |
---|---|---|
CCKS2018Summary | CCKS2018會議總結 | 知識圖譜,個人心得 |
CCL2018Summary | CCL2018參會總結 | 自然語言處理,心得 |
二、語言資源構建
專案名稱 | 中文名稱 | 專案技術點 |
---|---|---|
SentimentWordExpansion | 情感詞擴充套件 | SOPMI |
BaikeInfoExtraction | 百科資訊抽取 | Urllib,xpath |
SougouWordCollector | 搜狗詞庫自動構建 | Urllib,Scrapy |
LanguageResources | 語言資源 | 語言資源庫,語義庫,常用詞典 |
BaikeKnowledgeSchema | 百科知識體系構建 | Urllib,xpath,遞迴,知識庫本體概念 |
三、自然語言處理基本元件
專案名稱 | 中文名稱 | 專案技術點 |
---|---|---|
WordSegment | 分詞 | HMM, MAXCUT,Ngram |
HuanNLP | 自然語言處理元件 | HMM, maxent, CRF |
Pinyin2Chinese | 拼音轉文字 | Trie樹,HMM, bigram |
QueryCorrection | 查詢糾錯 | edit-distance |
ChineseCixing | 中文詞形查詢 | 字形,音形 |
ChineseAntiword | 中文反義詞查詢 | 反義詞 |
四、資訊抽取
專案名稱 | 中文名稱 | 專案技術點 |
---|---|---|
WordMultiSenseDisambiguation | 中文多義詞詞義消歧 | 百科知識庫,詞義語義表示,詞義語義相似度計算 |
TextFeatureExtraction | 文字特徵提取 | IG,CHI ,DF,MI |
WordCollocation | 搭配抽取 | MI |
KeyInfoExtraction | 關鍵資訊提取 | TFIDF,TextRank |
EventTriplesExtraction | 事件三元組提取 | dependency parser |
專案名稱 | 中文名稱 | 專案技術點 |
---|---|---|
CrimeKgAssitant | 法律罪行智慧助手 | 知識圖譜, 智慧預判, 自動問答 |
QASystemOnMedicalKG | 醫療知識圖譜與自動問答 | 知識圖譜構建及自動問答 |
ComplexEventExtraction | 複合事件圖譜 | 複合事件,條件事件、反轉事件抽取 |
CausalityEventExtraction | 因果事件圖譜 | 因果圖譜,因果事件抽取 |
SequentialEventExtration | 順承事件圖譜 | 動賓短語提取,事件圖譜 |
LanguageKnowledgeGraph | 語言政策知識圖譜 | Neo4j,Echarts,D3js |
HyponymyExtraction | 上下位關係圖譜 | 模式匹配,上下位概念表示 |
MusicLyricChatbot | 歌詞對對碰 | es搜尋,歌詞知識庫 |
五、文字挖掘與社會計算
專案名稱 | 中文名稱 | 專案技術點 |
---|---|---|
DocSentimentAnalysis | 基於句法依存的情感分析 | Template, Dependencyparser |
LearningBasedSentiment | 基於深度學習的情感分析 | CNN,RNN,ML |
TextGrapher | 文字結構化圖譜表示 | EventExtraction,知識表示 |
ImportantEventExtractor | 文字重要性計算 | textrank |
ZhuguanDetection | 文字主觀性計算 | subjective knowledge base |
SentenceSimilarity | 句子相似度計算 | distance, hash, haiming ,eidtdistance |
TopicCluster | 文字話題聚類 | LDA,Kmeans |
EventMonitor | 特定事件追蹤 | 新聞採集,事件監測架構,scrapy |
PoemMining | 中國古代詩詞挖掘 | 語料庫構建,文字挖掘 |
LawCrimeMining | 司法文字挖掘 | 語料庫構建,文字挖掘 |
HumorMining | 幽默計算 | 語料庫構建,文字挖掘 |
LanguagePlatform | 整合自然語言處理技術的語言平臺 | Neo4j,Echarts,Django |
六、深度學習與語義表示
專案名稱 | 中文名稱 | 專案技術點 |
---|---|---|
DeepLearningInaction | 深度學習練習 | Keras, Tensorflow |
Seq2SeqTranslation | 端到端的翻譯模型 | keras, lstm |
Word2Vector | 詞向量表示 | CBOW, SKIP-GRAM,Co-Matrix |
Sentence2Vector | 句子向量表示 | CBOW |
BiLSTM-NER | 基於BI-LSTM的命名實體識別 | keras, bi-lstm |
七、輿情資訊採集
專案名稱 | 中文名稱 | 專案技術點 |
---|---|---|
WeiboIndexSpyder | 微博指數採集 | selenium,xpath |
BaiduIndexSpyder | 百度指數採集 | xpath,selenium |
AliIndexSpyder | 阿里指數採集 | selenium,xpath |
懂語言者,得天下。要做好理解人類語言這件事,需要語言學家和電腦科學家一起努力,作為一個語言學背景而又敲程式碼的小菜來說,希望能夠從點滴做起,從語言資源出發,構建器儘可能全和優質的語言資源,包括基礎詞庫、知識庫、知識圖譜,並結合當下的一些業務,解決一些實際問題,這條路,將一直走下去。
若有交流,可聯絡:
劉煥勇,中國科學院軟體研究所,北京市海淀區中關村南四街四號。
郵箱:[email protected]
github主頁:https://github.com/liuhuanyong
github專案主頁:https://liuhuanyong.github.io/