中國古代詩詞文字挖掘專案

阿新 • • 發佈：2018-11-28

PoemMining

專案地址：https://github.com/liuhuanyong/PoemMining

Chinese Classic Poem Mining Project including corpus buiding by spyder and content analysis by nlp methods, 基於爬蟲與nlp的中國古代詩詞文字挖掘專案

專案介紹

中國古代詩詞文化無疑是文化瑰寶，如何運用計量語言學方法對古代詩詞進行挖掘，將有重要意義，本專案將從以下幾個方面進行嘗試:
１）基於詩詞集合的詩人畫像生成
２）基於詩詞集合的詩人地點足跡識別
３）基於詩詞集合的相似詩人聚類, 基於ATM模型，user2vec模型
４）基於詩詞集合的情緒分類，標籤自動生成
５）基於詩詞集合的意象挖掘

專案結構

專案主要包括兩個任務:

古代詩詞語料庫的構建
基於古代詩詞語料庫的挖掘

指令碼結構

1, poem_spider.py:主要完成古代詩詞語料庫的構建，選取的是古詩文網 (https://so.gushiwen.org)，結果已經儲存至corpus_poem.zip檔案當中
2, poem_process.py:主要基於構建起來的古詩詞語料庫，進行基礎的文字分析，根據網站上的使用者互動資訊，得到古詩詞文字本身的外部資訊
3, atm_model.py:利用作者－主題模型，對古詩詞進行主題分析，最終目的是實現作者主題分佈與風格聚類
4, location_mining.py:基於詩人百科生平記事的地點挖掘與視覺化，最終最終實現對詩人關聯地點的一鍵生成．

階段性成果

1, 古代詩詞語料庫,一共採集到92127首古代詩詞
2, 古代詩詞外部計量分析結果，結果儲存至result資料夾
3, 詩人足跡一鍵生成，使用方式如下，結果會直接生成以搜尋詩人名字命名的html檔案：

from location_mining import *
name = '李白'
handler = PoetWalk()
handler.mining_main(name)

以下是舉例結果：
李白足跡

李清照足跡

蘇軾足跡

文天祥足跡

專案地址：https://github.com/liuhuanyong/PoemMining

If any question about the project or me ,see

https://liuhuanyong.github.io/

中國古代詩詞文字挖掘專案

PoemMining

專案介紹

專案結構

指令碼結構

階段性成果

中國古代詩詞文字挖掘專案

基於裁判文書與犯罪案例文字挖掘專案

中國古代研究

5星|《南北戰爭三百年》：還原中國古代冷兵器戰爭細節

4.5星|《中央帝國的財政密碼》：貨幣戰爭兩千年，中國古代王朝興衰更叠的財政原因

歷代多少名揚千古美男子？中國古代八大小鮮肉排行榜！

文字挖掘----基於OCR的文件關鍵字提取

美康奈爾大學暫停與中國人民大學的合作專案外交部回

Spark應用HanLP對中文語料進行文字挖掘--聚類詳解教程

機器學習 -- 文字挖掘

python文字挖掘

python文字挖掘輸出權重，詞頻等資訊，畫出3d權重圖

達觀資料：文字的起源與文字挖掘的前世今生

python資料探勘實戰筆記——文字挖掘（1）：語料庫構建

python資料探勘實戰筆記——文字挖掘（4）：詞雲繪製

文字挖掘入門(一)：大眾點評評論爬蟲

Python資料探勘學習筆記（1）文字挖掘入門

Python生成詞雲圖，TIIDF方法文字挖掘: 詞頻統計，詞雲圖

文字挖掘相關內容

如何用python大資料文字挖掘來看“共享單車”的行業現狀及走勢呢？

中國古代詩詞文字挖掘專案

PoemMining

專案介紹

專案結構

指令碼結構

階段性成果

相關推薦