中國古代詩詞文字挖掘專案
PoemMining
專案地址:https://github.com/liuhuanyong/PoemMining
Chinese Classic Poem Mining Project including corpus buiding by spyder and content analysis by nlp methods, 基於爬蟲與nlp的中國古代詩詞文字挖掘專案
專案介紹
中國古代詩詞文化無疑是文化瑰寶,如何運用計量語言學方法對古代詩詞進行挖掘,將有重要意義,本專案將從以下幾個方面進行嘗試:
1)基於詩詞集合的詩人畫像生成
2)基於詩詞集合的詩人地點足跡識別
3)基於詩詞集合的相似詩人聚類, 基於ATM模型,user2vec模型
4)基於詩詞集合的情緒分類,標籤自動生成
5)基於詩詞集合的意象挖掘
專案結構
專案主要包括兩個任務:
- 古代詩詞語料庫的構建
- 基於古代詩詞語料庫的挖掘
指令碼結構
1, poem_spider.py:主要完成古代詩詞語料庫的構建,選取的是古詩文網 (https://so.gushiwen.org),結果已經儲存至corpus_poem.zip檔案當中
2, poem_process.py:主要基於構建起來的古詩詞語料庫,進行基礎的文字分析,根據網站上的使用者互動資訊,得到古詩詞文字本身的外部資訊
3, atm_model.py:利用作者-主題模型,對古詩詞進行主題分析,最終目的是實現作者主題分佈與風格聚類
4, location_mining.py:基於詩人百科生平記事的地點挖掘與視覺化,最終最終實現對詩人關聯地點的一鍵生成.
階段性成果
1, 古代詩詞語料庫,一共採集到92127首古代詩詞
2, 古代詩詞外部計量分析結果,結果儲存至result資料夾
3, 詩人足跡一鍵生成,使用方式如下,結果會直接生成以搜尋詩人名字命名的html檔案:
from location_mining import *
name = '李白'
handler = PoetWalk()
handler.mining_main(name)
以下是舉例結果:
李白足跡
李清照足跡
蘇軾足跡
文天祥足跡
專案地址:https://github.com/liuhuanyong/PoemMining
If any question about the project or me ,see