1. 程式人生 > >中國古代詩詞文字挖掘專案

中國古代詩詞文字挖掘專案

PoemMining

專案地址:https://github.com/liuhuanyong/PoemMining

Chinese Classic Poem Mining Project including corpus buiding by spyder and content analysis by nlp methods, 基於爬蟲與nlp的中國古代詩詞文字挖掘專案

專案介紹

中國古代詩詞文化無疑是文化瑰寶,如何運用計量語言學方法對古代詩詞進行挖掘,將有重要意義,本專案將從以下幾個方面進行嘗試:
1)基於詩詞集合的詩人畫像生成
2)基於詩詞集合的詩人地點足跡識別
3)基於詩詞集合的相似詩人聚類, 基於ATM模型,user2vec模型
4)基於詩詞集合的情緒分類,標籤自動生成
5)基於詩詞集合的意象挖掘

專案結構

專案主要包括兩個任務:

  1. 古代詩詞語料庫的構建
  2. 基於古代詩詞語料庫的挖掘

指令碼結構

1, poem_spider.py:主要完成古代詩詞語料庫的構建,選取的是古詩文網 (https://so.gushiwen.org),結果已經儲存至corpus_poem.zip檔案當中
2, poem_process.py:主要基於構建起來的古詩詞語料庫,進行基礎的文字分析,根據網站上的使用者互動資訊,得到古詩詞文字本身的外部資訊
3, atm_model.py:利用作者-主題模型,對古詩詞進行主題分析,最終目的是實現作者主題分佈與風格聚類
4, location_mining.py:基於詩人百科生平記事的地點挖掘與視覺化,最終最終實現對詩人關聯地點的一鍵生成.

階段性成果

1, 古代詩詞語料庫,一共採集到92127首古代詩詞
2, 古代詩詞外部計量分析結果,結果儲存至result資料夾
3, 詩人足跡一鍵生成,使用方式如下,結果會直接生成以搜尋詩人名字命名的html檔案:

from location_mining import *
name = '李白'
handler = PoetWalk()
handler.mining_main(name)

以下是舉例結果:
李白足跡
image
李清照足跡
image
蘇軾足跡
image
文天祥足跡
image

專案地址:https://github.com/liuhuanyong/PoemMining

If any question about the project or me ,see

https://liuhuanyong.github.io/