1. 程式人生 > >Incorporating Tweet Relationships into Topic Derivation

Incorporating Tweet Relationships into Topic Derivation

這篇文章的精髓,大約在這幾句話:(勝率tweet相關性判斷部分)

While expanding the content of the tweets using external documents seems to be ideal.....expanding the tweet content by adding the words from the related tweets(解決稀疏性,所以要對文字進行拓展——將相似度高的tweet合併)

.......so that if two tweets are related, then the of those two tweets will be simultaneously adjusted based on the sampled topic.(改變取樣策略,相似的tweet,話題一致)

Incorporating <wbr>Tweet <wbr>Relationships <wbr>into <wbr>Topic <wbr>Derivation 如演算法所示,每次取樣,都要修改所有相似tweet的話題分佈——那麼一次迭代,相似話題之間會互相修改啊,而且每次修改的是tweet的統計量,但是取樣的粒度是單詞,這樣合適嗎?(嗯,大概是合適的,如果假設文字長度一致)。

很煩,這種粗粒度處理。

總,這篇文章有想法,有啟發性,但是策略太糙了。