天人合一之畢設——實踐階段9—— 冪律定律
師兄上次看到我跑的結果,說少部分物件佔用大多數的訪問次數,很符合冪律定律(本質上是二八定律)
copy了一段背景,瞭解下:
自然界與社會生活中存在各種各樣性質迥異的冪律分佈現象。1932年,哈佛大學的語言學專家Zipf在研究英文單詞出現的頻率時,發現如果把單詞出現的頻率按由大到小的順序排列,則每個單詞出現的頻率與它的名次的常數次冪存在簡單的反比關係,這種分佈就稱為Zipf定律,它表明在英語單詞中,只有極少數的詞被經常使用,而絕大多數詞很少被使用。實際上,包括漢語在內的許多國家的語言都有這種特點。
它的數學模型是:y
冪律分佈表現為一條斜率為冪指數的負數的直線,這一線性關係是判斷給定的例項中隨機變數是否滿足冪律的依據
1.論文中肯定要提到並介紹冪律定律,還要畫圖,所以我可能需要擬合一下
關於擬合的部落格:https://blog.csdn.net/kevinelstri/article/details/52685934, 這個是用Python做的
不過這個圖可以借鑑
到時候用MATLAB擬合吧,https://zhidao.baidu.com/question/1704079865194178300.html
這個介紹了方法,但是圖比較醜
https://blog.csdn.net/sun_wangdong/article/details/46468097
2.怎麼根據冪律定律來劃分資料冷熱呢?哪裡才是該一刀切的地方呢?
目前想到的思路:
1.根據第N+1個數和第N個數的差距(即斜率)來看,斜率最大的地方應該是一刀切的地方
比如{400,200,20,19,19,19}
他的差的絕對值序列應該為{200,180,1,0,0,}
按照這種思路就應該是400/200,20....這樣並不合理
2.在1基礎上改進,第N+1個數和第N個數的差距/第N個數,意味著在我的基礎上變了多少
就比方說上面,雖然400-200差是200,但是隻變了400的50%
200-20差是180,雖然低於200,但是變了90%
3.第N+1個數/第N個數的比值,挑選比值最大的地方切開,其實這個思路好像就是第二種
假設第N+1個數為a,第N個數為b,第二種就是b-a/b 或 a-b/b,即1-a/b或a/b-1,第三種就是直接a/b
那就直接用第三種吧,思路比較簡單