1. 程式人生 > 其它 >小紅書資料分析筆試題整理

小紅書資料分析筆試題整理

銷量下降的原因分析

  1. 利用結構化思維拆分銷量。 對 “店鋪銷量構成” 進行拆解並分析不同類目的銷量,進一步明確問題根源(哪幾類商品銷量下降最嚴重)。接下來我們針對每種品類去分析影響銷量的因素有哪些,可能原因見圖1。
    ![在這裡插入圖片描述](https://imgconvert.csdnimg.cn/aHR0cDovL2ltYWdlLndvc2hpcG0uY29tL3dwLWZpbGVzLzIwMTgvMTEvRzdLRFcwSGNaQ2s2YUlsdTVLR1kuanBnIXYuanBn?x-oss-
    process=image/format,png)
    圖1

  2. 將與銷量相關的指標量化
    所謂量化就是窮盡所有指標的最小單元,即最小不可分割原則。經過這樣一層一層公式化的量化,你就最可能找到那些“最小不可分割的指標”,進而最可能發現本質的問題所在了。統計關鍵環節的各層面的轉化率才能反應哪個維度出了問題。最終通過一次複雜的體系化的分析後,你能得到產品的分析框架,以後再遇到什麼問題,只需要在分析框架上看資料比率變化,找到對應影響的維度,再通過實際真實業務情況加以佐證,就能夠儘可能的接近問題真相了。
    ![在這裡插入圖片描述](

    https://img-blog.csdnimg.cn/20190914173126946.png?x-oss-
    process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzczMDk1NQ==,size_16,color_FFFFFF,t_70)

  3. 尋找核心指標
    結合具體業務尋找相關性比較大的指標(經驗法,皮爾遜相似度)
    http://www.woshipm.com/data-analysis/1628977.html

AARRR模型

Acquisition:獲取使用者
Activation:提高活躍度
Retention:提高留存率
Revenue:獲取收入
Refer:自傳播
確切的說AARRR並不算是一種資料分析模型,而是一整套資料分析的思路,邏輯框架。AARRR模型是所有產品經理都要了解的一個數據模型。著名的《增長黑客》裡面的資料分析基礎,也是以這個模型為基礎的。
提升活躍與留存4種方式:

  1. 有效觸達,喚醒使用者:指的是通過手機PUSH、簡訊和微信公眾號等能夠觸達到使用者,喚醒沉睡使用者啟動APP的方式,是提升留存的非常有效的方法之一。如遊戲老使用者簡訊召回,電商老使用者召回,召回肯定是有成本的,所以要根據使用者以往行為,進行分析定為,找到召回率最高的那部分使用者。(如RFM模型定為核心使用者)

  2. 搭建激勵體系,留存使用者:好的激勵體系,可以讓平臺健康持續發展,讓使用者對平臺產生粘性,對提升留存非常有效。通常使用的激勵方式有成長值會員體系、簽到體系、積分任務體系。

  3. 豐富內容,增加使用者線上時長:這點遊戲產品做的非常好,各種玩法活動本身就吸引使用者投入時間成本,遊戲又不斷強化社交屬性,更增加使用者粘度與成本投入。

  4. 資料反推,找到你的關鍵點:比如知乎,評論超過3次,使用者就會留存下來,很難流失。比如有些遊戲產品,一旦玩家跨過某個等級就就很難流失。這些都是你需要通過資料分析才能找到的關鍵節點。

https://zhuanlan.zhihu.com/p/32696403

泊松分佈

泊松分佈適合於描述單位時間內隨機事件發生的次數的概率分佈。如某一服務設施在一定時間內受到的服務請求的次數,電話交換機接到呼叫的次數、汽車站臺的候客人數、機器出現的故障數、自然災害發生的次數、DNA序列的變異數、放射性原子核的衰變數、鐳射的光子數分佈等等。

對某公共汽車站的客流做調查,統計了某天上午10:30到11:47來到候車的乘客情況。假定來到候車的乘客各批(每批可以是1人也可以是多人)是互相獨立發生的。觀察每20秒區間來到候車的乘客批次,共觀察77分鐘
*
3=231次,共得到230個觀察記錄。其中來到0批、1批、2批、3批、4批及4批以上的觀察記錄分別是100次、81次、34次、9次、6次。使用極大似真估計(MLE),得到
\lambda 的估計(81 1+34 2+9 3+6 4)/231=0.8658。

常見分佈的數學期望和方差

http://www.doc88.com/p-990239555154.html

sql語句regexp_replace

    select regexp_replace('abcc123','abc','*'),regexp_replace('abcc123','[ac]','*'),regexp_replace('abcc123','[ac]') from dual;
    *c123                          *b**123                        b123

Excel中取前幾位數、中間幾位數、後幾位數的方法

http://www.htmer.com/article/748.htm

偏度與峰度的正態性分佈判斷

偏度(Skewness)
偏度衡量隨機變數概率分佈的不對稱性,是相對於平均值不對稱程度的度量,通過對偏度係數的測量,我們能夠判定資料分佈的不對稱程度以及方向。
具體來說,對於隨機變數X,我們定義偏度為其的三階標準中心距:

對於樣本的偏度,我們一般記為SK,我們可以基於矩估計,得到有:

偏度的衡量是相對於正態分佈來說,正態分佈的偏度為0,即若資料分佈是對稱的,偏度為0。若偏度大於0,則分佈右偏,即分佈有一條長尾在右;若偏度小於0,則分佈為左偏,即分佈有一條長尾在左(如下圖);同時偏度的絕對值越大,說明分佈的偏移程度越嚴重。
![在這裡插入圖片描述](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9waWMyLnpoaW1nLmNvbS92Mi1lNzAyNjcxZmZkZmI2OTk3ZGQ2ZTIzZGUwMTRlMTJmNV9yLmpwZw?x-oss-
process=image/format,png)
峰度(Kurtosis)
峰度,是研究資料分佈陡峭或者平滑的統計量,通過對峰度係數的測量,我們能夠判定資料相對於正態分佈而言是更陡峭還是更平緩。比如正態分佈的峰度為0,均勻分佈的峰度為-1.2(平緩),指數分佈的峰度6(陡峭)。
![在這裡插入圖片描述](https://img-blog.csdnimg.cn/20190905195256989.png?x-oss-
process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80MzczMDk1NQ==,size_16,color_FFFFFF,t_70)
![在這裡插入圖片描述](https://imgconvert.csdnimg.cn/aHR0cHM6Ly9waWMyLnpoaW1nLmNvbS84MC92Mi02Nzg4N2Q3NDVkYTFiN2RjZTE0NjhiZmNjYjQ1MWQ5OV9oZC5qcGc?x-oss-
process=image/format,png)
正態性檢驗
利用變數的偏度和峰度進行正態性檢驗時,可以分別計算偏度和峰度的Z評分(Z-score)。
偏度Z-score = 偏度值/偏度值的標準差
峰度Z-score = 峰度值 /峰度值的標準差
在 [公式] 的檢驗水平下,偏度Z-score和峰度Z-
score是否滿足假設條件下所限制的變數範圍(Z-score在±1.96之間),若都滿足則可認為服從正態分佈,若一個不滿足則認為不服從正態分佈。
正態性檢驗的適用條件
樣本的增加會減小偏度值和峰度值的標準差,相應的Z-
score會變大,最終會拒絕條件假設,會給正確判斷樣本資料的正態性情況造成一定的干擾。因此,當樣本資料量小於100時,用偏度和峰度來判斷樣本的正態分佈性比較合理。
https://zhuanlan.zhihu.com/p/53184516

資料庫的一致性

ACID裡的AID都是資料庫的特徵,也就是依賴資料庫的具體實現.而唯獨這個C,實際上它依賴於應用層,也就是依賴於開發者.這裡的一致性是指系統從一個正確的狀態,遷移到另一個正確的狀態.什麼叫正確的狀態呢?就是當前的狀態滿足預定的約束就叫做正確的狀態.而事務具備ACID裡C的特性是說通過事務的AID來保證我們的一致性.
而ACID就是說事務能夠通過AID來保證這個C的過程.C是目的,AID都是手段.
https://www.zhihu.com/question/31346392

常用六大聚類演算法

  1. K-Means(K均值)聚類