轉載：hive視窗函式必備寶典

阿新 • • 發佈：2020-10-11

原始連結：https://blog.csdn.net/dingchangxiu11/article/details/83145151

hive視窗函式必備寶典

Hive中提供了越來越多的分析函式，用於完成負責的統計分析。我們先在一一列舉，希望能夠加深印象，希望大家積極討論，如有不足，請大家多多指教。。。。

1.Row_Number,Rank，Dense_Rank 這三個視窗函式的使用場景非常多

row_number():從1開始，按照順序，生成分組內記錄的序列,row_number()的值不會存在重複,當排序的值相同時,按照表中記錄的順序進行排列;通常用於獲取分組內排序第一的記錄;獲取一個session中的第一條refer等。

rank()：生成資料項在分組中的排名，排名相等會在名次中留下空位。

dense_rank():生成資料項在分組中的排名，排名相等會在名次中不會留下空位。

示例：資料準備

select * from dcx1234;

2.SUM、AVG、MIN、MAX

首先理解下什麼是WINDOW子句

PRECEDING：往前
FOLLOWING：往後
CURRENT ROW：當前行
UNBOUNDED：起點，UNBOUNDED PRECEDING 表示從前面的起點， UNBOUNDED FOLLOWING：表示到後面的終點

3.NTILE

NTILE(n) 用於將分組資料按照順序切分成n片，返回當前切片值，如果切片不均勻，預設增加第一個切片的分佈。NTILE不支援ROWS BETWEEN

使用場景：

1.如一年中，統計出工資前1/5之的人員的名單，使用NTILE分析函式,把所有工資分為5份，為1的哪一份就是我們想要的結果.

2.sale前20%或者50%的使用者ID

4.LEAD,LAG,FIRST_VALUE,LAST_VALUE

lag與lead函式可以返回上下行的資料

LEAD(col,n,DEFAULT) 用於統計視窗內往下第n行值
第一個引數為列名，第二個引數為往下第n行（可選，預設為1），第三個引數為預設值（當往下第n行為NULL時候，取預設值，如不指定，則為NULL）

使用場景：通常用於統計某使用者在某個網頁上的停留時間

LAG(col,n,DEFAULT) 用於統計視窗內往上第n行值

第一個引數為列名，第二個引數為往上第n行（可選，預設為1），第三個引數為預設值（當往上第n行為NULL時候，取預設值，如不指定，則為NULL）

FIRST_VALUE:取分組內排序後，截止到當前行，第一個值

LAST_VALUE:取分組內排序後，截止到當前行,最後一個值

如果不指定ORDER BY，則預設按照記錄在檔案中的偏移量進行排序，會出現錯誤的結果

如果想要取分組內排序後最後一個值，則需要變通一下:

提示：在使用分析函式的過程中，要特別注意ORDER BY子句，用的不恰當，統計出的結果就不是你所期望的

5.CUME_DIST，PERCENT_RANK

這兩個序列分析函式不是很常用，這裡也介紹下，他不支援window子句

–CUME_DIST 小於等於當前值的行數/分組內總行數
–比如，統計小於等於當前薪水的人數，所佔總人數的比例

PERCENT_RANK 分組內當前行的RANK值-1/分組內總行數-1

轉載：hive視窗函式必備寶典

原始連結：https://blog.csdn.net/dingchangxiu11/article/details/83145151 hive視窗函式必備寶典

Hive視窗函式詳細介紹1

在hive中，視窗函式（又叫開窗函式）具有強大的功能，掌握好視窗函式，能夠幫助我們非常方便的解決很多問題。首先我們要了解什麼是視窗函式，簡單的說視窗函式是hive中一種可以按指定視窗大小計算的函式，例如，sum(

Hive視窗函式詳細介紹2，rank()，dense_rank() ,row_number()

在hive中，有三種視窗函式，rank(),dense_rank() 和row_number() 可以在視窗內實現對資料的排序。現在主要介紹這三個視窗函式的區別

Hive 視窗函式詳細介紹3 lag，lead，first_value，last_value

這篇文章繼續介紹4個視窗函式。 lag lag(column_name,n,default):用於統計視窗內往上第n行的值，第一個引數為列名，第二個引數為往上第n行（可選，預設為1），第三個引數為預設值（當往上n行為null時，取預設值，若不

HIVE視窗函式

hive視窗函式視窗函式是什麼？視窗函式指定了函式工作的資料視窗大小，這個資料視窗大小可能會隨著行的變化而變化。

Hive視窗函式保姆級教程

在SQL中有一類函式叫做聚合函式，例如sum()、avg()、max()等等，這類函式可以將多行資料按照規則聚集為一行，一般來講聚集後的行數是要少於聚集前的行數的。但是有時我們想要既顯示聚集前的資料，又要顯示聚集後的資

漲知識：【Java核心面試寶典

漲知識：【Java核心面試寶典但是我們有時候儲存的資料會很多，那麼如果一直使用連結串列的形式進行資料的儲存的話就或造成我們的連結串列的長度非常大，這樣無論在進行刪除還是在進行插入操作都是十分麻煩的，因

阿里：內部軟體測試面試寶典傳出，其實大廠面試也沒有這麼難

金九銀十，又是一年跳槽季，大家找工作的需求比較高，想找軟體測試工作，應該要怎麼進行技術面試準備？

Python小白乾貨寶典：sorted()函式：列表元素排序

定義： sorted()函式對所有可迭代的物件進行排序操作。內建函式 sorted 方法返回的是一個新的 list，而不是在原來的基礎上進行的操作。

Hive中除了視窗函式外的常用函式：casewhen，行轉列，列轉行

技術標籤：hive 一、關於使用函式的一些小方法顯示系統自帶所有函式 show functions;描述指定函式的作用 desc function 函式名;描述函式的詳情資訊(一般是都是有例子的) desc function extended 函式名;

springboot：進入大廠前需要領悟的寶典，你明白嗎？

在前面的文章過Damon說過SSM是目前較為流行的開發模板，但其實在許多大公司的開發中，主流的Springboot才是主流。這些公司之所以選擇使用springboot的原因，不單單是因為優點是對新手無需任何門檻，只要懂Maven會看檔

Hive常用函式大全（視窗函式、分析函式）

1、相關函式 1.1 視窗函式 FIRST_VALUE：取分組內排序後，截止到當前行，第一個值

JavaScript工具函式寶典

前端大佬都在使用的JavaScript工具函式寶典（內含95個工具函式） 01 為元素新增on方法

刷題必備！堪稱最強！火爆GitHub的演算法刷題寶典現已被全網瘋傳

前言隨著網際網路金九銀十的到來, 越來越多的網際網路公司為了考核程式設計師的思維能力，提高了面試的難度，其中之一就是加大了面試當中手撕演算法題的比例。這裡說的演算法題不是深度學習，機器學習這類

Java程式設計師進階必備技能，程式設計師升職加薪寶典！

前言有很多程式設計師工作兩三年了，每天就是增刪改查，沒有目標，想換個工作環境，但是又怕自己技術不行，找不到好工作，今天小編總結了幾點Java程式設計師進階必須要掌握的技能，分享給大家，希望能幫助

獨家祕笈：年薪50萬的程式設計師到底要會多少MySQL，阿里大廠的MySQL高階筆記和麵試寶典瘋傳，已開掛！

但凡有職場經驗的兄弟都知道，大廠的面試真是一言難盡，不光看你面試時的臨場發揮能力，還要分N次考你對公司業務核心技術的熟悉度。你要沒有紮實的基本功，想忽悠住面試官可太難了。你去翻翻大廠那些30、40

面試：年薪30W+Java崗需要什麼水平？《2020年面試寶典總綱筆錄》

前言一份月薪30K的java開發崗位工作要求是怎樣的呢？面試都會問到哪些呢？任職要求： 1、計算機或相關專業本科（或以上）學歷，具備3年以上Java服務端開發經驗，熟悉常用的Java開源框架，如熟悉Spring、

阿里架構師純手寫java面試寶典：spring/Redis/資料/Kafka/微服務，就問還有誰？

Java的誕生已經超過了20年。一直以來，Java以其語法簡單，開發者可以快速上手，適應眾多領域，具有跨平臺能力等特性，吸引了無數程式設計師學習和使用。基於Java優秀的特性和龐大的使用基礎，各大公司對Java工程

c++ log函式_資料分析系列：SQL筆試總結之神奇的視窗函式

技術標籤：c++ log函式datatable的資料進行組內排序什麼是視窗函式？視窗函式就是類似於group by聚合函式，但又不同於聚合函式。聚合函式是將組內多個數據聚合成一個值，而視窗函式除了可以將組內資料聚合

數倉工具—Hive語法之視窗函式練習和總結(15)

技術標籤：資料倉庫Hivehive大資料資料倉庫面試視窗函式練習視窗函式其實日常中用的是比較多的，加上之前我們分別介紹了各個視窗函式，今天我們就練習和總結一下