Hive使用Snappy壓縮，Parquet格式儲存檔案

阿新 • • 發佈：2021-01-27

技術標籤：Hive

一、資料內容

95002,劉晨,女,19,IS
95017,王風娟,女,18,IS
95018,王一,女,19,IS
95013,馮偉,男,21,CS
95014,王小麗,女,19,CS
95019,邢小麗,女,19,IS
95020,趙錢,男,21,IS

二、檢視 `HDFS` 是否支援 `Snappy` 格式

在 shell 命令列執行：

hadoop checknative

21/01/26 20:32:52 WARN bzip2.Bzip2Factory: Failed to load/initialize native-bzip2 library system-native, will use pure-Java version
21/01/26 20:32:52 INFO zlib.ZlibFactory: Successfully loaded & 
 initialized native-zlib library
Native library checking:
hadoop:  true /opt/module/hadoop-2.7.2/lib/native/libhadoop.so
zlib:    true /lib64/libz.so.1
snappy:  true /opt/module/hadoop-2.7.2/lib/native/libsnappy.so.1
lz4:     true revision:99
bzip2:   false

若是 snappy 後面是 true ，則支援 snappy 壓縮。

三、方式一：使用 `load` 方式載入

1、建表

create table student
	(id Int,
	name String,
	sex String,
	age Int,
	country String) 
partitioned by(date_str String)
stored as parquet
tblproperties("parquet.compress"="SNAPPY");

2、查看錶結構，是否與第一步中建的一樣

desc formatted student;

3、直接載入資料

load data local inpath '/root/student.snappy.parquet' 
 into table student partition(date_str='2021');

四、方式二：將檔案先 `put` 到指定目錄，最後 `load`

–hive使用snappy壓縮，parquet格式儲存檔案（先將檔案存放到HDFS的’/stu’目錄下，然後再使用下面的建表語句，可以直接掃描到）
–但是分割槽表，掃描不到（錯誤意識）

1、先將檔案 `put` 到 `HDFS` 指定的目錄下（若是分割槽表，要 `put` 到指定分割槽）

hadoop fs -out  /root/student.snappy.parquet  /stu/date_str=2020

2、建表

create external table student_snappy
	(id Int,
	name String,
	sex String,
	age Int,
	country String)
partitioned by(date_str String)
stored as parquet
location '/stu'
tblproperties("parquet.compress"="SNAPPY");

3、查看錶結構，是否與第二步中建的一樣

desc formatted student;

4、直接載入資料

load data inpath '/stu/date_str=2020' into table student_snappy partition(date_str='2020');

五、注意事項：

1、`Hive` 表的欄位型別與 `Parquet` 檔案中欄位的型別必須一致。否則會導致空表（但不會報錯，讓你不會察覺）

2、使用第二種方法的時候。若不是分割槽表，不用 `load` 載入也可以查到資料。但若是分割槽表，則必須使用 `load` 載入，否則會導致空表（但不會報錯，讓你不會察覺）

3、使用第二種方法建分割槽表的時候。建表語句 `location` 不帶分割槽目錄。

六、附：使用 `Spark` 將 `txt` 檔案轉為 `Snappy` 壓縮（Spark預設壓縮格式），`Parquet` 格式的檔案

import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

/**
  * 將txt轉為parquet
  */
object Txt2Parquet {
  def main(args: Array[String]): Unit = {

    //待轉換的檔案路徑
    val path = "E:\\data\\student.txt"

    val spark: SparkSession = SparkSession.builder()
      .appName("Txt2Parquet")
      .master("local[*]").getOrCreate()

    //RDD ===> DataFrame
    val sc: SparkContext = spark.sparkContext
    //設定日誌級別
    sc.setLogLevel("WARN")

    //讀取txt檔案
    val stuRDD: RDD[String] = sc.textFile(path)

    //RDD ===> DataFrame 需要隱式轉換
    import spark.implicits._
    val stuDF: DataFrame = stuRDD.map(_.split(",", -1))
      .map(line => Student(line(0).toInt, line(1), line(2), line(3).toInt, line(4))).toDF()
    
    //寫為Snappy壓縮的Parquet檔案。設定檔案數為1
    stuDF.repartition(1).write.mode(SaveMode.Overwrite).parquet("E:\\data\\student")

    //設定壓縮格式為gzip
//    stuDF.repartition(1).write.mode(SaveMode.Overwrite)
//      .option("compression","gzip").parquet("E:\\data\\student_gzip")

    //關閉資源
    spark.stop()

  }
  case class Student(id: Int, name: String, sex: String, age: Int, country: String)
}

Hive使用Snappy壓縮，Parquet格式儲存檔案

技術標籤：Hive 一、資料內容 95002,劉晨,女,19,IS 95017,王風娟,女,18,IS 95018,王一,女,19,IS

spark-shell 啟動設定動態分割槽，snappy壓縮、parquet儲存以及備份

1、spark-shell 啟動設定動態分割槽 --executor-memory 16G \\ --total-executor-cores 10 \\ --executor-cores 10 \\

JAVA專案實戰-實現生成固定格式PDF檔案和打包成zip壓縮包並在瀏覽器中輸出

1.工具 // 生成PDF自定義模板內容 (1)Adobe Acrobat Pro9 2.操作步驟 (1)利用Adobe Acrobat Pro9 生成一張根據業務場景的PDF,設定每個內容的欄位(這款軟體功能比較強大，可以設定條形碼和二維碼的引數)

詳解Python中如何將資料儲存為json格式的檔案

一、基於json模組的儲存、讀取資料 names_writer.py import json names = [\'joker\',\'joe\',\'nacy\',\'timi\']

Java將資料生成XML檔案並進行壓縮成GZ格式

技術標籤：【XML】javaxmlgzipxstream 近期和PC端對接介面，在線上環境經常出現PC端介面拉取資料時後臺負載高的情況，為了解決這個問題，我們將介面轉換成xml檔案格式，每當PC客戶端啟動時會拉取服務端最新的xml

smtplib新增excel附件，收到附件發現是bin格式的檔案

在網上找了一些辦法，基本上都是格式或者寫法上的導致的並且錯誤的主要行是集中這段命令的第四行，

PB 匯出的Excel，開啟會提示檔案格式和副檔名不匹配問題

技術標籤：PowerBuilderexcelpb 問題： PB使用saveasascii 匯出Excel檔案，開啟Excel檔案時候提示下圖資訊：

java實現阿里雲(oss)多檔案獲取並壓縮成zip格式下載

package com.wei.common.web.api; import com.aliyun.oss.OSSClient; import com.aliyun.oss.model.OSSObject;

工具類|Java實現圖片等比例壓縮，支援png&jpg格式

技術標籤：工具類java 做圖片上傳專案，特別是基於網際網路專案的，往往要考慮到圖片到圖片不能太大，太大可能影響載入速度和使用者體驗，如果在前端做大小限制，讓使用者去處理圖片大小，有點太不人性化了。程

glob.glob（glob）用法、如何用兩行程式碼返回該資料夾下有規律或者相同字尾名的檔案路徑，返回格式為列表

技術標籤：正則表示式其他 glob.glob（glob）用法簡介 glob.glob：類似於檔案搜素，可以使用 *、?、[] 這三個萬用字元 *代表0或者多個字元、？代表一個字元、[]匹配指定範圍內的字元，如[0-9]匹配數字

Python碎片化學習教程 @9. 將指定路徑下的所有檔案和資料夾壓縮為.zip格式

技術標籤：Python碎片化學習教程python 程式碼功能：將指定路徑下的所有檔案和資料夾壓縮為.zip格式。程式碼如下：

微軟承認 Win10 新 Bug 可使部分 FLAC 格式音樂檔案損壞，已釋出緊急更新修復

6 月 2 日訊息根據微軟釋出的一份最新文件，Win10 檔案管理器中存在一個 Bug，可使部分 FLAC 格式音訊檔案損壞。

科學家開發標記和檢索 DNA 資料檔案新技術，DNA 資料儲存有望成真

北京時間 6 月 15 日訊息，據國外媒體報道，在近期的一項新研究中，美國麻省理工學院的科學家開發了一種標記和檢索 DNA 資料檔案的技術，這或許能讓 DNA 資料儲存成為可能。

Word 壓縮圖片功能教學，降低文件檔案大小

使用 Word 文件的壓縮圖片功能，降低圖片解析度，讓文件變得更小，方便透過網路傳輸。

阿里雲盤 PC 版上線：保持“不限速”，開放 30G 大檔案傳輸、線上解壓縮等功能

6 月 17 日訊息阿里雲盤 PC 版今日在官網上線。在繼續保持“不限速”基礎上，一次性推出適合桌面端的諸多特性：包括單個 30G 大檔案無限速傳輸、線上解壓縮、上傳和管理相簿、高清影音播放、拖拉拽互動等。

檔案管理高階（上傳下載，輸出與重定向，字元處理命令，打包與壓縮，軟連線）+許可權管理使用者組管理

上傳與下載 wget : 下載檔案如果系統中沒有wget,執行如下命令：yum install wget -y

parquet列儲存本身自帶壓縮配合snappy或者lzo等可以進行二次壓縮

上傳txt檔案到hdfs，txt檔案大小是74左右。這裡提醒一下，是不是說parquet加lzo可以把資料壓縮到這個地步，因為我的測試資料存在大量重複。所以下面使用parquet和lzo的壓縮效果特別好。

java將多個檔案的位元組陣列壓縮成一個位元組陣列，並生成zip檔案

public static void main(String[] args) throws IOException { Map<String,byte[]> map=new HashMap<>();

Java 基礎 (IO 物件流，隨機儲存檔案流)

IO 物件流 ObjectInputStream 和 OjbectOutputSteam 用於儲存和讀取基本資料型別資料或物件的處理流。它的強大之處就是可以把Java中的物件寫入到資料來源中，也能把物件從資料來源中還原回來。

物件儲存 AVIF 圖片壓縮，即將公測！

2021年8月，騰訊雲資料永珍以內測方式推出了最前沿的 AVIF 圖片壓縮服務，可以在圖片主觀質量相同的情況下大幅降低位元速率，節省儲存空間。經過3個月時間的內測，我們收集到了很多熱心使用者的反饋，AVIF 圖片壓縮

Hive使用Snappy壓縮，Parquet格式儲存檔案

一、資料內容

二、檢視 HDFS 是否支援 Snappy 格式

三、方式一：使用 load 方式載入

1、建表

2、查看錶結構，是否與第一步中建的一樣

3、直接載入資料

四、方式二：將檔案先 put 到指定目錄，最後 load

1、先將檔案 put 到 HDFS 指定的目錄下（若是分割槽表，要 put 到指定分割槽）

2、建表

3、查看錶結構，是否與第二步中建的一樣

4、直接載入資料

五、注意事項：

1、Hive 表的欄位型別與 Parquet 檔案中欄位的型別必須一致。否則會導致空表（但不會報錯，讓你不會察覺）

2、使用第二種方法的時候。若不是分割槽表，不用 load 載入也可以查到資料。但若是分割槽表，則必須使用 load 載入，否則會導致空表（但不會報錯，讓你不會察覺）

3、使用第二種方法建分割槽表的時候。建表語句 location 不帶分割槽目錄。

六、附：使用 Spark 將 txt 檔案轉為 Snappy 壓縮（Spark預設壓縮格式），Parquet 格式的檔案

相關推薦

二、檢視 `HDFS` 是否支援 `Snappy` 格式

三、方式一：使用 `load` 方式載入

四、方式二：將檔案先 `put` 到指定目錄，最後 `load`

1、先將檔案 `put` 到 `HDFS` 指定的目錄下（若是分割槽表，要 `put` 到指定分割槽）

1、`Hive` 表的欄位型別與 `Parquet` 檔案中欄位的型別必須一致。否則會導致空表（但不會報錯，讓你不會察覺）

2、使用第二種方法的時候。若不是分割槽表，不用 `load` 載入也可以查到資料。但若是分割槽表，則必須使用 `load` 載入，否則會導致空表（但不會報錯，讓你不會察覺）

3、使用第二種方法建分割槽表的時候。建表語句 `location` 不帶分割槽目錄。

六、附：使用 `Spark` 將 `txt` 檔案轉為 `Snappy` 壓縮（Spark預設壓縮格式），`Parquet` 格式的檔案