Hive讀取索引檔案問題：select * 和select count(*)讀取出來的行數不一致

阿新 • • 發佈：2021-02-05

兩種方式，分別查詢資料有多少行：

hive (gmall)> select * from ods_log;
Time taken: 0.706 seconds, Fetched: 2955 row(s)

hive (gmall)> select count(*) from ods_log;
2959

兩次查詢結果不一致的原因分析

hive (gmall)> 
drop table if exists ods_log;
CREATE EXTERNAL TABLE ods_log (`line` string)
PARTITIONED BY 
 (`dt` string) -- 按照時間建立分割槽
STORED AS -- 指定儲存方式，讀資料採用LzoTextInputFormat；
  INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
  OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION '/warehouse/gmall/ods/ods_log'  -- 指定資料在hdfs上的儲存位置
;

這是當時建立表時的語句，指定了儲存格式為lzo，然後執行了為lzo檔案建立索引的命令

hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/common/hadoop-lzo-0.4.20.jar com.hadoop.compression.lzo.DistributedLzoIndexer -Dmapreduce.job.queuename=hive /warehouse/gmall/ods/ods_log/dt=2020-06-14

在這裡插入圖片描述
所以在HDFS上的hive裡存著lzo格式資料和lzo.index索引檔案，這便於對檔案進行切片。

但是select * from ods_log不執行MR操作，預設採用的是ods_log建表語句中指定的DeprecatedLzoTextInputFormat

，能夠識別lzo.index為索引檔案。
select count(*) from ods_log執行MR操作，預設採用的是CombineHiveInputFormat，不能識別lzo.index為索引檔案，將索引檔案當做普通檔案處理。更嚴重的是，這會導致LZO檔案無法切片。

Hive讀取索引檔案問題：select * 和select count(*)讀取出來的行數不一致

技術標籤：踩坑記錄Hivehadoop索引大資料hive 兩種方式，分別查詢資料有多少行：

「日誌」Navicat統計的行數竟然和表實際行數不一致

背景近期為了保障線上資料庫的穩定性，我決定針對一些大表的歷史資料有計劃地進行備份遷移，但是呢，發現一個奇特的現象，Navicat統計行數和表自身count統計數竟然不一致！？0.0

xlrd 讀取xlsx檔案：日期讀取問題

技術標籤：py+torch+tensorflow+anacondapython 直接讀取值不對 import xlrd# 引入模組 from datetime import datetime

檔案或目錄損壞且無法讀取怎麼辦,檔案或目錄損壞且無法讀取尋回方法

“檔案或目錄損壞且無法讀取”怎麼辦?呢？很多人都不知道該怎麼辦，其實我們只需要進行修復就可以了，具體該如何修復，下面小編來詳細的講解一下。

Mybatis Generator 路徑和實體類要放的路徑不一致導致Could not resolve type alias

Mybatis Generator 路徑和實體類要放的路徑不一致。會出現一系列的錯誤。手動修改alias也還是會報錯，直接重新生成

python批量檢查兩個對應的txt檔案的行數是否一致的例項程式碼

在做深度學習的目標檢測中，我們在測試好資料集後，可以用批量檢查兩個資料檔案下面的標籤檔案，看看他們的行數是否一致，這樣可以判斷是否有漏檢的情況，就不用一張張圖片去看了。

win10 爬蟲：解決爬取的html與原始檔顯示不一致問題

技術標籤：selenium爬蟲python 在進行爬蟲時，有時我們爬取的html和原始檔所顯示的不一樣，此時我們需要使用selenium庫來進行爬取。本文將詳細介紹如何解決這個問題。

關於有固定列的el-table 在滾動載入的時候固定列的行和非固定列的行對不齊有幾px的錯位且doLayout不生效有對應的解決方案

關於有固定列的el-table 在滾動載入的時候固定列的行和非固定列的行對不齊有幾px的錯位且doLayout不生效有對應的解決方案：

sql server死鎖：identify導致的 insert 和 select max(id)

【1】死鎖資訊【1.1】圖　　左邊：selectmax(id)fromtab右邊：insertinto tab values.....

精進 Spring Boot 03：Spring Boot 的配置檔案和配置管理，以及用三種方式讀取配置檔案

本文介紹 Spring Boot 的配置檔案和配置管理，以及介紹了三種讀取配置檔案的方式，並進行程式碼演示。

深入理解go-channel和select的原理

Go最吸引人的兩個地方，除了goroutine，也就是channel了，同時，我一直很納悶，select到底是怎麼實現的？跟我之前的文章一樣，部分無關的程式碼直接省略

從零寫一個編譯器（完結）：總結和系列索引

前言這個系列算作我自己的學習筆記，到現在已經有十三篇了，加上這篇一共十四篇。一步一步的從詞法分析到語法分析、語義分析，再到程式碼生成，準備在這一篇做一個總結收尾和一個這個系列以前文章的索引。

SQL SERVER中SELECT和SET賦值相同點與不同點(推薦)

SELECT和SET在SQL SERVER中都可以用來對變數進行賦值，但其用法和效果在一些細節上有些不同。

select count()和select count(1)的區別和執行方式講解

在SQL Server中Count(*)或者Count(1)或者Count([列])或許是最常用的聚合函式。很多人其實對這三者之間是區分不清的。本文會闡述這三者的作用，關係以及背後的原理。

insert和select結合實現"插入某欄位在資料庫中的最大值＋1"的方法

本文是mysql 資料庫問題一將表一的資料匯入表二：將表一的資料匯入表二：將表二中的資料插入到表一，表一的列對應表二 select 出來的列

詳解Python Opencv和PIL讀取影象檔案的差別

前言之前在進行深度學習訓練的時候，偶然發現使用PIL讀取圖片訓練的效果要比使用python-opencv讀取出來訓練的效果稍好一些，也就是訓練更容易收斂。可能的原因是兩者讀取出來的資料轉化為pytorch中Tensor變數稍有不

詳解為element-ui的Select和Cascader新增彈層底部操作按鈕

如下圖這樣把操作按鈕放在select彈層底部是一種挺常見的設計方式但是很遺憾element-ui沒有給我們提供這個插槽，我們想實現這個功能只能重寫元件或者等官方更新嗎，答案當然是否定的！

資料庫學習之將mysql的insert和select操作封裝成類

import pymysql class MyMysql: def __init__(self): mysql_config = { \'host\':\'127.0.0.1\',\'port\':3306,\'user\':\'root\',\'password\':\'qwe123\',\'db\':\'wumou\',\'charset\': \'utf8\'

型別選擇之 Conditional 和 Select

Conditional:在兩種型別中進行選擇的方法。 Select:在多種型別中進行選擇的方法。

html中的下拉框—select和input方式

1.使用<select>標籤優點：可以初始化選中項缺點：不能自定義option的樣式，自帶的樣式很醜

Hive讀取索引檔案問題：select * 和select count(*)讀取出來的行數不一致

兩種方式，分別查詢資料有多少行：

兩次查詢結果不一致的原因分析

相關推薦