HBase筆記整理（二）

阿新 • • 發佈：2018-03-23

大數據 HBase

[TOC]

HBase筆記整理（二）

邏輯結構

RowKey第一位
  ColumnFamily
    ColumnQuiauer
      value(TimeStamps)
      Cell

物理結構

HMaster ----->NameNode

管理節點，用於管理HBase中的Table和Region的結構操作，比如用戶增、刪、修改表的操作。
在HBase集群中，可以啟動多個HMaster，但是只能有一個HMaster屬於Active的狀態，通過ZooKeeper和其它standby狀態的HMaster進程完成，一個狀態的切換，或者選舉。
我們可以使用HMaster的shutdown放關閉整個集群，在關閉整個集群的時候，需要向通知HRegionServer進行關閉，並反饋給HMaster，HMaster才自行關閉。

HRegionServer----->DataNode

存放Region的服務器，需要在HMaster進行註冊，如此才能在HMaster中對其進行管理，在HBase集群中，可以部署多個HRegionServer

Region

存儲的是一張表的一個特定的Region數據，包含了一部分行的所有的列，region通過table和對應行健rowkey來定義，在region級別
添加一個鎖的唯一的目的，就是擋在執行其它操作的時候，阻止region被關閉，以及split。每一行的操作，都需要在執行過程中獲得一個row所和region的讀鎖。

HRegion

存放hbase中數據的一個概念，可以簡單的理解為表的一個分區，存放一張表中的一部分數據，當該region中的數據超過一定量的時候，會自動進行分裂，
分裂成兩個region(一分為二)，從這個角度上而言，Region是對hbase中表的一個橫向的劃分。
每一個HRegion有多個HStore組成，每一個HRegion是一張表中所有的列做成部分數據（也就是說部分記錄），每一個region都有一個startKey和endKey

一些配置參數說明：

<property>
    <name>hbase.hregion.max.filesize</name>
    <value>10737418240</value>
    <description>
        Maximum HStoreFile size. If any one of a column families‘ HStoreFiles has
        grown to exceed this value, the hosting HRegion is split in two.</description>
</property>

hregion最大的大小，當一個region中的storeFile增長到10G的時候，split一分為二
手動將一個表今次那個region的切分，使用命令split ‘table‘/‘region‘, ‘splitKey‘

startKey和endKey

假設，我一張表裏面有100條記錄，我要把它分別存放到10個region裏面，又因為存放在hbase裏面的數據都是有序的，是能夠進行一個高速隨機讀寫的，
也就是說有序能夠保證我的快讀，就需要能夠通過rowkey，快速的定位到當前記錄在哪一個region裏面，然後當定位到region之後，再去掃描當前region，獲取數據，
為了滿足於此，我們就對這些region進行劃分，編號，也是為了方便管理。這裏每一個region的範圍：[startKey, endKey),需要註意一定最後一個region的endkey是需要被包含進去的。

region 0    [null, 10)
region 1    [10, 20)
region 2    [20, 30)
region ...  ...
region 9    [90, null]
將HRegion數據從memstore中手動刷新到磁盤中，使用命令flush ‘table‘/‘region‘
手動將一個表今次那個region的切分，使用命令split ‘table‘/‘region‘, ‘splitKey‘

HStore

每一個HRegion由多一個HStore來組成，一個HStore對應HRegion中的一個列族，一個HStore有一個MemStore和一個系列StoreFiles組成。
HStore級別不會持有鎖，以及事務，鎖和事務在更高一個級別或者說HRegion持有的，
HStore最核心的一個service就是合並memstore刷新到到磁盤裏面的storefiles，
把多個storefiles合並成為一個storefile，寫到hdfs裏面，寫到hdfs裏面的文件稱之為hfile。

在寫的過程中，唯一設計到hlog的部分就是關於hlog日誌的重建的過程，當hstore將用戶提交的數據最終寫到了hdfs之後，會反饋給hlog，
將hlog裏面冗余的數據刪除掉。

hbase.hstore.compactionThreshold=3，當hstore個數超過3個之後就要開啟hstore合並的工作
Compaction：
  minor compaction(小合並):
    就是將多個HFile合並成為一個大的HFile，然後對之前的HFile做清除處理。
    常見的會在執行刪除數據的動作、以及達到hbase.hstore.compactionThreshold觸發條件的時候發生，
    刪除數據：不會立即刪除，做一個標記(標記刪除)，等到執行合並操作的時候，才進行數據的處理。
  major compaction(大合並):
    將一個列族中的所有的HFile合並成為一個HFile，然後對之前的HFile做清除處理。
    大合並非常消耗性能，非常耗時，不建議操作，當然是直接可以在shell執行操作的。

一些配置屬性的說明如下：

<property>
    <name>hbase.hstore.compactionThreshold</name>
    <value>3</value>
    <description>
    If more than this number of HStoreFiles in any one HStore
    (one HStoreFile is written per flush of memstore) then a compaction
    is run to rewrite all HStoreFiles files as one.  Larger numbers
    put off compaction but when it runs, it takes longer to complete.
    </description>
</property>       
<property>
    <name>hbase.server.compactchecker.interval.multiplier</name>
    <value>1000</value>
    <description>The number that determines how often we scan to see if compaction is necessary.
      Normally, compactions are done after some events (such as memstore flush), but if
      region didn‘t receive a lot of writes for some time, or due to different compaction
      policies, it may be necessary to check it periodically. The interval between checks is
      hbase.server.compactchecker.interval.multiplier multiplied by
      hbase.server.thread.wakefrequency.
    </description>
</property>       
<property>
  <name>hbase.hregion.majorcompaction</name>
  <value>604800000</value> 7天
  <description>The time (in miliseconds) between ‘major‘ compactions of all
  HStoreFiles in a region.  Default: Set to 7 days.  Major compactions tend to
  happen exactly when you need them least so enable them such that they run at
  off-peak for your deploy; or, since this setting is on a periodicity that is
  unlikely to match your loading, run the compactions via an external
  invocation out of a cron job or some such.</description>
  </property>   
<property>
  <name>hbase.hstore.blockingStoreFiles</name>
  <value>10</value>
  <description>
  If more than this number of StoreFiles in any one Store
  (one StoreFile is written per flush of MemStore) then updates are
  blocked for this HRegion until a compaction is completed, or
  until hbase.hstore.blockingWaitTime has been exceeded.</description>
</property> 
<property>
    <name>hbase.hstore.compaction.max</name>
    <value>10</value>
    <description>Max number of HStoreFiles to compact per ‘minor‘ compaction.       </description>
</property>

MemStore

註意：在memstore寫的過程中，必須不能是多線程的(並行)調用的，hstore在調用的過程中必須持有一個讀鎖和寫鎖
在寫的過程中，預先數據在memstore中進行排序，因為數據最終是有序存放，當memstore中的數據量超過閾值之後就會刷新到磁盤文件storefile中。

配置參數如下：

<property>
    <name>hbase.hregion.memstore.flush.size</name>
    <value>134217728</value>
    <description>
        Memstore will be flushed to disk if size of the memstore
        exceeds this number of bytes.  Value is checked by a thread that runs
        every hbase.server.thread.wakefrequency.</description>
</property>

StoreFile

最終保存HStore數據的文件，數據是由MemStore不斷向磁盤刷新過程中產生的，當storefile達到一定量的時候，會將這些storefile組成一個storefiles。
這個storefiles有可能持有其他store裏面的storefile。

HFile

在hdfs上存放數據之前的一個物理結構，用於接收從客戶端提交過來的數據。
HFile中的數據都Key-Value鍵值對兒的方式存儲，並且key和value都是字節數組。並且因為數據已經在memstore中排序過了，在hfile中也是有序的。
hfile同時是由一個個的block來組成的，最終k-v實際上是在這一個個的block中的，block的推薦的大小在8k~1M之間，默認大小65536byte-->16kb。
每一個block都有索引，沒有hfile有由索引

官方建議：
blocksize在8k~1M之間，默認是64k
如果執行順序讀的操作，建議將blocksize調大一點點，這個會影響隨機訪問的效率
如果執行隨機讀的操作，建議將blocksize調小一點點，用默認就可以了

在掃描全表數據的時候，一定要指定start key和end key，不然容易操作OOM異常

總結

  HRegionServer
  |---一個HLog
  |---多個HRegion（一張表對應多個HRegion，是對hbase表的一個橫向的劃分）
    |---多個HStore(一個HStore對應一個列族，反之一個列族對應多個HStore，列族是對HBase表的縱向的劃分)
      |--一個MemStore
      |--多個StoreFile
        HFile
          |---多個data block

HBase如何做到高速隨機讀？
    rowkey---->region
          先到memstore中去找，如果有，則直接取出<rowkey, <cf, <col, <ts, value>>>>
          如果沒有，則就去在hfile中找，通過索引定位到具體的block，然後遍歷該block塊，找到相應的數據
--------------------------------------------------------------------------
把在想memstore寫數據的過程中，同時向hlog中寫數據的這種解決問題的方式稱之為SLM-Tree(Structure Log merge tree)
這種數據結構和B-Tree有些類似，也是引自於Google BigTable

行健的設計問題

行健的熱點問題

是由於行健相似、連續且數據量過大操作成單region的數據量過大，進而影響讀寫效率

行健應該盡量的隨機、不要出現連續行健。
常見的行健設計就是，比如手機號碼倒置+時間戳，比如隨機前綴+關系型數據庫中的主鍵（以存放在mr中電信日誌案例為例）

因為hbase提供的查詢內容非常非常low，但是所有關於hbase的查詢只能通過rowkey，所以
在設計行健的時候，應該考慮將盡量多的查詢條件放到rowkey中去，形成的行健就成為復合鍵

列族的設計

cf1----->"maxRowLength"
cf2----->"mrl"
建議hbase表是高表，不建議寬表，因為寬表擁有的列族很多，操作並跨越的文件(HFile)就很多，效率會有相應影響，
反之建議使用高表，列族不宜過多。
在設計表的時候，各個列/列族名稱不宜過長，因為hbase需要對這些數據在內存中做緩存，做索引，進而影響內存容量，
所以建議不易過長，以便能夠在內存中容納更多的數據。至於閱讀性，有項目文檔搞定。

Hive整合HBase

啟動hive，進入hive的終端：

/home/uplooking/app/hive/bin/hive --auxpath /home/uplooking/app/hive/lib/hive-hbase-handler-2.1.0.jar,/home/uplooking/app/hive/lib/zookeeper-3.4.6.jar --hiveconf hbase.master=uplooking01:16010 --hiveconf hbase.zookeeper.quorum=uplooking01,uplooking02,uplooking03

在Hive裏面操作HBase

創建一張表：

hbase不存在該表的情況

如果hbase中不存在該表我們只能在hive中使用創建內部表的方式，來創建一張表，同會在hbase中也會創建相關的表。

eg.
    create table h2hb_1(
     id int,
     name string,
     age int
    )row format delimited
     fields terminated by ‘,‘
     stored by ‘org.apache.hadoop.hive.hbase.HBaseStorageHandler‘ with serdeproperties (
     "hbase.columns.mapping" = ":key,cf:name,cf:age",
     "hbase.table.name" = "t"
    );

在hive中創建了一張表h2hb_1，有三列內容id, name,age,同時映射到hbase中的表t，其中id對應行健
name對應hbase中列族cf中的name，age同理

嘗試向表中導入數據，會報下面的錯誤：

hive (mydb1)> load data local inpath ‘stu.txt‘ into table h2hb_1;
FAILED: SemanticException [Error 10101]: A non-native table cannot be used as target for LOAD

所以創建了一張臨時表並導入數據：

hive (mydb1)> create temporary table tmp(
            > id int,
            > name string,
            > age int)row format delimited
            > fields terminated by ‘,‘;
OK
Time taken: 0.104 seconds
hive (mydb1)> load data local inpath ‘stu.txt‘ into table tmp;
Loading data to table mydb1.tmp
OK
Time taken: 0.408 seconds

最後通過查詢的方式向其插入數據：

hive (mydb1)> insert into h2hb_1 select * from tmp;
...
2018-03-24 01:09:47,267 Stage-0 map = 0%,  reduce = 0%
2018-03-24 01:09:59,883 Stage-0 map = 100%,  reduce = 0%, Cumulative CPU ...
Time taken: 32.315 seconds

可以看到會啟動一個MR的任務。

hbase存在該表的情況

如果使用上述建表語句創建的時候，則會報錯，因為在hbase中已經存在了一張表為t，所以這時只能創建外部表去映射hbase中的一張表。

create external table h2hb_2
(id int,
 name string,
 age int
)row format delimited
 fields terminated by ‘,‘
 stored by ‘org.apache.hadoop.hive.hbase.HBaseStorageHandler‘ with serdeproperties (
 "hbase.columns.mapping" = ":key,cf:name,cf:age",
 "hbase.table.name" = "t"
);

Phoenix整合HBase

安裝Phoenix

約定安裝到/home/uplooking/app目錄下面
解壓：
    [uplooking@uplooking01 ~]$ tar -zxvf soft/phoenix-4.7.0-HBase-1.1-bin.tar.gz -C app/
重命名 [uplooking@uplooking01 ~]$ mv app/phoenix-4.7.0-HBase-1.1-bin/ app/phoenix
拷貝lib目錄下面jar包到regionserver機器的lib($HBASE_HOME/lib)目錄
     [uplooking@uplooking01 phoenix]$ scp *.jar uplooking@uplooking02:/home/uplooking/app/hbase/lib/
     [uplooking@uplooking01 phoenix]$ scp *.jar uplooking@uplooking03:/home/uplooking/app/hbase/lib/
重啟regionserver
    hbase-daemon.sh stop regionserver
    hbase-daemon.sh start regionserver
將phoenix中的client拷貝到hbase的client中,重啟master
    p[uplooking@uplooking01 phoenix]$ cp phoenix-4.7.0-HBase-1.1-client.jar /home/uplooking/app/hbase/lib/
    hbase-daemon.sh stop master
    hbase-daemon.sh start master
官網測試案例：
http://phoenix.apache.org/Phoenix-in-15-minutes-or-less.html
    ./psql.py uplooking01:2181 us_population.sql us_population.csv us_population_queries.sql

在cli中使用Phoenix

./sqlline.py uplooking01:2181:/hbase

查詢操作：

0: jdbc:phoenix:uplooking01:2181:/hbase> !tables
+------------+--------------+----------------+---------------+----------+------------+---------------------------+
| TABLE_CAT  | TABLE_SCHEM  |   TABLE_NAME   |  TABLE_TYPE   | REMARKS  | TYPE_NAME  | SELF_REFERENCING_COL_NAME |
+------------+--------------+----------------+---------------+----------+------------+---------------------------+
|            | SYSTEM       | CATALOG        | SYSTEM TABLE  |          |            |                           |
|            | SYSTEM       | FUNCTION       | SYSTEM TABLE  |          |            |                           |
|            | SYSTEM       | SEQUENCE       | SYSTEM TABLE  |          |            |                           |
|            | SYSTEM       | STATS          | SYSTEM TABLE  |          |            |                           |
|            |              | US_POPULATION  | TABLE         |          |            |                           |
+------------+--------------+----------------+---------------+----------+------------+---------------------------+
0: jdbc:phoenix:uplooking01:2181:/hbase> select * from US_POPULATION;
+--------+---------------+-------------+
| STATE  |     CITY      | POPULATION  |
+--------+---------------+-------------+
| AZ     | Phoenix       | 1461575     |
| CA     | Los Angeles   | 3844829     |
| CA     | San Diego     | 1255540     |
| CA     | San Jose      | 912332      |
| IL     | Chicago       | 2842518     |
| NY     | New York      | 8143197     |
| PA     | Philadelphia  | 1463281     |
| TX     | Dallas        | 1213825     |
| TX     | Houston       | 2016582     |
| TX     | San Antonio   | 1256509     |
+--------+---------------+-------------+
10 rows selected (0.138 seconds)

創建表與插入數據：

0: jdbc:phoenix:uplooking01:2181:/hbase> create table p1(id integer not null primary key, name varchar(20), age integer);
No rows affected (2.351 seconds)
0: jdbc:phoenix:uplooking01:2181:/hbase> !tables
+------------+--------------+----------------+---------------+----------+------------+---------------------------+
| TABLE_CAT  | TABLE_SCHEM  |   TABLE_NAME   |  TABLE_TYPE   | REMARKS  | TYPE_NAME  | SELF_REFERENCING_COL_NAME |
+------------+--------------+----------------+---------------+----------+------------+---------------------------+
|            | SYSTEM       | CATALOG        | SYSTEM TABLE  |          |            |                           |
|            | SYSTEM       | FUNCTION       | SYSTEM TABLE  |          |            |                           |
|            | SYSTEM       | SEQUENCE       | SYSTEM TABLE  |          |            |                           |
|            | SYSTEM       | STATS          | SYSTEM TABLE  |          |            |                           |
|            |              | P1             | TABLE         |          |            |                           |
|            |              | US_POPULATION  | TABLE         |          |            |                           |
+------------+--------------+----------------+---------------+----------+------------+---------------------------+
0: jdbc:phoenix:uplooking01:2181:/hbase> !describe p1;
+------------+--------------+-------------+--------------+------------+------------+--------------+--------------+
| TABLE_CAT  | TABLE_SCHEM  | TABLE_NAME  | COLUMN_NAME  | DATA_TYPE  | TYPE_NAME  | COLUMN_SIZE  | BUFFER_LENGT |
+------------+--------------+-------------+--------------+------------+------------+--------------+--------------+
|            |              | P1          | ID           | 4          | INTEGER    | null         | null         |
|            |              | P1          | NAME         | 12         | VARCHAR    | 20           | null         |
|            |              | P1          | AGE          | 4          | INTEGER    | null         | null         |
+------------+--------------+-------------+--------------+------------+------------+--------------+--------------+
0: jdbc:phoenix:uplooking01:2181:/hbase> upsert into p1 values(1, ‘zhangsan‘,13);
1 row affected (0.13 seconds)
0: jdbc:phoenix:uplooking01:2181:/hbase> upsert into p1 values(2, ‘lisi‘,14);
1 row affected (0.019 seconds)
0: jdbc:phoenix:uplooking01:2181:/hbase> select * from p1;
+-----+-----------+------+
| ID  |   NAME    | AGE  |
+-----+-----------+------+
| 1   | zhangsan  | 13   |
| 2   | lisi      | 14   |
+-----+-----------+------+
2 rows selected (0.066 seconds)

可以看到，我們創建的表p1，在實際創建時，會變成大寫的P1，在hbase中查看：

hbase(main):004:0> scan ‘P1‘
ROW                           COLUMN+CELL                                                                         
 \x80\x00\x00\x01             column=0:AGE, timestamp=1521827542938, value=\x80\x00\x00\x0D                       
 \x80\x00\x00\x01             column=0:NAME, timestamp=1521827542938, value=zhangsan                              
 \x80\x00\x00\x01             column=0:_0, timestamp=1521827542938, value=x                                       
 \x80\x00\x00\x02             column=0:AGE, timestamp=1521827553065, value=\x80\x00\x00\x0E                       
 \x80\x00\x00\x02             column=0:NAME, timestamp=1521827553065, value=lisi                                  
 \x80\x00\x00\x02             column=0:_0, timestamp=1521827553065, value=x                                       
2 row(s) in 0.0410 seconds

可以看到列族也默認為0，可以嘗試下面的方式來創建表：

0: jdbc:phoenix:uplooking01:2181:/hbase> create table "p2"(id varchar(100000) primary key, "cf"."name" varchar(20), "cf"."age" varchar(100));
No rows affected (1.288 seconds)
0: jdbc:phoenix:uplooking01:2181:/hbase> !tables
+------------+--------------+----------------+---------------+----------+------------+---------------------------+
| TABLE_CAT  | TABLE_SCHEM  |   TABLE_NAME   |  TABLE_TYPE   | REMARKS  | TYPE_NAME  | SELF_REFERENCING_COL_NAME |
+------------+--------------+----------------+---------------+----------+------------+---------------------------+
|            | SYSTEM       | CATALOG        | SYSTEM TABLE  |          |            |                           |
|            | SYSTEM       | FUNCTION       | SYSTEM TABLE  |          |            |                           |
|            | SYSTEM       | SEQUENCE       | SYSTEM TABLE  |          |            |                           |
|            | SYSTEM       | STATS          | SYSTEM TABLE  |          |            |                           |
|            |              | P1             | TABLE         |          |            |                           |
|            |              | US_POPULATION  | TABLE         |          |            |                           |
|            |              | p2             | TABLE         |          |            |                           |
+------------+--------------+----------------+---------------+----------+------------+---------------------------+
0: jdbc:phoenix:uplooking01:2181:/hbase> upsert into "p2" values(‘1‘,‘zhangsan‘,‘13‘);
1 row affected (0.061 seconds)
0: jdbc:phoenix:uplooking01:2181:/hbase> upsert into "p2" values(‘2‘,‘lisi‘,‘14‘);
1 row affected (0.015 seconds)
0: jdbc:phoenix:uplooking01:2181:/hbase> select * from "p2";
+-----+-----------+------+
| ID  |   name    | age  |
+-----+-----------+------+
| 1   | zhangsan  | 13   |
| 2   | lisi      | 14   |
+-----+-----------+------+
2 rows selected (0.055 seconds)

這樣創建的表就為小寫的了，同時在hbase中查看也可以看到列族：

hbase(main):006:0> scan ‘p2‘
ROW                           COLUMN+CELL                                                                         
 1                            column=cf:_0, timestamp=1521827723448, value=x                                      
 1                            column=cf:age, timestamp=1521827723448, value=13                                    
 1                            column=cf:name, timestamp=1521827723448, value=zhangsan                             
 2                            column=cf:_0, timestamp=1521827735556, value=x                                      
 2                            column=cf:age, timestamp=1521827735556, value=14                                    
 2                            column=cf:name, timestamp=1521827735556, value=lisi                                 
2 row(s) in 0.0390 seconds

Phoenix客戶端工具操作

安裝squirrel-sql-3.7-standard.jar

java -jar squirrel-sql-3.7-standard.jar

然後就可以進行安裝。

添加HBase驅動

使用squirrel-sql添加一個驅動，其屬性值可為如下：

Name：hbase
Example URL：jdbc:phoenix:uplooking01,uplooking02,uplooking03:2181
Class Name：org.apache.phoenix.jdbc.PhoenixDriver

驅動可以到phoenix目錄下找到：phoenix-4.7.0-HBase-1.1-client.jar，然後添加即可

創建連接

選擇驅動為前面創建的驅動，然後用戶名和密碼都為uplooking
這樣之後就可以像使用navicat管理MySQL數據庫一樣，比較方便。

HBase筆記整理（二）

大數據 HBase [TOC] HBase筆記整理（二）邏輯結構 RowKey第一位 ColumnFamily ColumnQuiauer value(TimeStamps) Cell 物理結構 HMaster ----->NameNode 管理節點

Hive筆記整理（二）

大數據 Hive [TOC] Hive筆記整理（二） Hive中表的分類 managed_table—受控表、管理表、內部表表中的數據的生命周期/存在與否，受到了表結構的影響，當表結構被刪除的，表中的數據隨之一並被刪除。默認創建的表就是這種表。可以在cli中通過desc extended t

HBase筆記整理（一）

大數據 HBase [TOC] HBase筆記整理（一）行列式數據庫行式數據庫：可以簡單的理解為類似傳統的rdbmspaint這些數據，存放的數據都是結構化的數據。行式數據庫，是有利於全表數據的掃描，不利於只查詢個別字段列式數據庫：對行式數據庫的一個改進，將部分列(或者說有關聯的一些列)

Kafka筆記整理（二）：Kafka Java API使用

大數據 Kafka Java [TOC] Kafka筆記整理（二）：Kafka Java API使用下面的測試代碼使用的都是下面的topic： $ kafka-topics.sh --describe hadoop --zookeeper uplooking01:2181,uplooking0

Redis筆記整理（二）：Java API使用與Redis分布式集群環境搭建

數據庫 NoSQL Redis [TOC] Redis筆記整理（二）：Java API使用與Redis分布式集群環境搭建 Redis Java API使用（一）：單機版本Redis API使用 Redis的Java API通過Jedis來進行操作，因此首先需要Jedis的第三方庫，因為使用的是M

Eigen庫筆記整理（二）

向量 pre geo 直接 gpo 歐拉角 () blog 初始化 Eigen/Geometry 模塊提供了各種旋轉和平移的表示旋轉矩陣直接使用 Matrix3d 或 Matrix3f Eigen::Matrix3d rotation_matrix = Eigen::M

ElasticSearch筆記整理（二）：CURL操作、ES插件、集群安裝與核心概念

大數據 ElasticSearch ELK [TOC] CURL操作 CURL簡介 curl是利用URL語法在命令行方式下工作的開源文件傳輸工具，使用curl可以簡單實現常見的get/post請求。簡單的認為是可以在命令行下面訪問url的一個工具。在centos的默認庫裏面是有curl工具的，如

Storm筆記整理（二）：Storm本地開發案例—總和計算與單詞統計

大數據實時計算 Storm [TOC] 概述在Strom的API中提供了LocalCluster對象，這樣在不用搭建Storm環境或者Storm集群的情況下也能夠開發Storm的程序，非常方便。基於Maven構建工程項目，其所需要的依賴如下： <dependency>

Scala筆記整理（二）：Scala數據結構—數組、map與tuple

大數據 Scala [TOC] 數組定長數組如果你需要一個長度不變的數組，可以用Scala中的Array。例如： val numsArray = new Array[Int] (30) //長度為30的整數數組，所有元素初始化為0 val stringArrays = new Array [St

Spark筆記整理（二）：RDD與spark核心概念名詞

大數據 Spark [TOC] Spark RDD 非常基本的說明，下面一張圖就能夠有基本的理解： Spark RDD基本說明 1、Spark的核心概念是RDD (resilient distributed dataset，彈性分布式數據集)，指的是一個只讀的，可分區的分布式數據集，這個數據集的全

Python提高筆記整理（二）

href 參數類屬性所有建議例如類繼承指定 super 1.多繼承以及MRO順序多繼承指的是子類繼承多個父類，可以通過三種方式訪問父類的方法：父類名.父類方法(self)：這種方式容易造成父類方法被調用多次的問題，而且一旦父類名稱發生變化，子類調用的地方都需要修

Spark SQL筆記整理（二）：DataFrame編程模型與操作案例

代碼最重要的 ssi func nbu 產生 michael array image DataFrame原理與解析 Spark SQL和DataFrame 1、Spark SQL是Spark中的一個模塊，主要用於進行結構化數據的處理。它提供的最核心的編程抽象，就是Data

Machine Learning筆記整理 ------ （二）訓練集與測試集的劃分

1. 留出法 (Hold-out) 將資料集D劃分為2個互斥子集，其中一個作為訓練集S，另一個作為測試集T，即有： D = S ∪ T， S ∩ T = ∅ 用訓練集S訓練模型，再用測試集T評估誤差，作為泛化誤差估計。特點：單次使用留出法得到的估計結果往往不夠穩定可靠，故如果要使用留出法，一般採用若

React 入門學習筆記整理（二）—— JSX簡介與語法

先看下這段程式碼： import React from 'react'; //最終渲染需要呼叫ReactDOM庫，將jsx渲染都頁面中 import ReactDOM from 'react-dom'; import * as serviceWorker from './serviceWorker'; l

node.js學習筆記整理（二）

（1）前端專案自動化構建 1、建立myProject專案檔案以及對應的資料夾 var projectData ={ 'name':'myProject', 'fileData':[ { 'name':'css', 'type'

SpringMVC框架筆記整理（二）: 註解式控制器-URL路徑對映

註解式控制器通過@Controller 和 @RequestMapping註解定義我們的處理器類 spring2.5需要通過處理器對映DefaultAnnotationHandlerMapping和處理器介面卡 AnnotationMethodH

[轉]畢設- 深入HBase架構解析（二）

node 角度發送 under 收集 .org fig 服務器 url 深入HBase架構解析（二）前言這是《深入HBase架構解析（一）》的續，不多廢話，繼續。。。。 HBase讀的實現通過前文的描述，我們知道在HBase寫時，相同Cell(RowKe

Asp.Net Core WebAPI入門整理（二）簡單示例

序列 open exc tor pda template ssa net found 一、Core WebAPI中的序列化使用的是Newtonsoft.Json,自定義全局配置處理： // This method gets called by the runtime.

C# 異步編程Task整理（二）異常捕捉

如果 console url 完全 list 標識異步通知註意一、在任務並行庫中，如果對任務運行Wait、WaitAny、WaitAll等方法，或者求Result屬性，都能捕獲到AggregateException異常。可以將AggregateException異

Hadoop HA + HBase環境搭建（二）————HBase環境搭建

property hadoop zookeeper conf ado 文件 ice mes root HBase配置（只需要做一處修改）　　修改HBase的 hbase-site.xml 配置文件種的一項　 <property>

HBase筆記整理（二）

HBase筆記整理（二）

邏輯結構

物理結構

HMaster ----->NameNode

HRegionServer----->DataNode

Region

HRegion

startKey和endKey

HStore

MemStore

StoreFile

HFile

總結

行健的設計問題

行健的熱點問題

列族的設計

Hive整合HBase

啟動hive，進入hive的終端：

在Hive裏面操作HBase

hbase不存在該表的情況

hbase存在該表的情況

Phoenix整合HBase

安裝Phoenix

在cli中使用Phoenix

Phoenix客戶端工具操作

安裝squirrel-sql-3.7-standard.jar

添加HBase驅動

創建連接

相關推薦