大資料環境操作筆記

阿新 • • 發佈：2018-11-24

不久將要參加個什麼大資料比賽。於是將相關的內容練習了幾遍。其中各自的關鍵及相關的理解均寫成了筆記，分別是zookeeper分散式叢集環境的搭建，hadoop叢集環境的搭建，分散式非關係型資料庫hbase環境搭建，基於hive的資料倉庫的構建以及於此同時回顧的計算機網路的相關知識。短期來看，似乎有點浪費時間，做了一些無用功。無論參加比賽獲獎與否。但是長期來看，還是很有益處的，不說大資料這種對普通開發人員不著調的話題，單單是計算機網路的相關理論知識，足夠抵過很多的所謂實踐了。不管怎樣，既然做了，那就儘量做好吧，希望能夠做到問心無愧就好。因此還是決定將知識總體拉通在複習一遍，並且將資料倉庫中的資料分析部分給補上（筆記已經整理在電腦中，為防止誤刪資料，還是滕到部落格上比較好！上次清理桌面莫名其妙將自己數個月起早貪黑整理的筆記，以及整理的英語筆記都給弄丟了。還好其中重要的都給寫到了部落格裡，丟失了部分勞動成果，馬勒戈壁的）。

先看看各個元件的啟動方式，以及啟動成功後，各自啟動了哪些程序：（這實際上是最容易理解的，比很多的理論知識要來的直接的多）：

當在叢集環境下，這些程序都啟動正常的話，那麼基本可以判定這個叢集是正確可用的了。

接著是hive的相關操作：

1.建立資料庫：

、

2.建立資料表

Or

語法規則：

注意為了正確的裝載，需要將爬取到的內容中的 ,（逗號）以及 \n（換行符號轉義）

修改mysql 的預設編碼：

修改配置，使得centos支援顯示中文：

若沒有，則要下載：

注意，以上的所有設定對centos的預設字元介面是不會生效的，只能用外接的命令列。。。

將需要檢索的結果進行分表：

統計：

繼續統計：

轉換率計算：

針對競賽的解決方案：(統計總帖子數)

2，統計總使用者數：

大資料環境操作筆記

不久將要參加個什麼大資料比賽。於是將相關的內容練習了幾遍。其中各自的關鍵及相關的理解均寫成了筆記，分別是zookeeper分散式叢集環境的搭建，hadoop叢集環境的搭建，分散式非關係型資料庫hbase環境搭建，基於hive的資料倉庫的構建以及於此同時回顧

大資料技術學習筆記之hive框架基礎1-基本架構及環境部署

一、hive的介紹及其發展 "27.38.5.159" "-" "31/Aug/2015:00:04:37 +0800" "GET /course/view.php?id=27 HTTP/1.1" "303" "440" - "http://www.micro.com/user.php?act

大資料技術學習筆記之linux基礎2-基礎環境與系統管理

一、Linux使用者及許可權管理 -》使用者管理 -》Linux使用者的配置檔案：/etc/passwd &nb

大資料技術學習筆記之linux基礎1-基礎環境與基礎命令

一、Linux系統介紹及部署 -》常見作業系統 -》windows、Linux（類unix系統）、Android、iOS、unix（HP UNIX）

大資料基礎學習筆記（安裝CDH的環境配置）

1.下載軟體地址(（以centos7.4）) CDH安裝包地址： http://archive.cloudera.com/cdh5/parcels/5.14.0/ CDH-5.14.0-1.cdh5.14.0.p0.24-el7.parcel CDH-5.14.0-1.cdh5.14.0.p0.

大資料環境搭建------基礎環境配置

準備材料：作業系統：Centos7（最好有網路）軟體：JDK：jdk-8u171-linux-x64.tar.gz（最好使用JDK1.8以上）在虛擬機器中搭建三個linux系統，分別代表三個節點 {主節點：master 從節點：slave1、slave2} 此次操作均在root使

大資料Hadoop學習筆記（三）

1.HDFS架構講解 2.NameNode啟動過程 3.YARN架構組建功能詳解 4.MapReduce 程式設計模型 HDFS架構講解源自谷歌的GFS論文 HDFS： *抑鬱擴充套件的分散式系統 *執行在大量普通的鏈家機器上，提供容錯機制 *為

大資料Hadoop學習筆記（二）

Single Node Setup 官網地址 1. 本地模式 2.偽分散式模式 ************************* 本地模式 **************************** . grep input output ‘dfs[a-

大資料Hadoop學習筆記（一）

大資料Hadoop2.x hadoop用來分析儲存網路資料 MapReduce：對海量資料的處理、分散式。思想————> 分而治之，大資料集分為小的資料集，每個資料集進行邏輯業務處理合並統計資料結果（reduce）執行模式：本地模式和yarn模式 input—

大資料Hadoop學習筆記（五）

分散式部署本地模式Local Mode 分散式Distribute Mode 偽分散式一臺機器執行所有的守護程序從節點DN和NM只有一個完全分散式

大資料Hadoop學習筆記（四）

MapReduce執行過程 ======== step1 ： input InputFormat 讀取資料轉換成<key, value>

大資料Hadoop學習筆記（六）

HDFS HA 背景：在hadoop2.0之前，HDFS叢集中的NameNode存在單點故障（SPOF）對於只有一個NameNode的叢集，若NameNode機器出現故障，則整個叢集將無法使用，直到NameNode重新啟動 NameNode主要在一下兩方面影響

大資料入門學習筆記（叄）- 布式檔案系統HDFS

文章目錄 HDFS概述及設計目標什麼是HDFS HDFS的設計目標 HDFS架構 HDFS副本機制副本存放策略![在這裡插入圖片描述](https://img-blog.csdnimg.cn/20181

大資料分析學習筆記（Z檢驗，分類器以及Association Rule）

大資料分析學習筆記（Z檢驗，分類器以及Association Rule） Task 1 – Hypothesis Testing To improve student learning performance, a teacher developed two new learning app

大資料入門學習筆記（貳）- 初識Hadoop

文章目錄 Hadoop概述 Hadoop能做什麼 Hadoop核心元件分散式檔案系統HDFS 分散式檔案系統HDDS 資源排程系統YARN 分散式計算框架MapReduce Had

大資料入門學習筆記（壹） - 大資料概述

文章目錄大資料故事大資料背景大資料基本概念大資料定義大資料4V特徵大資料要解決的問題大資料涉及到的技術大資料帶來的技術挑戰在技術架構上的挑戰其他挑戰

大資料環境---hbase的安裝

前面已經搭建好了zookeeper主機叢集，hadoop叢集。現子看來，zookeeper貌似提供了一種簡便的方法來解決hadoop叢集的問題，比如免密登陸，時間同步等。但是二者都是分散式架構解決方案，所以應該不存在耦合關係！

大資料環境---資料倉庫(hive+mysql+hadoop)的構建

前面已經配置好了叢集環境zookeeper，hadoop。以及分散式資料庫hbase。這個階段要開始構建資料倉庫的練習。涉及到的軟體： mysql， hive 。背景： &nbs

使用pyqt寫了一個檢查大資料環境的gui

背景：在xx公司上班，該公司有款超融合的產品，當前已經梳理出來在超融合平臺部署大資料軟體的最佳實踐，該指令碼主要是為了檢查當前部署的大資料環境是否符合最佳實踐的部署使用方法：輸入超融合的主控的ip地址和密碼，輸入ambari節點的主控和密碼，然後上傳大資料虛擬機器的vmid資訊，點選檢查即可觸發檢查 &

spark快速大資料分析學習筆記（1）

本文是《spark快速大資料分析學習》第三章學習筆記，文中大量摘抄書中原本，僅為個人學習筆記。 RDD基礎： RDD是一個不可變的分散式物件集合。每個RDD都被分為多個分割槽，這個分割槽執行在叢集的不同節點上。RDD可以包含Python、Java、Scala中任意型別的物件。建立RDD的方式：