大資料的基本概念

阿新 • • 發佈：2019-01-28

什麼是大資料？

1.統計處資料指標（有海量資料）

2.做資料處理（挖掘有用的東西）

處理海量資料的核心技術：

1.海量資料儲存：分散式

2.海量資料運算：分散式

已經有成熟的儲存框架：

1.HDFS--分散式檔案儲存系統（例如Word（直觀區別））

2.HBASE--分散式資料庫系統（例如表格（（四要素：增刪改查）查詢也更加方便）但最終也存到檔案但是經過精心設計的）

3.KAFKA--分散式訊息快取系統（實時流式資料處理場景中應用廣泛，訊息頭，訊息體等一系列，但最終也存到檔案裡）

已經有成熟的運算框架：（要解決的核心問題就是幫助使用者處理邏輯在很多機器上並行）

1.MAPREDUCE--HADOOP中的運算框架

2.SPARK--離線批處理/實時流式計算（離線批處理例如水桶，一桶滿處理（看企業））

3.STORM--實時流式計算（例如水流出著處理著）

輔助工具：（解放我們的一些繁瑣工作）

1.HIVE--資料倉庫工具（可以接收sql，翻譯成MapReduce或者spark程式執行）

2.FLUME--資料採集

3.SQOOP--資料遷移（展示東西太亂要遷移到成熟的軟體上例如遷移到表上）

4.ELASTIC SEARCH--分散式搜尋引擎

等還有很多

大資料在現實生活中的具體應用：

1.資料處理的最典型的應用：公司產品運營情況分析

（例如網站會員為什麼增多，為什麼活躍，年齡段，會員續費等）

例如：友盟網站

2.電商推薦系統：購物行為資料，海量瀏覽行為，大量演算法模型運算進行商品推薦

例如淘寶

3.精準廣告推薦系統：投給想看的人看，例如衛生巾絕對不會投給男性看，進行海量的網際網路的使用者的各類資料，統計分析，進行使用者畫像，（得到你的各種標籤例如你是寶媽推薦奶粉，是愛狗的推薦狗糧）分析敏感資訊（例如發現壞的輿論源頭）

例如：ofo：分析使用者路線，使用者數量

大資料我認為的就先到這裡

學海無涯——大資料基本概念

公司舉辦了關於新技術的培訓，提到了“大資料”這個對我而言火了有幾年的概念。所以，有必要當好“小學生”了，不懂的字該怎麼辦，查字典。不懂的概念怎麼辦，學習唄！ -------------------------------------------------------------------

大資料基本概念

1、基本概念關係模型：包括關係資料結構、關係操作集合、關係完整性約束三部分關係型資料庫：建立在關係模型基礎上的資料庫。由多張能互相聯接的二維行列表格組成。非關係型資料庫（Nosql（Not Only SQL））：包括鍵-值（Key-Value）儲存資料庫、列儲存資料庫、文件型資料庫、圖形

大資料基本概念(1)

結構化、非結構化、半結構化資料： 1. 結構化資料能夠用資料或統一的結構表示，我們稱之為結構化資料，如數字、符號。傳統的關係資料模型、行資料，儲存於資料庫，可用二維表結構表示。 2. 非結構化資料

大資料基礎概念

前言大資料基礎概念大資料 Centos基礎大資料 Shell基礎大資料 ZooKeeper 大資料 Hadoop介紹、配置與使用大資料 Hadoop之HDFS 大資料 MapReduce 大資料 Hive 大資料 Y

大資料(一)——概念入門

最近在B站上看一套44集的大資料教程——經典Hadoop分散式系統基礎架構。想通過對Hadoop的學習，跳到大資料領域當中。作為大資料的開篇，主要是做一些大資料掃盲，並且重點介紹Hadoop需要學些什麼。 1.何為大資料 IBM提出大資料具有5V特點：Volume（大量）、Velocit

什麼叫大資料大資料的概念

google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散佈。統計學家內特.西爾弗(Nate Silver)利用大資料預測2012美國選舉結果。麻省理工學院利用手機定位資料和交通資料建立城市規劃。梅西百貨的實時定價機制，根據需求和庫存的情況，該公司基於SAS的系統

大資料基礎概念

傳統的大資料在大資料這個概念還沒出來以前人們是怎麼進行資料資料分析和計算的呢？資料儲存首先資料量都沒有很大，不同的資料散佈在不同資料庫中。如果真的資料大的話就只能花最貴的錢買最好的機器最好的資料庫或者多分幾個庫裝。資料分析人們還沒有意識到資料可以做很多事情，所以

大資料的概念和來源

1.起源起源 2008年9月，美國《自然》雜誌，正是提出“大資料”概念 2011年2月1日，美國《科學》雜誌，通過社會調查的方式，第一次分析了大資料對人們生活的影響 2011年5月，麥肯錫研究院分佈報告。大資料是指其大小超出了常規資料庫工具獲取

大資料相關概念總結

本貼從解決這類問題的方法入手，開闢一系列專題來解決海量資料問題。擬包含以下幾個方面。 Bloom Filter Hash Bit-Map 堆(Heap) 雙層桶劃分資料庫索引倒排索引（Inverted Index）外排序 Trie樹 MapReduce 　　在這

大資料之（4）Hadoop生態系統體系架構及基本概念

一、基本概念機架：HDFS叢集，由分佈在多個機架上的大量DataNode組成，不同機架之間節點通過交換機通訊，HDFS通過機架感知策略，使NameNode能夠確定每個DataNode所屬的機架ID，使用副本存放策略，來改進資料的可靠性、可用性和網路頻寬的利用率。資料塊(blo

大資料的一些基本概念

一、什麼是大資料？大資料的特點？大資料（big data），指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合，是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。大資料的5V特點（IB

20 大資料--HTable基本概念

從一個示例說起傳統的關係型資料庫想必大家都不陌生，我們將以一個簡單的例子來說明使用RDBMS和HBase各自的解決方式及優缺點。、以博文為例，RDBMS的表設計如下：為了方便理解，我們以一些資料示例下上面的例子，我們用HBase可以按以下方式設計同樣為

[資料結構]演算法基本概念和推導大O階步驟

演算法的定義和特性演算法是解決特定問題求解步驟的描述，在計算機中表現為指令的有限序列，並且每條指令表示一個或多個操作演算法有5個基本特性: 特性特性描述輸入

大資料概念和Hadoop基本介紹

開始學習大資料，一步一個腳印，好好堅持下去！大資料概述1.大資料特徵第一個，volume（量），大資料第一個基礎是它的資料量要大；第二個，velocity（速度），大資料一個很重要的它必須是實時產生的，一個兩年以前很大的資料，在今天的時代裡面是不能夠被稱之為大資料的；第三個

大資料的基本概念

什麼是大資料？1.統計處資料指標（有海量資料）2.做資料處理（挖掘有用的東西）處理海量資料的核心技術：1.海量資料儲存：分散式2.海量資料運算：分散式已經有成熟的儲存框架：1.HDFS--分散式檔案儲存系統（例如Word（直觀區別））2.HBASE--分散式資料庫系統（例如表

資料結構作業1-資料結構基本概念

1-1 抽象資料型別中基本操作的定義與具體實現有關。 (1分) [ ] T [x] F 1-2 若用連結串列來表示一個線性表，則表中元素的地址一定是連續的。 (1分) [ ] T [x] F 2-1 在決定選取何種儲存結構時，一般不考慮（）。 (2分) [ ] A.

大資料框架、概念等簡短總結 (持續總結中)

資料倉庫更關注資料分析層面（OLAP）一次寫入、多次讀取 HDFS 分散式檔案系統 HDFS適合批處理場景，不支援資料隨機查詢，不適合增量資料處理且不支援資料更新 Habse 分散式檔案系統的動態查詢，HDFS的隨機讀寫操作 HBase並不適合傳統的事物處

嚴蔚敏老師版《資料結構》筆記之基本概念和術語

1. 什麼是資料結構如果要寫好一個程式，必須分析待處理的物件的特性和物件之間的關係，這是“資料結構”形成和發展的背景。 “資料結構是一門研究非數值計算的程式設計問題中計算機的操作物件以及它們之間的關係和操作等的學科”。 2. 基本概念和術語：（1）資料（

資料結構（C語言版）讀書筆記1(基本概念和術語)

資料：所有輸入到計算機中，並被計算機程式處理的符號的總稱。資料元素：資料的基本單位，在計算機程式中經常被當做一個整體進行考慮和處理資料物件：性質相同的資料元素的集合，是資料的一個子集。資料結構：相互之間存在一種或多種特定關係的資料元素的集合。這種資料元素之間

【資料結構必備基礎知識】之圖的基本概念詳解

一、前言從今天開始就給大家分享有關於圖的概念和程式碼啦，不知道大家有沒有看夠樹的相關內容呢？以後還會慢慢給大家再分享的，程式碼要一遍一遍過，一輪一輪學習。第一輪樹就先到這裡，等第二輪還會給大家分享的。圖應該是資料結構中處於霸王地位的一部分了，圖會涉及到圖論的相關知識，咱們現在還涉及不

大資料的基本概念

什麼是大資料？

處理海量資料的核心技術：

已經有成熟的儲存框架：

已經有成熟的運算框架：（要解決的核心問題就是幫助使用者處理邏輯在很多機器上並行）

輔助工具：（解放我們的一些繁瑣工作）

大資料在現實生活中的具體應用：

相關推薦