大資料分析：將大資料轉化為鉅額資金前言及第一章

阿新 • • 發佈：2018-12-29

大資料分析：將大資料轉化為鉅額資金

http://www.doc88.com/p-9773645686622.html

內容

前言

什麼是資料？這似乎是一個簡單的問題; 然而，根據解釋，資料的定義可以是從“記錄的東西”到“陽光下的一切”的任何東西。資料可以作為所有經驗，無論是來自感測器的機器記錄資訊，個人拍照，或由科學家記錄的acosmic事件。換句話說，一切都是資料。然而，記錄和儲存資料一直是挑戰，而技術限制了捕獲和儲存資料的能力。

人腦的記憶體儲存容量應該在2.5千兆位元組（或100萬千兆位元組）左右。可以這樣想：如果你的電腦像電視中的數字視訊錄影機一樣，2.5PB就足以容納300萬小時的電視節目。您將不得不讓電視連續執行超過300年，以耗盡所有的儲存空間。用於儲存資料的可用技術無法進行比較，從而建立了一個名為Big Data的技術領域，該領域呈指數級增長。

如今，企業正在記錄越來越多的資訊，資訊（或資料）正在增長，消耗的儲存空間越來越多，管理變得越來越難，從而建立了大資料。記錄如此大量資訊的需要各不相同。有時候原因是遵守合規性規定，在其他情況下，需要保留交易，在許多情況下，它只是備份策略的一部分。

然而，儲存資料需要花費時間和金錢，即使它只是用於保護資料。這是最大的挑戰：企業如何能夠繼續儲存大量資料？幸運的是，那些已經提出減輕這些儲存問題的技術的人也想出了一種從許多人看來是負擔的價值中獲取價值的方法。這是一個稱為大資料分析的過程。

大資料分析背後的概念實際上並不是什麼新鮮事。幾十年來，企業一直在使用商業智慧工具，科學家們一直在研究資料集，以揭示多年來的祕密。但是，資料收集的規模正在變化，您可用的資料越多，您可以從中推斷出的資訊就越多。

今天的挑戰是找到資料的價值，並以更有趣和適用的方式探索資料來源，以開發能夠推動決策，找到關係，解決問題，提高利潤，生產力甚至生活質量的智慧。

關鍵是要想大，這意味著大資料分析。

本書將探討大資料背後的概念，如何分析資料以及解釋分析資料的收益。

第1章討論大資料分析的起源，探討相關技術的演化，並解釋推導價值背後的基本概念。

第2章深入研究了不同型別的資料來源，並解釋了這些來源對於尋求在資料集中尋找價值的企業非常重要。

第3章幫助那些希望利用資料分析來構建業務案例以刺激技術投資並開發成功提取智慧和資料集所需技能的人員。

第4章將分析團隊的概念結合在一起，描述必要的技能集，並解釋如何將BigData整合到企業文化中。

第5章幫助尋找資料來源以提供大資料分析，涵蓋各種公共和私人資料來源，並識別可用於分析的不同型別的資料。

第6章通過描述構成大資料分析系統的元素來處理儲存，處理能力和平臺。

第7章介紹了安全性，合規性和審計的重要性 - 這些工具和技術使大資料來源安全可用於分析。

第8章深入研究大資料的演變，並討論將作為大資料發展的短期和長期變化，並被越來越多的組織採用。

第9章討論了資料分析的最佳實踐，涵蓋了使大資料分析更易於交付的一些關鍵概念，以及如何避免潛在陷阱以及如何避免它們。

第10章探討了資料管道的概念以及BigData如何在分析過程中移動，然後轉換為可提供價值的可信資訊。

有時，關於特定技術的最佳資訊來自於那些為促進利潤和增長而推廣該技術的人，因此白皮書的出生。白皮書旨在教育和激勵客戶關於特定技術領域，同時將這些潛在客戶輕輕地引向供應商的產品。

也就是說，最好採取含有一粒鹽的白皮書。然而，白皮書被證明是研究技術的極好來源，具有重要的教育價值。考慮到這一點，我在本書的附錄中包含了以下白皮書，每個白皮書都為那些希望利用大資料解決方案的人提供了額外的知識：“ApacheHadoop的MapR釋出”和“高可用性：無單點故障， “都來自MapR Technologies。

第1章：什麼是大資料？

究竟什麼是大資料？乍一看，這個詞看起來很模糊，指的是大而且充滿資訊的東西。該描述確實符合要求，但它沒有提供有關WhatBig Data真正的資訊。大資料通常被描述為超大型資料集，這些資料集已經超越了使用傳統資料處理工具管理和分析它們的能力。在網上尋找線索，揭示了一種幾乎普遍的定義，大多數推廣BigData意識形態的人都可以將其歸結為類似的東西：

大資料定義了資料集已經發展到如此巨大的規模的情況，以至於常規資訊科技無法再有效地處理資料集的大小或資料集的規模和增長。換句話說，資料集已經變得如此之大，以至於難以管理甚至更難以從中獲取價值。主要困難是資料的採集，儲存，搜尋，共享，分析和視覺化。

關於大資料究竟是什麼，還有很多話要說。概念已經發展到不僅包括資料集的大小，還包括利用資料所涉及的過程。大資料甚至與其他業務概念（例如商業智慧，分析和資料探勘）具有同義詞。

矛盾的是，大資料並不是那麼新鮮。雖然大量資料集是在過去兩年中建立的，但大資料的根源在於科學和醫學界，其中對藥物開發，物理建模和其他形式的研究進行了大量資料的複雜分析，所有這些都是涉及大型資料集。然而正是這一概念的根源改變了BigData的發展方向。

分析的到來

隨著分析和研究應用於大型資料集，科學家們得出結論：越多越好 - 在這種情況下，更多的資料，更多的分析和更多的結果。研究人員開始將相關的資料集，非結構化資料，檔案資料和實時資料整合到流程中，從而產生了我們現在所稱的大資料。

價值在哪裡？

在商業世界中，大資料都是關於機會的。根據IBM，我們每天建立2.5個五分之一（2.5×10 18）位元組的資料，因此今天世界上90％的資料都是在過去兩年中建立的。這些資料來自各地：用於收集氣候資訊的感測器，用於社交媒體網站的帖子，線上釋出的數字圖片和視訊，線上購買的交易記錄以及手機GPS訊號，僅舉幾例。這是BigData的催化劑，以及更重要的事實，即所有這些資料都具有可以使用分析，演算法和其他技術推斷的內在價值。

大資料已經證明了它在幾個領域的重要性和價值。國家海洋和大氣管理局（NOAA），美國國家航空航天局（NASA），幾家製藥公司和眾多能源公司等組織已積累了大量資料和現有的大量資源。資料技術每天從中提取價值。

大資料已經證明了它在幾個領域的重要性和價值。國家海洋和大氣管理局（NOAA），美國國家航空航天局（NASA），幾家製藥公司和眾多能源公司等組織已積累了大量資料和現有的大量資源。資料技術每天從中提取價值。其他研究。製藥公司和能源公司已經利用大資料來獲得更有形的結果，例如藥物測試和地球物理分析。紐約時報

已經使用大資料工具進行了Fortext分析和Web挖掘，而沃爾特迪斯尼公司則使用它來關聯和理解其所有商店，主題公園和Web屬性中的客戶行為。

大資料在當今的業務中扮演另一個角色：大型組織越來越需要維護大量結構化和結構化資料 - 從資料倉庫中的交易資訊到員工推文，從供應商記錄到監管檔案 - 遵守政府法規。最近的法院案件鼓勵公司保留大量的檔案，電子郵件和其他電子通訊，如即時通訊和網際網路提供，如果他們面臨訴訟，電子發現可能是必需的

價值在哪裡？

提取價值說起來容易做起來難。大資料充滿了挑戰，從技術到概念到運營，其中任何一個都可能破壞發現價值的能力和大資料的所有內容。也許最好以多維術語來思考大資料，其中四個維度涉及大資料的主要方面。該定義可以定義如下：

1.卷。

大資料有一種尺寸：大。企業充斥著資料，容易積累太位元組甚至數PB的資訊。

2.品種繁多。

大資料擴充套件到結構化資料之外，包括各種型別的結構化資料：文字，音訊，視訊，點選流，日誌檔案等。

3.準確性。

為大資料目錄收集的大量資料可能導致統計錯誤和對收集資訊的誤解。資訊的純度對價值至關重要。

4.速度。

通常對時間敏感，必須使用大資料，因為它正在流入企業，以便最大化其對業務的價值，但它仍然必須從檔案來源中獲得。

這些4V的大資料構成了分析的路徑，每個分析在發現價值的過程中都具有內在價值。然而，大資料的複雜性並不僅僅以四個維度結束。還有其他因素在起作用：大資料驅動的過程。這些過程是技術和分析的集合，用於定義資料來源的價值，這轉化為可以推動業務發展的可操作元素。

其中許多技術或概念並不新鮮，但已經成為大資料的保護者。最佳定義為分析類別，這些技術和概念包括以下內容：

傳統商業智慧（BI）：這包括用於收集，儲存，分析和提供資料訪問的大量應用程式和技術。 BI提供可操作的資訊，幫助企業使用者使用基於事實的支援系統做出更好的業務決策。 BI通過使用由資料庫，應用程式資料和其他有形資料來源提供的詳細業務資料進行深入分析來工作。在某些圈子中，BIcan提供業務操作的歷史，當前和預測檢視。

資料探勘：這是一個過程，在這個過程中，從不同的角度分析資料，然後將其轉換為被認為有用的摘要資料。資料探勘通常與靜態資料或歸檔資料一起使用。資料探勘技術專注於建模和知識發現，用於預測，而不是純粹的描述性目的 - 從大型資料集中發現新模式的理想過程。

統計應用：這些資料使用基於統計原理的演算法來檢視資料，並且通常集中於與民意調查，人口普查和其他靜態資料集相關的資料集。統計應用程式可以提供樣本觀察結果，可用於研究人口資料集，以進行估算，測試和預測分析。經驗資料，如調查和實驗報告，是可分析資訊的主要來源。

預測分析：這是統計應用程式的一個子集，根據從資料庫收集的趨勢和資訊，檢查資料集以提出預測。一旦將外部元素新增到資料集中，預測分析就會在金融和科學領域變得越來越大，其中趨勢推動預測。預測分析的主要目標之一是確定業務流程，市場和製造的風險和機會。

資料建模：這是分析的概念性應用，其中可以通過演算法多個數據集應用多個“假設”場景。理想情況下，建模資訊會根據演算法可用的資訊而變化，然後提供對變更對資料集的影響的洞察。資料建模與資料視覺化密切相關，其中隱藏資訊可以幫助進行特定的業務努力。

前面的分析類別僅構成了大資料流向的一部分，以及為什麼它對業務具有內在價值。這種價值是由對永無止境的追求競爭優勢的驅動，鼓勵企業轉向大型公司和外部資料庫，以發現趨勢，統計資料和其他可行的資訊，以幫助他們決定下一步行動。這有助於大資料的概念在技術專家和管理人員及其相關工具，平臺和分析中得到普及。

更多大資料，而不是眼睛：

資料集的體積和總體大小隻是BigData方程的一部分。越來越多的人認為，半結構化和結構化資料來源都包含業務關鍵資訊，因此必須能夠滿足BI和運營需求。同樣，相關非結構化業務資料的數量不僅在增長，而且在可預見的未來將繼續增長。

資料可以分為幾類：結構化資料，半結構化資料和非結構化資料。結構化資料通常在傳統資料庫（SQL或其他）中發現，其中資料根據定義的業務規則組織到表中。結構化資料通常被證明是最容易使用的資料型別，因為資料被定義和索引，使訪問和過濾更容易。

相反，非結構化資料通常沒有BI。結構化資料不會組織到表中，也不能由應用程式本地使用或由資料庫解釋。結構化資料的一個很好的例子是二進位制影象檔案的集合。

半結構化資料介於非結構化資料和結構化資料之間。半結構化資料沒有像包含表和關係的資料庫那樣的正式結構。但是，與非結構化資料不同，半結構化資料具有標記或其他標記來分隔元素，並提供定義資料的記錄和欄位的層次結構。

處理大資料的數量

由於可以使用標準XML格式和行業特定的XML資料標準（例如，保險中的ACORD，醫療保健中的HL7）處理資料集的實用程式和應用程式，處理不同型別的資料正在融合。這些XML技術正在擴充套件可由大資料分析和整合工具處理的資料型別，但這些流程的轉換功能仍然因資料的複雜性和數量而緊張，導致現有轉換功能與新興需求之間的不匹配。這為新型通用資料轉換產品打開了大門，該產品將允許為所有類別的資料（結構化，半結構化和非結構化）定義轉換，無需編寫程式碼，並且可以部署到任何軟體應用程式或平臺體系結構。

大資料的定義和相關分析的執行仍處於不斷變化的狀態; 工具，技術和程式不斷髮展。然而，這種情況並不意味著那些從大型資料集中尋求價值的人應該等待。對於採用觀望態度的業務流程而言，大資料非常重要。

大資料的真正訣竅是找到處理變化資料來源的最佳方法，並仍然滿足分析過程的目標。這需要一種精明的方法，將硬體，軟體和過程整合到一個可管理的過程中，在可接受的時間內提供結果框架 - 這一切都始於資料。

儲存是大資料的關鍵要素。資料必須儲存在某個地方，易於訪問和保護。事實證明，這對許多組織來說是一個巨大的挑戰，因為基於網路的儲存（例如SANS和NAS）的購買和管理成本非常高。

儲存已經發展成為典型資料中心中更為行人的元素之一 - 畢竟，儲存技術已經成熟並且已經開始接近商品狀態。然而，今天的企業面臨著不斷變化的需求，這些需求可能會給儲存技術帶來壓力。一個典型的例子就是大資料分析的推動，即為大資料集帶來BI功能的概念。

大資料分析流程需要的功能通常超出典型的儲存範例。傳統儲存技術（如SANS，NAS等）無法原生處理大資料提供的TB級和PB級非結構化資訊。大資料分析的成功需要更多：處理大量資料的新方法，新的儲存平臺意識形態。

開源帶來了工具

進入Hadoop，這是一個開源專案，提供了一個使用Big Data的平臺。儘管Hadoop已經存在了一段時間，但現在越來越多的企業開始利用其功能。 Hadoop平臺旨在解決由大量資料引起的問題，尤其是包含複雜結構化資料和非結構化資料混合的資料，這些資料不適合放在表中。 Hadoop適用於需要支援深度和計算範圍廣泛的分析的情況，例如群集和定位。

對於尋求利用大資料的決策者，Hadoop解決了與大資料相關的最常見問題：以有效的方式儲存和訪問大量資料。

Hadoop的內在設計允許它作為一個平臺執行，該平臺能夠在大量不共享任何記憶體或磁碟的機器上工作。考慮到這一點，很容易看出Hadoop如何提供額外的價值：網路管理員可以簡單地購買一大堆商品伺服器，將它們放在機架中，然後執行Hadoop軟體。

Hadoop還有助於消除與大型資料集相關的大部分管理開銷。在操作上，當一個組織的資料被載入到Hadoop平臺時，該軟體將資料分解為可管理的部分，然後自動將它們分散到不同的伺服器上。資料的分散式特性意味著沒有一個地方可以訪問資料; Hadoop會跟蹤datareside的位置，並通過建立多個副本儲存來保護資料。增強了靈活性，因為如果伺服器離線或失敗，資料可以從已知的正常副本中自動複製。

Hadoop範例在處理資料方面還有幾個步驟。例如，與傳統的集中式資料庫系統相關的限制，可能包括連線到伺服器類系統並具有多個處理器的大型磁碟驅動器。在Inthat場景中，分析受到磁碟效能的限制，並最終受到可購買的處理器數量的限制。

通過Hadoop叢集，叢集中的每個伺服器都可以利用Hadoop在叢集中傳播工作和資料的能力來參與資料處理。換句話說，索引作業通過將程式碼傳送到叢集中的每個伺服器來工作，然後每個伺服器在其自己的一小部分資料上執行。結果然後作為一個統一的整體被回傳。使用Hadoop，該過程稱為MapReduce，其中程式碼或程序對映到所有伺服器，結果縮減為單個集合。

這個過程使Hadoop在處理大量資料時非常擅長：Hadoop通過利用所有可用的叢集處理器並行工作來擴充套件資料並處理複雜的計算問題。

然而，冒險進入Hadoop世界並不是一種即插即用的體驗;必須滿足某些先決條件，硬體要求和配置工作才能確保成功。第一步是理解和定義分析過程。大多數主要資訊官員熟悉業務分析（BA）或BI過程，並且可以與最常用的過程層相關：提取，轉換和載入（ETL）層以及它在構建BA或BI解決方案時所起的關鍵作用。大資料分析要求組織選擇要分析，合併它們的資料，然後在資料進行ETL過程之前應用聚合方法。這必須發生在大量資料中，這些資料可以是結構化的，非結構化的，也可以來自多個來源，例如社交網路，資料日誌，網站，移動裝置和感測器。

Hadoop通過整合實用流程和考慮（例如容錯叢集架構），將計算能力移近資料，並行和/或批量處理大型資料集的能力以及支援企業架構層從資料儲存到開放的生態系統來實現這一目標。分析過程。

並非所有企業都需要大資料分析提供的服務;必須考慮Hadoop應對挑戰的能力。但是，Hadoop無法獨立完成所有事情。企業需要考慮構建Hadoop專案需要哪些額外的Hadoop元件。

例如，一組Hadoop元件的初始元件可能包括以下內容：用於資料管理的HDFS和HBase，用於處理框架的MapReduce和00ZIE，用於開發人員生產力的開發框架Pig和Hive，以及用於BI的開源Pentaho.A試點專案不需要大量的硬體。硬體要求可以像一對帶有多重核心的伺服器，24或更多千兆位元組的RAM，以及每個2兆兆位元組的十幾個硬碟驅動器一樣簡單。這應該足以讓一個試點專案開始。

應預先警告資料管理員，Hadoop的有效管理和實施需要一些專業知識和經驗，如果沒有現成的專業知識，資訊科技管理應考慮與能夠全面支援Hadoop專案的服務提供商合作。這種專業知識證明對安全特別重要; Hadoop，HDFS和HBase以整合安全性的形式提供非常小的功能。換句話說，仍然需要保護資料不受損害或被盜。

考慮到所有因素，內部Hadoop專案是大資料分析功能試點測試的最佳選擇。在試點之後，那些渴望進一步深入大資料分析領域的人可以使用大量的商業和/或託管解決方案。

大資料分析：將大資料轉化為鉅額資金前言及第一章