大資料工作由哪幾部分組成
關於大資料的概念,指的是無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的資料集合。而大資料技術,是指從各種各樣型別的資料中,快速獲得有價值資訊的能力。那麼關於大資料的技術大致包含哪些內容?
一、資料採集
ETL工具負責將分佈的、異構資料來源中的資料如關係資料、平面資料檔案等抽取到臨時中間層後進行清洗、轉換、整合,最後載入到資料倉庫或資料集市中,成為聯機分析處理、資料探勘的基礎。
二、資料存取
關係資料庫、NOSQL、SQL等。
三、基礎架構
雲端儲存、分散式檔案儲存等。
四、資料處理
自然語言處理(NLP,Natural Language Processing)是研究人與計算機互動的語言問題的一門學科。處理自然語言的關鍵是要讓計算機"理解"自然語言,所以自然語言處理又叫做自然語言理解(NLU,Natural Language Understanding),也稱為計算語言學(Computational Linguistics。一方面它是語言資訊處理的一個分支,另一方面它是人工智慧(AI, Artificial Intelligence)的核心課題之一。
五、統計分析
假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、迴歸分析、簡單迴歸分析、多元迴歸分析、逐步迴歸、迴歸預測與殘差分析、嶺迴歸、logistic迴歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優尺度分析)、bootstrap技術等等。
六、資料探勘
分類 (Classification)、估計(Estimation)、預測(Prediction)、相關性分組或關聯規則(Affinity grouping or association rules)、聚類(Clustering)、描述和視覺化、Description and Visualization)、複雜資料型別挖掘(Text, Web ,圖形影象,視訊,音訊等)。
七、模型預測
預測模型、機器學習、建模模擬。
八、結果呈現
雲端計算、標籤雲、關係圖等。