大數據熱詞科普(五)
在前面的文章中我們給大家講述了很多有關大數據的熱詞,我們在這篇文章中給大家介紹結構化數據、半結構化數據、非結構化數據、數據清洗。這些詞匯都是和數據分析有關的,下面我們就給大家詳細地介紹一下這些詞的意思。
首先就是結構化數據,所謂結構化數據,簡單來說就是數據庫。結合到典型場景中更容易理解,比如財務系統、醫療HIS數據庫、、政府行政審批;其他核心數據庫等。基本包括高速存儲應用需求、數據備份需求、數據共享需求等等。由此可見結構化數據是十分常見的。
下面我們就給大家說一說半結構化數據,半結構化數據和普通純文本相比,半結構化數據具有一定的結構性,但和具有嚴格理論模型的關系數據庫的數據相比。OEM是一種典型的半結構化數據模型。如果我們在做一個信息系統設計時肯定會涉及到數據的存儲,一般我們都會將系統信息保存在某個指定的關系數據庫中。我們會將數據按業務分類,並設計相應的表,然後將對應的信息保存到相應的表中。而這個就是半結構化數據的應用。
接著我們給大家說一下非結構化數據,非結構化數據庫是指其字段長度可變,並且每個字段的記錄又可以由可重復或不可重復的子字段構成的數據庫,用它不僅可以處理結構化數據,比如如數字、符號等信息而且更適合處理非結構化數據,非結構化數據比如全文文本、圖象、聲音、影視、超媒體等信息。
最後我們給大家說一下數據清洗的內容。數據清洗指發現並糾正數據文件中可識別的錯誤的最後一道程序,包括檢查數據一致性,處理無效值和缺失值等。因為數據倉庫中的數據是面向某一主題的數據的集合,這些數據從多個業務系統中抽取而來而且包含歷史數據,這樣就避免不了有的數據是錯誤數據、有的數據相互之間有沖突,這些錯誤的或有沖突的數據顯然是我們不想要的,稱為“臟數據”。而數據清洗的任務是過濾那些不符合要求的數據,將過濾的結果交給業務主管部門,確認是否過濾掉還是由業務單位修正之後再進行抽取。不符合要求的數據主要是有不完整的數據、錯誤的數據、重復的數據三大類。數據清洗是一個十分重要的內容,因為骯臟數據都會影響數據分析的結果,使得數據分析變得毫無意義。
在這篇文章中我們給大家介紹了很多大數據的詞匯,我們給大家介紹的詞匯都是和數據分析有所聯系的,如果我們在做數據分析以及大數據的話一定不能夠忽略這類知識的掌握。
大數據熱詞科普(五)