1. 程式人生 > >淺談大資料時代的大資料技術與應用

淺談大資料時代的大資料技術與應用

從某種程度上說,大資料是資料分析的前沿技術。簡言之,從各種各樣型別的資料中,快速獲得有價值資訊的能力,就是大資料技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。

大資料給網際網路帶來的是空前的資訊大爆炸,它不僅改變了網際網路的資料應用模式,還將深深影響著人們的生產生活。深處在大資料時代中的人們,已經認識到大資料已經將資料分析的認識從“向後分析”變成“向前分析”,改變了人們的思維模式,但同時大資料也向我們提出了資料採集、分析和使用等難題。在解決了這些難題的同時,也意味著大資料開始向縱深方向發展。

大資料可分成大資料技術、大資料工程、大資料科學和大資料應用等領域。目前人們談論最多的是大資料技術和大資料應用。工程和科學問題尚未被重視。大資料工程指大資料的規劃建設運營管理的系統工程;大資料科學關注大資料網路發展和運營過程中發現和驗證大資料的規律及其與自然和社會活動之間的關係。

 


大資料是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不
斷的成長!大資料學習群:868847735  一起討論進步學習

 

1、大資料統計分析的意義

近年來,包括網際網路、物聯網、雲端計算等資訊科技在內的IT通訊業迅速發展,資料的快速增長成了許多行業共同面對的嚴峻挑戰和寶貴機遇,因此現代資訊社會已經進入了大資料時代。事實上,大資料改變的不只是人們的日常生活和工作模式、企業運作和經營模式,甚至還引起科學研究模式的根本性改變。

一般意義上,大資料是指無法在一定時間內用常規機器和軟硬體工具對其進行感知、獲取、管理、處理和服務的資料集合。網路大資料是指“人、機、物”三元世界在網路空間中彼此互動與融合所產生並在網際網路上可獲得的大資料。將資料應用到生活生產中,可以有效地幫助人們或企業對資訊作出比較準確的判斷,以便採取適當行動。資料分析是組織有目的地收集資料、分析資料,並使之成為資訊的過程。也就是指個人或者企業為了解決生活生產中的決策或者營銷等問題,運用分析方法對資料進行處理的過程。

所謂的資料統計分析,SEO馬龍認為就是運用統計學的方法對資料進行處理。在以往的市場調研工作中,資料統計分析能夠幫助我們挖掘出資料中隱藏的資訊,但是這種資料的分析是“向後分析”,分析的是已經發生過的事情。而在大資料中,資料的統計分析是“向前分析”,它具有預見性。

2、大資料的視覺化分析

資料是結構化的,包括原始資料中的關係資料庫,其資料就是半結構化的,譬如我們熟知的文字、圖形、影象資料,同時也包括了網路的不同構型的資料。通過對各種資料的分析,就可以清晰的發現不同型別的知識結構和內容,包括反映表徵的、帶有普遍性的廣義型知識;用於反映資料的匯聚模式或根據物件的屬性區分其所屬類別的特徵型知識;差異和極端特例進行描述的差異型知識;反映一個事件和其他事件之間依賴或關聯的關聯型知識。關於這點,我曾在SEO馬龍部落格的《如何做好一個產品的市場調研和資料分析》一文中體現出來了。

根據當前歷史和當前資料預測未來資料的預測型知識。當前已經出現了許多知識發現的新技術,其中之一就是視覺化方法。資料視覺化技術有3個鮮明的特點:

(1)、與使用者的互動性強。使用者不再是資訊傳播中的受者,還可以方便地以互動的方式管理和開發資料。

(2)、資料顯示的多維性。在視覺化的分析下,資料將每一維的值分類、排序、組合和顯示,這樣就可以看到表示物件或事件的資料的多個屬性或變數。

(3)、最直觀的可視性特點。資料可以用影象、曲線、二維圖形、三維體和動畫來顯示,並可對其模式和相互關係進行視覺化分析。

3、資料探勘演算法

資料探勘是指資料庫中的知識發現,其歷史可以追溯到1989年美國底特律市召開的第一屆KDD國際學術會議上,而第一屆知識發現和資料探勘(Data Mining,DM)國際學術會議是1995年加拿大召開的,會議上將資料庫裡存放的資料生動地比擬成礦床,從而“資料探勘”這個名詞很快就流傳開來。資料探勘的目的是在雜亂無章的資料庫中,從大量資料中找到有用的、合適的資料,並將其隱含的、不為人知的潛在價值的資訊揭示出來的過程。事實上,資料探勘只是整個KDD過程中的一個步驟。

資料探勘的定義沒有統一的說法,其中“資料探勘是一個從不完整的、不明確的、大量的並且包含噪聲的具有很大隨機性的實際應用資料中,提取出隱含其中、事先未被人們獲知、卻潛在有用的知識或模式的過程”是被廣泛接受的定義。

事實上,SEO馬龍覺得該定義中所包含的資訊——大量真實的資料來源包含著噪聲;滿足使用者的需求的新知識;被理解接受的而且有效運用的知識;挖掘出的知識並不要求適用於所有領域,可以僅支援某個特定的應用發現問題。

以上這些特點都表現了它對資料處理的作用,在有效處理海量且無序的資料時,還能夠發現隱藏在這些資料中的有用的知識,最終為決策服務。從技術這個角度來說,資料探勘就是利用一系列相關演算法和技術從大量的資料中提取出為人們所需要的資訊和知識,隱藏在資料背後的知識,可以以概念、模式、規律和規則等形式呈現出來。

4、大資料技術的預測性分析

預測性分析可以讓分析員根據視覺化分析和資料探勘的結果做出一些預測性的判斷。大資料分析最終要實現的應用領域之一就是預測性分析,視覺化分析和資料探勘都是前期鋪墊工作,只要在大資料中挖掘出資訊的特點與聯絡,就可以建立科學的資料模型,通過模型帶入新的資料,從而預測未來的資料。作為資料探勘的一個子集,記憶體計算效率驅動預測分析,帶來實時分析和洞察力,使實時事務資料流得到更快速的處理。實時事務的資料處理模式能夠加強企業對資訊的監控,也便於企業的業務管理和資訊更新流通。

此外,大資料的預測分析能力,能夠幫助企業分析未來的資料資訊,有效規避風險。在通過大資料的預測性分析之後,無論是個人還是企業,都可以比之前更好地理解和管理大資料。對此大家可以通過SEO馬龍部落格的《解讀2013年大資料應用與趨勢的調研》相關介紹來具體瞭解。

儘管當前大資料的發展趨勢良好,但網路大資料對於儲存系統、傳輸系統和計算系統都提出了很多苛刻的要求,現有的資料中心技術很難滿足網路大資料的需求。因此,科學技術的進步與發展對大資料的支援起著重要的作用,大資料的革命需要考慮對IT行業進行革命性的重構。網路大資料平臺(包括計算平臺、傳輸平臺、儲存平臺等)是網路大資料技術鏈條中的瓶頸,特別是網路大資料的高速傳輸,需要革命性的新技術。

此外,既然在大資料時代,任何資料都是有價值的,那麼這些有價值的資料就成為了賣點,導致爭奪和侵害的發生。事實上,只要有資料,就必然存在安全與隱私的問題。隨著大資料時代的到來,網路資料的增多,使得個人資料面臨著重大的風險和威脅,因此,網路需要制定更多合理的規定以保證網路環境的安全。

5、大資料的應用

眾所周知,企業資料本身就蘊藏著價值,但是將有用的資料與沒有價值的資料進行區分看起來可能是一個棘手的問題。但是屢見不鮮的是,很多公司仍然只是將資訊簡單堆在一起,僅將其當作為滿足公司治理規則而必須要儲存的資訊加以處理,而不是將它們作為戰略轉變的工具。

畢竟,資料和人員是業務部門僅有的兩筆無法被競爭對手複製的財富。在善用的人手中,好的資料是所有管理決策的基礎,帶來的是對客戶的深入瞭解和競爭優勢。資料是業務部門的生命線,必須讓資料在決策和行動時無縫且安全地流到人們手中。

所以,資料應該隨時為決策提供依據。有些人會說,資料中蘊含的價值只能由專業人員來解讀。但SEO馬龍卻不完全贊同這個觀點,在SEO馬龍認為資料的價值在於將正確的資訊在正確的時間交付到正確的人手中。未來將屬於那些能夠駕馭所擁有資料的公司,這些資料與公司自身的業務和客戶相關,通過對資料的利用,發現新的洞見,幫助他們找出競爭優勢。

大資料分析是商業智慧的演進。當今,感測器、GPS系統、QR碼、社交網路等正在建立新的資料流。所有這些都可以得到發掘,正是這種真正廣度和深度的資訊在創造不勝列舉的機會。要使大資料言之有物,以便讓大中小企業都能通過更加貼近客戶的方式取得競爭優勢,資料整合和資料管理是核心所在。

有的時候,我們應該將這種複雜性看成是一種機會而不是問題。處理方法時,產生的資料越多,結果就會越成熟可靠。在如今的大資料時代中,最靈活和成功的企業將會是那些善用大機遇的公司。

 

大資料技術的戰略意義不在於掌握龐大的資料資訊,而在於對這些含有意義的資料進行專業化處理。換言之,如果把大資料比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對資料的“加工能力”,通過“加工”實現資料的“增值”。