1. 程式人生 > >大資料概念、演算法、應用

大資料概念、演算法、應用

一、 大資料基本概念

大資料Big Data是指大小超出了常用的軟體工具在執行時間內可以承受的收集,管理和處理資料能力的資料集;大資料是目前儲存模式與能力、計算模式與能力不能滿足儲存與處理現有資料集規模產生的相對概念。

大資料的預處理

主要完成對已接收資料的辨析、抽取、清洗等操作。

(1)抽取:因獲取的資料可能具有多種結構和型別,資料抽取過程可以幫助我們將這些複雜的資料轉化為單一的或者便於處理的構型,以達到快速分析處理的目的。

(2)清洗:對於大資料,並不全是有價值的,有些資料並不是我們所關心的內容,而另一些資料則是完全錯誤的干擾項,因此要對資料通過過濾“去噪”從而提取出有效資料。

大資料帶來的數學問題

在數學上來看,計算機中存在不斷變大的資料集,不存在絕對的大資料,計算機中的所有資料集都是有限集合。

  • 大資料取樣——把大資料變小、找到與演算法相適應的極小樣本集、取樣對演算法誤差的影響
  • 大資料表示——表示決定儲存、表示影響演算法效率
  • 大資料不一致問題——導致演算法失效和無解、如何消解不一致
  • 大資料中的超高維問題——超高維導致資料稀疏、演算法複雜度增加
  • 大資料中的不確定維問題——多維度資料並存、按任務定維難
  • 大資料中的不適定性問題——高維導致問題的解太多難以抉擇

大資料的特徵

  • 稠密與稀疏共存:區域性稠密與全域性稀疏
  • 冗餘與缺失並在:大量冗餘與區域性缺失
  • 顯式與隱式均有:大量顯式與豐富隱式
  • 靜態與動態忽現:動態演進與靜態關聯
  • 多元與異質共處:多元多變與異質異性
  • 量大與可用矛盾:量大低值與可用稀少

目前大資料的外延

大資料規模大小是一個不斷演化的指標:

當前任務處理的單一的資料集,從數十TB到十幾PB級的資料規模(TB«PB«EB«ZB)

處理大資料的可等待的合理時間依賴任務的目標:

地震資料預測要求在幾分鐘內才有效、氣象資料應該在小時級別、失聯飛機資料處理要在7天之內、資料探勘一般要求在12小時內

二、 大資料悖論

大資料已被定義為科學探索的第四正規化。繼幾千年前的實驗科學、數百年前的理論科學和數十年前的計算科學之後,當今的資料爆炸孕育了資料密集型科學,將理論、實驗和計算模擬等正規化統一起來。大資料已被譽為“非競爭性”生產要素。大資料具有“取之不盡,用之不竭”的特性,在不斷的再利用、重組和擴充套件中持續釋放其潛在價值,在廣泛的公開、共享中不斷創造著新的財富。根源在於,大資料的價值在於預測未知領域、非特定因素的未來趨勢,在於破解長期的、普遍的社會難題。而目前的大資料技術和應用,依然侷限於歷史和實時資料的關聯分析,侷限於滿足短線的、特定的市場需求。解決悖論的過程,恰恰是理論和方法應運而生的過程。而人們試圖解決悖論的努力,正好是大資料落地生根的推動力。

36大資料

方法論缺位

自2008年《自然》雜誌推出“大資料”專刊以來,大資料概念就從學術大討論,轉向了企業的數字化轉型,進而上升到“開放政府資料”的戰略佈局。然而,單純的數量上的規模龐大,並不能輕易地將大資料與以往的“海量資料”、“超大規模資料”等區別開,因為三者均沒有設定數量級等門檻。

方法論缺位是最大的障礙。大資料發展的核心動力源於人們測量、記錄和分析世界的渴望,滿足這些渴望需要資料、技術和思維三大要素。在計算技術、通訊技術日益成熟的今天,在廉價的、便捷的數字化儲存普及的當下,資料無處不在,技術正以標準化、商品化的方式提供,事實上思維和方法論才是決定大資料成敗的關鍵,但目前來看,跨越學術與產業、技術與應用之間鴻溝的方法論依然不完善。

在社會難題中淘金

正如數學史上三次危機分別促成公理幾何的誕生、集合論的創立和現代資料的發展一樣,悖論是理論、技術和應用進步的巨大推動力。大資料悖論的解決,也將推動大資料應用的普及和社會價值的釋放。經過新聞媒體和學術會議的大肆宣傳之後,大資料技術趨勢一下子跌到谷底,許多資料創業公司變得岌岌可危……根據這條著名的Gartner技術成熟度曲線,大資料已經走過了萌芽期和泡沫化的炒作期,並將在未來3~5年內步入低谷期。

大資料

市場中的鴻溝

大資料營銷模型將經歷創新者、早期採用者、早期大眾、後期大眾和落後者等5個階段。這5個階段之間存在著4條裂縫,其中最大、最危險的裂縫存在於早期市場與主流市場之間,我們稱之為“鴻溝”。

大資料的主流市場來源於實用主義的早期大眾和保守主義的後期大眾,兩者各自佔據大資料市場1/3的份額。這兩個群組的共同特徵是均具備良好的資訊科技基礎和深厚的大資料積累,並深諳大資料的社會價值和經濟價值。有所不同的是,前者希望看到成熟的解決方案和成功的應用案例,它們大多是金融、能源、電信等公共服務部門。而後者需要有更安全可靠的大資料保障和廣泛的社會應用基礎,它們大多是致力於解決環境、能源和健康等社會問題的公共管理部門。

大資料技術和應用獲得創新者的追捧是顯而易見的,獲得早期市場的擁護也是輕而易舉的。但是,不因“時髦”而加入,不因“過時”而退出,才能成為大資料主流市場的掘金者。遺憾的是,不少企業或許會成為“鴻溝中的犧牲者”,而無緣迎接大資料真正應用市場的到來。

規劃整體產品

現代營銷奠基人之——西奧多·萊維特給出了“整體產品”的概念。根據這一概念,大資料產品應該包括作為“核心吸引物”的一般產品、滿足初級心理需求的期望產品和實現更高階參與以及自我實現的延伸產品和潛在產品4個部分。

三、 大資料挑戰性問題

現有的資料中心技術很難滿足大資料的需求,需要考慮對整個IT架構進行革命性的重構。而儲存能力的增長遠遠趕不上資料的增長,因此設計最合理的分層儲存架構已成為IT系統的關鍵。資料的移動已成為IT系統最大的開銷,目前傳送大資料最高效也是最實用的方式是通過飛機或地面交通工具運送磁碟而不是網路通訊。在大資料時代,IT系統需要從資料圍著處理器轉改變為處理能力圍著資料轉,將計算推送給資料,而不是將資料推送給計算。應對處理大資料的各種技術挑戰中,以下幾個問題值得重視:

1、大資料對科學規範的挑戰

大資料帶來了新的科研正規化

科研第四正規化是思維方式的大變化,已故圖靈獎得主吉姆格雷提出的資料密集型科研“第四正規化”,將大資料科研從第三正規化中分離出來單獨作為一種科研正規化,是因為其研究方式不同於基於資料模型的傳統研究方式。PB級資料使我們可以做到沒有模型和假設就可以分析資料。將資料丟進巨大的計算機機群中,只要有相關關係的資料,統計分析演算法可以發現過去的科學方法發現不了的新模式、新知識甚至新規律。

大資料如何應用於開放的研究

大資料基於對海量資料的分析產生價值,那麼如何獲得海量資料來讓大資料真正落地呢?這其中最不可或缺的一個環節就是資料開放。現在推進資料開放更為重要的是通過資料的共享來產生更多的價值。資料開放能夠提高社會執行效率,積極整合各方公開的資料,建立基於大資料的城市規劃來緩解交通和社會治安問題。 資料開放能夠激發巨大的商業價值,資料開放是面向社會大眾的開放,任何人只要有能力都可以用它來創造新的商機。

加強資料開放,為大資料發展打牢基礎。在大資料應用日益重要的今天,資料資源的開放共享已經成為在資料大戰中保持優勢的關鍵。促進商業資料和個人資料的開放與共享。商業資料和個人資料的共享應用,不僅能促進相關產業的飛速發展,產生巨大的經濟價值,也能給我們的生活帶來巨大的便利。經常網購的人會有這樣一種體驗。很多電商網站能夠在我們買書的時候,推薦我們剛好喜歡的其他書籍,這正是網站根據成千上萬甚至上億人的個人資料的統計分析而得出的,但是我們也感受到了這樣強大的資料分析能力對我們“隱私權”的衝擊。因此,完善個人隱私保護等相關立法,對哪些個人資料可以進行商業化應用、應用範圍如何界定、資料濫用應承擔哪些責任等具體問題做出規範,從而保證資料開放工作穩步推進,為大資料發展應用打好根基。

重現大資料研究結果

資料量的增大,會帶來規律的喪失和嚴重失真。維克托·邁爾-舍恩伯格在其著作《大資料的時代》中也指出“資料量的大幅增加會造成結果的不準確,一些錯誤的資料會混進資料庫,”此外,大資料的另外一層定義,多樣性,即來源不同的各種資訊混雜在一起會加大資料的混亂程度,統計學者和電腦科學家指出,巨量資料集和細顆粒度的測量會導致出現“錯誤發現”的風險增加。大資料意味著更多的資訊,但同時也意味著更多的虛假關係資訊,海量資料帶來顯著性檢驗的問題,將使我們很難找到真正的關聯。

我們以一個實際的案例來看一下樣本量不斷增大之後,會出現的問題:

大資料

上表是關於某年網路遊戲歷程擴散的迴歸分析,當樣本量是5241個的時候,你會發現用一個簡單的線性迴歸擬合這個資料,年齡、文化程度、收入這三個變數顯著,當我們把樣本量增加到10482個的時候,發現獨生子女和女性開始顯著,增加到20964個的時候,體制外這個變數也開始顯著,當樣本增加到33萬的時候,所有變數都具有顯著性,這意味著世間萬物都是有聯絡的。樣本大到一定程度的時候,很多結果自然就會變得顯著,會無法進行推論,或者得出虛假的統計學關係。此外,斷裂資料、缺失資料(下文將會進行分析)的存在將會使這種虛假關係隨著資料量的增長而增長,我們將很難再接觸到真相。

事實上,真實的規律是這樣的:

大資料

對一個社會現象進行客觀深刻準確的分析,對事物的理解需要資料,但更需要分析思維,在大資料時代,理論並非不重要,而是變得更加重要。我們所指的理論也並非僵化一成不變的固守舊有理論,而是在處理問題的過程中意識到海量資料所帶來的複雜性,堅持分析方法和理論的不斷創新。

大資料研究結果可信與否

《大資料時代》一書的作者維克托·邁爾-舍恩伯格說,大資料的核心就是預測。它通常被視為人工智慧的一部分,或者更確切地說,被視為一種機器學習。他認為,大資料大大解放了人們的分析能力。一是可以分析更多的資料,甚至是相關的所有資料,而不再依賴於隨機抽樣;二是研究資料如此之多,以至於我們不再熱衷於追求精確度;三是不必拘泥於對因果關係的探究,而可以在相關關係中發現大資料的潛在價值。因此,當人們可以放棄尋找因果關係的傳統偏好,開始挖掘相關關係的好處時,一個用資料預測的時代才會到來。

不可否認,大資料標誌著人類在尋求量化和認識世界的道路上前進了一步。這是計算技術的進步,是人類決策工具的進步。改編自邁克爾·劉易斯的《魔球:逆境中制勝的智慧》的影片《點球成金》,講述了一個真實的故事,介紹了奧克蘭運動家棒球隊總經理比利·比恩的經營哲學,描述了他拋棄幾百年延續的選擇球員的慣常做法,採用了一種依靠電腦程式和數學模型分析比賽資料來選擇球員的方法。比利·比恩的成功稱得上是對球探們經驗決策的顛覆,是讓資料說話的成功範例。正如維克托·邁爾-舍恩伯格將大資料視為人工智慧的一部分,視為機器學習的一種應用一樣,資料決策和資料旁證的博弈其實是人和機器的博弈。即便是有一將難求的資料科學家的協助,大資料決策依然是輔助系統。

在這一階段,雲端計算是基礎設施,大資料是服務工具,兩者將滿足特定語境下的、短線的市場需求,更重要的是它們還能發揮其在非特定語境下破解社會難題的價值。換言之,大資料將演繹“資訊轉化為資料,資料集聚成知識,知識湧現出智慧”的程序。

2、大資料帶來的社會問題

在基於社交媒體和數字化記憶的大資料時代,人們不僅擔心無處不在的“第三隻眼”,而且擔心隱私被二次利用。因為,亞馬遜監視著我們的購物習慣,谷歌監視著我們的網頁瀏覽習慣,微博似乎什麼都知道,包括我們的社交關係網……可怕的不是這些隱私資料,而是大資料的全資料分析、模糊計算和重關聯卻不求因果的特性,讓隱私資料與社交網路等關聯起來。按照維克托·邁爾-舍恩伯格的說法,危險不再是隱私的洩漏,而是被預知的可能性——這些能夠預測我們可能生病、拖欠還款和犯罪的演算法會讓我們無法購買保險,無法貸款,甚至實施犯罪前就被預先逮捕。

無論如何,大資料正在推動產權認知和結構的變革,以往IT產業鏈的主宰者或將在變革中遭遇衝擊。大資料的魅力在於它能夠讓企業在無邊界的資料海洋裡遨遊,發現社會進步的內在韻律,捕捉社會發展的先行引數。比如從消費者興趣圖譜中萃取研發創新智慧,而不侷限於產品關聯性分析;比如對企業內外部利益相關者群體智慧的發掘,開展企業和產業的健康診斷,而不侷限於短效的精益管理;比如對地震等自然災害的預警,構架社會應急機制……

3、大資料帶來的技術挑戰

抽樣分析+全資料驗證的分析思路

增加樣本容易,降低演算法複雜度難。維克托·邁爾·舍恩伯格在介紹大資料時代的資料分析思維轉變時提到過三個觀點,其中之一是:分析所有的資料,而不再僅僅依靠一小部分資料。全資料一時甚囂塵上,企業、研究者以為大資料就是全資料,以至於再談抽樣都似乎帶有保守主義色彩,這種看法無疑是對大資料和抽樣二者都存在偏見和不足,如果認為大資料就是收集所有樣本的資訊,讓資料自己說話,那麼在方法論上就是狹隘的。

這裡也涉及了全資料的第二個問題全(暫且假定我們通過人們在谷歌上輸入搜尋條目就找到了真正意義上的全:谷歌利用搜索記錄而預測到流感爆發的案例被廣為引用以說明資料自會說話,當人們開始在網上搜索關於感冒的詞彙表明他感染了流感,建立流感與空間、病毒的關係,能夠成功的預測一場流感)資料確實能看到變化,通過變化作出“預測”,但無法解釋變化的影響因素,維克托·邁爾·舍恩伯格對此的回答是:我們要相關性,不要因果關係。這並非是這位作者有選擇的選擇,而是放棄抽樣而直接採用大資料的必然。

《文學文摘》依靠紙媒時代巨大的發行量獲得240萬民眾的資料,而蓋洛普僅在嚴格抽樣基礎上研究了5000人,是“小資料”的複雜演算法超過“大資料”的簡單演算法的真實案例。

沒有抽樣的擬合,直接面對大資料,將使我們失去對人的瞭解,對真實規律的追尋,畢竟不是所有的社會事實都一場流感一樣易於預測,況且即便是谷歌被廣為讚譽的流感預測案例也被認為存在問題:在與傳統的流感監測資料比較之後,根據網際網路流感搜尋實時更新的Google流感趨勢被發現明顯高估了流感峰值水平。科學家指出基於搜尋有太多的噪音影響了它的精確度這表明基於社交網路資料探勘的流感跟蹤將不是替代而只能補充傳統的流行病監測網路。他們正在開發噪音較少的替代跟蹤方法,例如基於Twitter的流感跟蹤只包含真正病人的帖子,而不是轉載的流感新聞報道。

分析理解大資料——盲人摸象

資料是企業最重要的資產,而且隨著資料產業的發展,將會變得更有價值。但封閉的資料環境會阻礙資料價值的實現,對企業應用和研究發現來講都是如此,因此我們需要合理的機制在保護資料安全的情況下開放資料,使資料得到充分利用。有效的解決辦法之一是公正的第三方資料分析公司、研究機構作為中間商收集資料、分析資料,在資料層面打破現實世界的界限,進行多家公司的資料共享而不是一家公司盲人摸象,這才能實現真正意義上的大資料,賦予資料更廣闊全面的分析空間,才會對產業結構和資料分析本身產生思維轉變和有意義的變革。

4、大資料管理的挑戰

每一種非結構化資料均可被視為大資料。這包括在社交網站上的資料、線上金融交易資料、公司記錄、氣象監測資料、衛星資料和其他監控、研究和開發資料。大資料儲存與管理要用儲存器把採集到的資料儲存起來,建立相應的資料庫,並進行管理和呼叫。重點解決複雜結構化、半結構化和非結構化大資料管理與處理技術。主要解決大資料的可儲存、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。開發可靠的分散式檔案系統(DFS)、能效優化的儲存、計算融入儲存、大資料的去冗餘及高效低成本的大資料儲存技術;突破分散式非關係型大資料管理與處理技術,異構資料的資料融合技術,資料組織技術,研究大資料建模技術;突破大資料索引技術;突破大資料移動、備份、複製等技術;開發大資料視覺化技術。

通過隔離管理大資料儲存

如果有多個儲存箱,那麼將資料庫、線交易處理(OLTP)和微軟Exchange應用到特定的儲存系統是個不錯的選擇。其它儲存系統則用於大資料應用如入口網站,線上流媒體應用等。

如果沒有儲存系統,將特定的前端儲存埠到資料庫,OLTP等等;致力於大資料應用到其他埠。背後的基本原理是使用專用埠,而大資料流量是以千位元組或兆位元組衡量,OLTP應用流量是以每秒的輸入/輸出操作(IOPS)衡量,因為資料塊的大小是比大資料更大而比OLTP應用程式更小。OLTP應用程式是CPU密集型的,而大資料應用程式更多的使用前端埠。因此,更多的埠可以專注於大資料應用。

專業的大資料儲存管理

相容資料管理的儲存系統。如EMCIsilon的叢集儲存系統對於大資料儲存管理是一個更好的選擇,因為在一個單一的檔案系統中大資料能增長到多位元組的資料。

大資料分析

除了儲存,大資料管理的另一項大的挑戰是資料分析。一般的資料分析應用程式無法很好的處理大資料,畢竟涉及到大量的資料。採用專門針對大資料的管理和分析的工具,這些應用程式執行在叢集儲存系統上,緩解大資料的管理。管理大資料的另一個需要重點考慮的是未來的資料增長。你的大資料儲存管理系統應該是可擴充套件的,足以滿足未來的儲存需求。

大資料的儲存管理和雲端計算

目前正在尋找雲端計算服務來進行儲存和管理海量資料。而選擇雲服務來大型資料儲存管理,可以確保資料的所有權。有權選擇將資料移入或移出雲服務,而不被供應商鎖定。

5、大資料探勘挑戰

面臨的挑戰

(1)大資料集的挑戰

如下圖為資料到知識的演化過程示意圖:

大資料

  • 缺少大資料複雜度冗餘度的度量方法
  • 缺少確保近似演算法精度分析方法
  • 缺少根據分佈知識對大資料進行抽樣的方法

(2)資料複雜性挑戰

挖掘將會很大程度地提高資料分析的效能和靈活性。源於資料倉庫的數 據立方體計算技術和OLAP(線上分析處理)技術極大地提高了大型資料庫多維分析的效能。除了傳統的資料立方體技術,近期的研究致力於構建迴歸立方體、預測立方體以及其他的面向統計的複雜資料立方體。這樣的多維或高維分析工具對分層多維資料的有效分析提供了保證。

(3)資料動態增長的挑戰

研究內容

(1)研究分散式平行計算環境下的大資料大資料分析的基本策略

I.與資料分佈相聯絡的分治策略

II.與演算法機理相結合的並行策略

(2)研究複雜度降精度可控的新的大資料分析演算法

I.大資料分類、聚類、關聯分析、異常發現等

(3)大資料分析平臺研發

四、 大資料探勘的演算法

分類和預測是兩種分析資料的方法,它們可用於抽取能夠描述重要資料集合或預測未來資料趨勢的模型。分類方法用於預測資料物件的離散類別;而預測則用於預測資料物件的連續取值。許多分類和預測方法已被機器學習、專家系統、統計學和神經生物學等方麗的研究者提出,其中的大部分演算法屬於駐留記憶體演算法,通常假定的資料量很小,最初的資料探勘方法大多都是在這些方法及基於記憶體基礎上所構造的演算法。目前資料探勘方法都要求,目前的資料探勘研究已經在這些工作基礎之上得到了很大的改進,開發了具有基於外存以處理大規模資料集合能力的分類和預測技術,這些技術結合了並行和分佈處理的思想。

1、資料變小——分類演算法

分類是找出資料庫中的一組資料物件的共同特點並按照分類模式將其劃分為不同的類,其目的是通過分類模型,將資料庫中的資料項對映到摸個給定的類別中。可以應用到涉及到應用分類、趨勢預測中,如淘寶商鋪將使用者在一段時間內的購買情況劃分成不同的類,根據情況向用戶推薦關聯類的商品,從而增加商鋪的銷售量。

空間覆蓋演算法-基於球鄰域的空間劃分

大資料演算法

空間覆蓋演算法-仿生模式識別

大資料

空間覆蓋演算法-視覺分類方法

VCA把資料看作一幅影象,核心是基於尺度空間理論,選擇合適的尺度使得同類樣本區域融合在一起。

大資料演算法

分類超曲面演算法HSC

設訓練樣本所在空間為一封閉維方體區域,將此區域按照一定細分規則劃分成若干小區域,使每個小區域只包含同一類樣本點,並用樣本點的類別標定該區域,合併相鄰同類區域邊界,獲得若干超平面片封閉組成的分類超曲面。輸入新樣本點,根據分類判別定理判斷樣本點所在的類別。

特點:

(1)通過特徵區域細化直接解決非線性分類問題,不需要考慮使用何種函式,不需要升維變換。

(2)通用可操作的分類超曲面構造法,基於分類超曲面的方法通過區域合併計算獲得分類超曲面對空間進行劃分

(3)獨特、簡便、易行的分類判別方法,基於分類超曲面的方法是基於Jordan定理的分類判斷演算法,使得基於非凸的超曲面的分類判別變得簡便、易行。

2、極小覆蓋子集

覆蓋型分類演算法的極小覆蓋子集——對特定的訓練樣本集,若其子樣本集訓練後得到的分類模型與與原樣本集訓練後得到的分類模型相同,則稱子樣本集是原樣本集的一個覆蓋。在一個樣本集的所有覆蓋中,包含樣本個數最少的覆蓋稱為樣本集的極小覆蓋子集。

(1)計算極小覆蓋子集的基本步驟:

用一個方形區域覆蓋所有樣本點;將該區域劃分成一系列小區域 (單元格),直到每個小區域內包含的樣本點都屬於同一類別;將落在同一小區域內的樣本點中選擇且僅選擇一個樣本構成極小覆蓋子集。

(2)取樣受限於極小覆蓋子集

全樣本空間必然包含極小覆蓋子集,任意一個數據集未必包含完整的極小覆蓋子集。大資料環境下,極小覆蓋子集中的樣本更多地包含在大資料中,較多的資料可以戰勝較好的演算法、再多的資料亦不會超過極小覆蓋子集的代表性、再好的提升手段亦不會超過極小覆蓋子集確定的精度。

3、迴歸分析

迴歸分析反映了資料庫中資料的屬性值的特性,通過函式表達資料對映的關係來發現屬性值之間的依賴關係。它可以應用到對資料序列的預測及相關關係的研究中去。在市場營銷中,迴歸分析可以被應用到各個方面。如通過對本季度銷售的迴歸分析,對下一季度的銷售趨勢作出預測並做出針對性的營銷改變。

4、聚類

聚類類似於分類,但與分類的目的不同,是針對資料的相似性和差異性將一組資料分為幾個類別。屬於同一類別的資料間的相似性很大,但不同類別之間資料的相似性很小,跨類的資料關聯性很低。

5、關聯規則

關聯規則是隱藏在資料項之間的關聯或相互關係,即可以根據一個數據項的出現推匯出其他資料項的出現。關聯規則的挖掘過程主要包括兩個階段:第一階段為從海量原始資料中找出所有的高頻專案組;第二極端為從這些高頻專案組產生關聯規則。關聯規則挖掘技術已經被廣泛應用於金融行業企業中用以預測客戶的需求,各銀行在自己的ATM 機上通過捆綁客戶可能感興趣的資訊供使用者瞭解並獲取相應資訊來改善自身的營銷。

6、神經網路方法

神經網路作為一種先進的人工智慧技術,因其自身自行處理、分佈儲存和高度容錯等特性非常適合處理非線性的以及那些以模糊、不完整、不嚴密的知識或資料為特徵的處理問題,它的這一特點十分適合解決資料探勘的問題。典型的神經網路模型主要分為三大類:第一類是以用於分類預測和模式識別的前饋式神經網路模型,其主要代表為函式型網路、感知機;第二類是用於聯想記憶和優化演算法的反饋式神經網路模型,以Hopfield 的離散模型和連續模型為代表。第三類是用於聚類的自組織對映方法,以ART 模型為代表。雖然神經網路有多種模型及演算法,但在特定領域的資料探勘中使用何種模型及演算法並沒有統一的規則,而且人們很難理解網路的學習及決策過程。

7、Web資料探勘

Web資料探勘是一項綜合性技術,指Web 從文件結構和使用的集合C 中發現隱含的模式P,如果將C看做是輸入,P 看做是輸出,那麼Web 挖掘過程就可以看做是從輸入到輸出的一個對映過程。

五、 大資料展望與應用

大資料技術能夠將隱藏於海量資料中的資訊和知識挖掘出來,為人類的社會經濟活動提供依據,從而提高各個領域的執行效率,大大提高整個社會經濟的集約化程度。根據ESM國際電子商情針大資料應用現狀和趨勢的調查顯示:被調查者最關注的大資料技術中,排在前五位的分別是大資料分析(12.91%)、雲資料庫(11.82%)、Hadoop(11.73%)、記憶體資料庫(11.64%)以及資料安全(9.21%)。Hadoop已不再是人們心目中僅有的大資料技術,而大資料分析成為最被關注的技術。從中可以看出,人們對大資料的瞭解已經逐漸深入,關注的技術點也越來越多。既然大資料分析是最被關注的技術趨勢,那麼大資料分析中的哪項功能是最重要的呢?從下圖可以看出,排在前三位的功能分別是實時分析(21.32%)、豐富的挖掘模型(17.97%)和視覺化介面(15.91%)。從調查結果可以看出:在未來一兩年中有迫切部署大資料的需求,並且已經從一開始的基礎設施建設,逐漸發展為對大資料分析和整體大資料解決方案的需求。
大資料將重點應用於以下幾大大領域:商業智慧、政府決策、公共服務等。

行業拓展者,打造大資料行業基石

IBM:IBM大資料提供的服務包括資料分析,文字分析,藍色雲杉;業務事件處理;IBM Mashup Center的計量,監測,和商業化服務(MMMS)。 IBM的大資料產品組合中的最新系列產品的InfoSphere bigInsights,基於Apache Hadoop。 該產品組合包括:打包的Apache Hadoop的軟體和服務,代號是bigInsights核心,用於開始大資料分析。軟體被稱為bigsheet,軟體目的是幫助從大量資料中輕鬆、簡單、直觀的提取、批註相關資訊為金融,風險管理,媒體和娛樂等行業量身定做的行業解決方案 微軟:2011年1月與惠普(具體而言是HP資料庫綜合應用部門) 合作目標是開發了一系列能夠提升生產力和提高決策速度的裝置。

EMC:EMC 斬獲了紐交所和Nasdaq;大資料解決方案已包括40多個產品。

Oracle:Oracle大資料機與Oracle Exalogic中介軟體雲伺服器、Oracle Exadata資料庫雲伺服器以及Oracle Exalytics商務智慧雲伺服器一起組成了甲骨文最廣泛、高度整合化系統產品組合。

大資料促進了政府職能變革

重視應用大資料技術,盤活各地雲端計算中心資產:把原來大規模投資產業園、物聯網產業園從政績工程,改造成智慧工程;在安防領域,應用大資料技術,提高應急處置能力和安全防範能力;在民生領域,應用大資料技術,提升服務能力和運作效率,以及個性化的服務,比如醫療、衛生、教育等部門;解決在金融,電信領域等中資料分析的問題:一直得到得極大的重視,但受困於儲存能力和計算能力的限制,只侷限在交易數型資料的統計分析。一方面大資料的應用促進了政府職能變革,另一方面政府投入將形成示範效應,大大推動大資料的發展。

打造“智慧城市”

通過收集、處理龐大而複雜的資料資訊,從中獲得知識和洞見,提升能力,加快科學、工程領域的創新步伐,強化安全意識,轉變教育和學習模式。智慧城市是使用智慧計算技術使得城市的關鍵基礎設施的組成和服務更智慧、互聯和有效,隨著智慧城市的建設,社會將步入“大資料”時代。

未來,改變一切

未來,企業會依靠洞悉資料中的資訊更加了解自己,也更加了解客戶。 資料的再利用:由於在資訊價值鏈中的特殊位置,有些公司可能會收集到大量的資料,但他們並不急需使用也不擅長再次利用這些資料。但當它被一些釋出個性化位置廣告服務和促銷活動的公司再次利用時,則變得更有價值。