1. 程式人生 > >大資料時代的思考

大資料時代的思考

資訊爆炸這個早就聽說過,但是為什麼現在才出現大資料一說?人工智慧更是60年代的概念,現在為什麼會火?語音識別,影象識別為什麼變得越來越重要?並行處理器,雲端計算,資料探勘,機器學習為什麼廣泛需求高階人才?這兩天看了吳軍的《智慧時代》,這些問題有了比較清楚的瞭解。

按照這位前輩的理解,我們應該正在處於一次技術革命的拐點。以上提到的這些概念都是解決了人類之前無法解決的一些事,這種方法就是利用大資料處理技術。文中舉了很多例子:智慧駕駛,Alphago,深藍,亞馬遜精準推銷,google的廣告展示等等,這些成功的例子作者都將其歸納為應用了大資料思維。那麼什麼是大資料思維呢?與大資料思維對應的是機械思維,並且我們很多人依然停留在機械思維模式中。在之前的時代,利用機械思維能夠解決一些確定的問題,比如曆法,醫藥研製等等問題,但是很多問題,這種思維無法解決。比如,機器智慧問題。機械思維最為經典的模式就是,從一些資料中得出某一模型(很多時候是公式),然後利用這一模型能夠預測並得到驗證。這種方法需要大量經驗積累,並且在一定運氣的條件下發現這個規律,進而指導人們認識到這種規律和利用這個規律。這就相當於先發現這個事物的本質,然後再大量應用。現在的問題是,很多時候我們不知道某種規律,但是我們能夠得到大量資料來觀察。如果按照原來的思維方式,也許會在某一個特殊的人身上發生一件比較幸運的事,使得他能夠揭示這個規律。然而在高速發展的今天,這種方式顯得不靠譜。那麼就需要一種全新的方式來處理這些問題,那麼利用觀察的大量結果來解決問題就變得十分有必要了。利用大資料解決問題的方式就是大資料思維。其實按照我的理解,這並不是什麼新思維啊,只是那些工作者們在得到大量資料後,對資料進行建模處理,尋找原因,最後發現規律,進而指導行為,最後從中受益。這些與之前的機械思維沒什麼不一樣啊,只是他們的資料量更加複雜,模型更加多維度化而已。但是書中很好的指導了接下來的關鍵技術突破我是十分認同的。

一、資料收集

書中介紹了模型的準確與否主要取決於資料是否完備,及時,準確。現在的資料量非常大,如何採集到有效的資料將會是決定未來的關鍵。資料必須準確,也就是必須有效的。比如,傳統的調查問卷方式獲取資料不僅不能完全涵蓋各個層面,並且這種資料也並不能反應真實情況。書中舉了一個很好的例子就是很多人在填寫自己的喜好時,常常會填寫當下比較潮流或者高大上的,常常並不能真實的反應意圖。而當一個人處於完全自由放鬆的狀態,不經意間流出的資訊卻是非常真實有效。如果可以去收集資料常常會得不到真實的,不全面的資訊。這種資訊會導致錯誤的模型,進而指導錯誤的發展戰略和行為。所以很多大公司採用的是曲線提取資料,根據相關性來獲取資訊。

二、資料儲存和資料表示

儘管現在的資料儲存裝置隨著摩爾定律而價格大跌,但是資訊的數量增長速度卻遠遠高於這個下降速度。在儲存容量有限的情況下就會產生矛盾。大量的資料必須刪去冗餘或者改變儲存的方式來滿足儲存有限的限制,但是資料的壓縮必然會引起資料的丟失錯亂影響資料的完備性。利用雲技術可以減少重複資訊的儲存,如何方便快捷的管理資料也變得十分重要。另外資料產生的目的不同,表示方式也是不同的。那麼如何從不同格式的資料找出資料的關聯性獲得有意義的資料變得十分棘手。

三、平行計算和實時處理

平行計算並不容易,一個任務是很難切分成多個並行處理並且時間相等的小任務。實時化也不容易,很多處理在不同場景下耗時是不同的。

四、資料探勘

如何從一堆資料中找到有用的資訊,並從中總結出規律是十分困難的。

五、資料安全

以下是個人之前的一些理解。這裡簡單思考一下。

我們知道自然界存在很多訊號,如光訊號,聲音,文字等等。隨著感測器技術的發展,這些我們平常接觸的訊號都將被處理成訊號,進而採集到計算機進行處理。所有進入計算機的訊號都轉化成數字呈現在我們眼前。無窮無盡的訊號將會產生海量的資料,這些資料如何處理將決定著我們如何能更好地藉助計算機認識世界,發現規律進而實現數字化世界。數字化採集技術的發展必然引起數字處理技術的進步,海量資料需要非常智慧的演算法和架構來處理。

首先,資料的採集更加多樣化。手機,攝像機,錄音機,壓力計,溫度計等等數字化裝置都能將自然界中的訊號進行採集轉化為特定的數字,這些採集到的多樣化資料最終很可能隨著網際網路聯絡在一起。面對不同裝置採集到的不同訊號得到的資料進行統一處理將十分考驗演算法和架構。首先,必須要對這些資料進行分類,這就是數字處理。基於一定演算法和架構的系統要儘可能的識別出不同的類別,並按照不同的類別對資料進行不同的處理。這是當前主要的處理資料的方法。對於確定的環境來說,已知幾種型別,各種型別該怎麼處理也是知道的,這就非常方便處理。問題是很多時候,我只關心海量資訊中的一小部分,那麼對所有資料進行分類,顯得有點浪費。於是如何快速找到感興趣的區域就是重點了,這就是搜尋演算法了。搜尋演算法的好壞評價就是快,準、穩。如何辨別感興趣的區域和不感興趣的區域呢?這就需要我們對這些資訊進行分類。人類通過邏輯加推理能夠快速找到目標,並分辨出資訊的區別。比如你很容易分辨出蘋果和梨的圖片。但是電腦不能,電腦面對兩張圖片它不知道這張圖片所代表的含義。如何讓電腦識別呢?這個方法就是通過實驗模型對已知確定的樣本庫對電腦進行訓練,通過蘋果和梨的兩個庫,然電腦能夠對這兩類物品有一定的識別能力。電腦通過訓練記住了蘋果和梨的照片的一些特徵,使得電腦在接下來面對照片時就能夠比較容易區分了。雖然願望是好的,但是特徵值的尋找比較困難。並且準確率也並不十分令人滿意,這些都困擾著智慧化的程序。深度學習的演算法使得識別準確率得到了較大的提升,所以現在在影象識別和語音識別研究變得十分火熱。但是特徵值的提取依然很艱難,比如劉德華和曾志偉的聲音很有特點,但是這個特點到底是什麼?人能感覺出來,電腦卻並不容易找出來。這些規律都隱藏在神祕的資料背後,總有一天人們會找出來並運用。雖然在語音和影象的識別並不是十分完美,但是現在商業化執行比較成功的是指紋識別和人臉識別。這些已經被大量用於安全領域,進行身份識別。未來如果語音識別的準確率如果能夠提高,智慧化時代將變得越來越近。

現在我從事的行業只是對資料類別的分類,資料型別清晰明瞭,資料處理方法已知。雖然資料量也很大,但是智慧的成分並不存在。為什麼會這樣呢?我們主要是對狀態進行處理,這裡不涉及很深的內容含義。繼電器就倆狀態,開和關意義明確。即使組合只要有協議在,計算機也能夠理解。語言處理卻是千差萬別,即使相同的兩個字在不同的環境不含義也是不同的。像我們把所有的既定含義定死來讓計算機理解是不可能的。我們的解析只是圖形展示,圖形每個點都有確切含義,不用進行分辨。所以我們只需要將圖形實時顯示即可。如果非要勉強和大資料沾點邊,那些數以千計的感測器的整合處理應該算是有一點點吧。

相關推薦

後 Hadoop 時代資料技術思考資料即服務

備註:此部落格轉自搜狐科技部落格,原作者地址請點選此處 標題:後 Hadoop 時代的大資料技術思考:資料即服務 1. Hadoop 的神話正在破滅 IBM leads BigInsights for Hadoop out behind barn. Shot

資料時代思考

資訊爆炸這個早就聽說過,但是為什麼現在才出現大資料一說?人工智慧更是60年代的概念,現在為什麼會火?語音識別,影象識別為什麼變得越來越重要?並行處理器,雲端計算,資料探勘,機器學習為什麼廣泛需求高階人才?這兩天看了吳軍的《智慧時代》,這些問題有了比較清楚的瞭解。按照這位前輩的

後Hadoop時代資料技術思考資料即服務

1. Hadoop 的神話正在破滅 IBM leads BigInsights for Hadoop out behind barn. Shots heard IBM has announced the retirement of the ba

資料時代資料實時同步解決方案的思考—最全的資料同步總結

  1、 早期關係型資料庫之間的資料同步 1)、全量同步 比如從oracle資料庫中同步一張表的資料到Mysql中,通常的做法就是 分頁查詢源端的表,然後通過 jdbc的batch 方式插入到目標表,這個地方需要注意的是,分頁查詢時,一定要按照主鍵id來排序分頁,避免重複插入。 2)、基於資

資料時代,如何提升格局

大資料時代,格局非常重要,想學習大資料技術的小夥伴,一定要認真閱讀此文 其實大資料時代的人才只分為三種:做事的人、做式的人、做局的人。 道生一,一生二,二生三,三生萬物。這三種人,組建起了一個龐大的社會體系。 先看做事的人。 把一件事情最好是一個人的基本能力,它遵循的是“事道”,講究

資料脫敏平臺-資料時代的隱私保護利器

什麼是資料脫敏 又稱資料漂白、資料去隱私化或資料變形。是對核心業務資料中敏感的資訊,進行變形、轉換、混淆,使得對業務資料中的身份、組織等隱私敏感資訊進行去除或掩蓋,以保護資料能被合理、安全地利用。 ◆ ◆ ◆ 資料脫敏的重要性 1)敏

一篇對資料深度思考的文章,讓你認識並讀懂資料

  在寫這篇文章之前,筆者發現身邊很多IT人對於這些熱門的新技術、新趨勢往往趨之若鶩卻又很難說的透徹,如果你問他大資料和你有什麼關係?估計很少能說出一二三來。究其原因,一是因為大家對新技術有著相同的原始渴求,至少知其然在聊天時不會顯得很“土鱉”;二是在工作和生活環境中真正能參與實踐大資料的案例實在太

資料時代,IT行業的熱門崗位有哪些?

雲端計算、大資料、BYOD、社交媒體、3D印表機、物聯網……在網際網路時代,各種新詞層出不窮,令人應接不暇。這些新的技術、新興應用和對應的IT發展趨勢,使得IT人必須瞭解甚至掌握最新的IT技能。 另一方面,雲端計算和大資料乃至其他助推各個行業發展的IT基礎設施的新一輪部署與運維,都將帶來更多的I

從定性遙感到定量遙感——資料時代的空間資料科學(轉)

原文地址:http://blog.sciencenet.cn/blog-3247241-1073425.html 定性遙感 類似於看圖識物,通過將遙感影像當做特殊的“圖片”,通過諸如計算機的影象識別、分類的方法去進行分析和處理得到我們所需要的Knowledge。比如簡單的土地利用分類、面向物件的分割與分類

資料時代的資訊保安

全世界目前已有超過40億網民,龐大的網民數意味著海量的資訊數,也意味著資訊主體權益易受威脅和侵害。美國最大的社交平臺FACEBOOK就曾發生了個人資訊洩密事件。有公司利用這些個人資料通過演算法來判斷個人的政治立場,並推斷投票結果,這就侵犯了個人的隱私權。 個人資訊作為重要的資料資源,已經成為大資料時代重要的

資料時代的地理資訊科學與科研能力培養

大資料時代的地理資訊科學與科研能力培養 @劉瑜_北大GISer 學者簡介: 劉瑜,北京大學遙感與地理資訊系統研究所教授。目前主要研究方向包括:1)地理 […] A- A+ 地理之道&

你所不知的資料時代

你所不知的大資料時代 一、什麼叫大資料 大資料(Big Data)或稱海量資訊,指的是規模巨大的資訊量通過主流軟體工具,在合理時間內達到擷取、管理、處理、並整合成幫助企業經營決策、提高核心競爭力的資訊。 移動網際網路風生水起,讓資料變得豐富多樣,質感鮮明,顯示出它的移動性、碎片化和私密性。資料能夠轉化為

資料時代的“人工智慧與人”

大資料時代的“人工智慧與人” 10月31日人工智慧發展現狀和趨勢第九次集體學習時指出,在移動網際網路、大資料、超級計算、感測網、腦科學等新理論、新技術的驅動下,人工智慧加速發展,呈現出深度學習、跨界融合、人機協同、群智開放、自主操控等新特徵,正在對經濟發展、社會進步、國際政治經濟格局等方

資料時代,IT行業的熱門崗位有哪些?9前景分析!

最近幾年,特別是今年,好像經常聽到一句話:兄弟,今年生意真難做。是啊,時代在發展,市場也在變,很多人的處境越發艱難,只有適應了市場的變化才能生存。 大資料的市場前景廣闊,而技術能否達到預期的效果,關鍵是在於能否找到適合資訊社會需求的應用模式。而無論是在競爭還是合作的過程中,如果沒有切實的應用,大

資料時代,你的角色是什麼?

大資料時代,不懂點資料分析都不好意思告訴別人你混網際網路、混大都市的,在大資料的環境下,我把市場上的分析師分為幾類   一、資料變現者   這類人一直在公司從事這業務分析的角色,他們一直在嘗試用資料去改變業務決策的流程變更和機遇,驅動這企業的北極星指標,更多做的事

京東推薦系統架構揭祕:資料時代下的智慧化改造

在電商領域,推薦的價值在於挖掘使用者潛在購買需求,縮短使用者到商品的距離,提升使用者的購物體驗。 京東推薦的演進史是絢麗多彩的。京東的推薦起步於2012年,當時的推薦產品甚至是基於規則匹配做的。整個推薦產品線組合就像一個個鬆散的原始部落一樣,部落與部落之前沒有任何工程、演算法的交集。201

資料時代,誰的眼神鎖定你?

資料時代當前,歡迎來到楚門的世界。 雙十一餘韻未歇,剛處理完一波售後及退件等“剁手後遺症”的各方人馬也已經為再戰雙十二做好了準備。截至 12 日零點,天貓雙十一成交額達 2135 億元。與此同時,據國家郵政局監測資料顯示,主要電商企業 11 日全天共產生快遞物流訂單

資料時代如何保證網路安全

大資料時代,每個人的生活中都不存在所謂的絕對“祕密”,通過網路上的資料資訊可以分析出一個人生活的各種痕跡。因此,保障大資料資訊保安至關重要。針對網路安全存在的問題,控制訪問網路許可權、強化資料加密和智慧終端加固不失為保障資訊保安的有效手段。   (一)控制訪問許可權   訪問控制是保障網路安

資料,是個沒有感情的殺手?一文解析資料時代的利和弊

01 瘮人的大資料 上個月小柒邀請閨蜜們來家喝茶聊天,大家討論去海邊的旅遊計劃。 聊著聊著,小愛同學突然插話:“我也要去”,嚇得我趕緊拔掉了小愛的插頭。 姐妹們各回各家,小柒躺下刷手機,今日頭條給我推送了剛才討論的海邊民宿,頓時睡意全無…… 週末去上海學習了兩天《資訊科技與管理》

資料時代資料架構的演繹發展歷程

  首先從企業資訊化發展階段時,資料平臺結構的程度來看。個人依照企業資訊化,將資料平臺階段劃分為:只有業務資料庫——>中間庫——>完善資料倉庫(DW)——>資料集市(Data Mart),順序與階段並不絕對正確,可能有組合,可能所在階段不完全一致。以下先看各個資料