1. 程式人生 > >大資料分析和人工智慧科普

大資料分析和人工智慧科普

大資料

大資料(Big Data)

眾說紛紜!

個人認為,大資料中的“大”,不僅僅是涉及資料規模,而且包含“價值“這個層面。其實無非就是大量的資訊罷了,但是我們卻能通過各種手段從這些資訊中提取出我們所需要的東西。

資料分析、資料探勘和推薦系統

資料分析(Data Analysis)

啤酒和尿布這個故事在歐美國家也被傳唱,出現的版本還不盡相同。但對此質疑的聲音也不少,其中有一位叫Daniel J. Power的教授特此撰文,應該是最全面地有理有據揭開這個故事後面的真相。有興趣的人可以詳細閱讀英文全文:What is the "true story" about using data mining to identify a relation between sales of beer and diapers? 主旨內容如下:

這家連鎖店不是沃爾瑪,而是Osco Drugs,一家主要在美國中西部經營的藥房和便利店。 該公司於1992年就著手進行資料分析專案,算是資料分析的先驅者。當時的專案收集了來自25家分店、一千兩百多萬個購物車的資訊。

資料的確發現:下午5點到7點之間,客戶購買了啤酒和尿片。 商店管理層的確對此發現表示興趣。但現實中,並沒有重新設計商品的擺放,沒有把啤酒和尿布進行捆綁銷售。不過,公司保守地對銷售流程進行了改造,即在正確的時間放正確數量的正確商品。

這就是啤酒和尿片的故事真相,所以,這其實並不是資料分析的好故事。大家對此故事津津樂道,無外乎希望表達:資料分析技術是商業決策的好幫手。

資料分析:就是對資料進行分析,得出一些結論性的內容,用於決策。分析什麼哪? 根據分析現狀、分析原因、預測未來。分析現狀和分析原因,需要結合業務才能解釋清楚。用到的技術比較簡單,最簡單的資料分析工具就是 Excel 和 Python 了。預測未來指的是分析未來一段時間的銷售額之類的。在預測未來方面,一般用到資料探勘的技術了。資料分析更多的是指用適當的統計分析方法對收集來的大量資料進行分析,提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。這一過程也是質量管理體系的支援過程。在實用中,資料分析可幫助人們作出判斷,以便採取適當行動。

資料分析是以輸入的資料為基礎,通過先驗的約束,對資料進行處理,但是不需要對結果做處理,得到任何結果都行。例如你需要影象識別,這個屬於資料分析,你要分析人臉,而資料通過你的先驗的方法,就是出來個貓臉。你的資料分析也沒有問題,你需要的就是默默的承受結果,並且尊重事實。因此資料分析的重點在於資料的有效性、真實性和先驗約束的正確性。

簡而言之:資料分析是對資料的一種操作手段。或者演算法。目標是針對先驗的約束,對資料進行整理、篩選、加工,由此得到資訊。如一份使用者資訊表中,某個使用者的年齡超過了200歲,這種資料明顯就是使用者惡搞的資料,我們一般使用資料分析的手段把這種髒資料剔除掉,而我們不需要關心處理後的資料是什麼樣子的,這就是資料分析中的一種資料預處理手段。

資料探勘(Data Mining)

資料探勘:從字面意思上看,是從資料中挖掘出有價值的資訊。比如,超市通過對一段時間的客戶消費記錄能發現,哪些物品經常被顧客一起購買。那麼,就可以把這些物品擺放的位置近一些,或者一起促銷。在這裡,客戶的消費記錄是“資料” ,“挖掘” 出的資訊是哪些商品經常被一起購買。“價值” 指的是超市可以據此搞促銷,提高超市的銷售額。挖掘出這些有價值資訊的方法就是課程中需要學習的。資料探勘關注的是一些方法如何在商業中應用,並不是純粹的理論和學術。資料探勘涉及到很多的演算法,源於機器學習的神經網路,決策樹,也有基於統計學習理論的支援向量機,分類迴歸樹,和關聯分析的諸多演算法,值得慶幸的是 Python 中的 Scikit-learn庫 中提供了以上所有的演算法。資料探勘的定義是從海量資料中找到有意義的模式或知識。

較於資料分析的簡單分析,資料探勘則不同,資料探勘是對資訊的價值化的獲取。價值化自然不考慮資料本身,而是考慮資料是否有價值。由此,一批資料,你嘗試對它做不同的價值挖掘。評估,則就是資料探勘。此時對比資料分析,最大的特點就是,你需要調整你的不同的先驗約束,再次對資料進行分析。而先驗的約束已經不是針對資料來源自身的特點,例如信噪比處理演算法。而是你期望得到的一個有價值的內容,做先驗的約束。以觀測,資料根據這個約束,是否有正確的反饋。也就是說,資料探勘相比較資料分析看重的更是結果,而不看重過程。

舉個例子說明資料分析和資料探勘:你揣著50元去菜市場買菜,對於琳琅滿目的雞鴨魚豬肉以及各類蔬菜,想葷素搭配,你逐一詢問價格,不斷進行統計分析,能各自買到多少肉,多少菜,大概能吃多久,心裡得出一組資訊,這就是資料分析;而關係到你做出選擇的時候就需要對這些資訊進行價值評估,根據自己的偏好,營養價值,科學的搭配,用餐時間計劃,最有價效比的組合等等,對這些資訊進行價值化分析,最終確定一個購買方案,這就是資料探勘。需要注意的是:雖然在此做了這樣的比較,但是資料分析的資料量一般遠遠小於資料探勘。

推薦系統(Recommended System)——資料探勘的應用之一

推薦系統:首先,需要申明一點的就是推薦系統!=推薦演算法。推薦系統是一套完善的推薦機制,包括前期資料的準備、具體推薦的過程(這個過程可能是一套複雜的演算法模型,也可能是一個簡單的規則,也可能是多種模型的混合結果等等)、後期資料的預測、AB測試效果評估等等。

推薦系統在演算法模型上大體可以分為基於內容的推薦、基於協同過濾的推薦,如下圖所示:

  • 基於內容推薦:即通過內容本身的屬性,然後計算內容的相似性,找到與某物品屬性相似的物品。

  • 基於協同過濾推薦:所謂協同過濾,即不依賴於物品本身的物品屬性,而是通過其他相關特徵,例如人蔘與的行為資料,來達到推薦物品的目的。關於協同過濾,又分為以下幾個類別:
    • 基於模型的協同,即ModelCF,其中基於模型的協同又可以分為以下幾種型別;
      • 基於圖模型協同,即Graph,也叫社會網路圖模型;
      • 基於矩陣分解的協同過濾,即Latent Factor Model(SVD);
      • 基於距離的協同過濾;
    • 基於用於的協同,即UserCF;
    • 基於物品的協同,即ItemCF;

上述講了那麼多,早期的推薦系統演算法一直想解決的是超市中的長尾效應(馬太效應)。

所謂長尾效應,在推薦系統中的體現即,部分優質物品,購買的人數較多,即與其相關的的使用者行為軌跡會較多。這樣,在協同過濾推薦中,由於我們主要的依據就是我們的歷史行為行為資料,所以這種物品得到推薦的機會就越多。這樣,不斷迴圈迭代,得到推薦的物品都集中在少數的一些物品中,而大部分物品是沒有被推薦的機會的。這就造成了造成長尾現象。

而馬太效應的意思是,通俗點說就是,強者愈強,弱者愈弱。而長尾的直接體現就是馬太效應。通常來講(當然也有特殊情況),一個推薦系統,如果長時間處於長尾之中,就會造成推薦疲勞,推薦的效果就會下降。所以,很多時候,挖掘長尾是推薦系統不可缺少的部分。即,我們需要把尾巴部分 並且是有價值的部分給適當的展示出來。挖掘長尾的方法很多,其中一種常見的方式就是給熱點物品適當的降權。比如物品,我們為熱點物品進行權重下降,這樣在最終推薦的結果中,非熱點物品得到推薦的機會就增大,從而適當的挖掘了長尾。

人工智慧、機器學習、神經網路和深度學習

有人說,人工智慧(AI)是未來,人工智慧是科幻,人工智慧也是我們日常生活中的一部分。這些評價可以說都是正確的,就看你指的是哪一種人工智慧。

今年早些時候,Google DeepMind的AlphaGo打敗了韓國的圍棋大師李世乭九段。在媒體描述DeepMind勝利的時候,將人工智慧(AI)、機器學習(machine learning)、神經網路(neural network)和深度學習(deep learning)都用上了。這三者在AlphaGo擊敗李世乭的過程中都起了作用,但它們說的並不是一回事。

今天我們就用最簡單的方法——同心圓,視覺化地展現出它們三者的關係和應用。

如上圖,人工智慧是最早出現的,也是最大、最外側的同心圓;其次是機器學習,稍晚一點;最內側,是深度學習,當今人工智慧大爆炸的核心驅動。

五十年代,人工智慧曾一度被極為看好。之後,人工智慧的一些較小的子集發展了起來。先是機器學習,然後是深度學習。深度學習又是機器學習的子集。深度學習造成了前所未有的巨大的影響。

從概念的提出到走向繁榮

1956年,幾個電腦科學家相聚在達特茅斯會議(Dartmouth Conferences),提出了“人工智慧”的概念。其後,人工智慧就一直縈繞於人們的腦海之中,並在科研實驗室中慢慢孵化。之後的幾十年,人工智慧一直在兩極反轉,或被稱作人類文明耀眼未來的預言;或者被當成技術瘋子的狂想扔到垃圾堆裡。坦白說,直到2012年之前,這兩種聲音還在同時存在。

過去幾年,尤其是2015年以來,人工智慧開始大爆發。很大一部分是由於GPU的廣泛應用,使得平行計算變得更快、更便宜、更有效。當然,無限拓展的儲存能力和驟然爆發的資料洪流(大資料)的組合拳,也使得影象資料、文字資料、交易資料、對映資料全面海量爆發。

讓我們慢慢梳理一下電腦科學家們是如何將人工智慧從最早的一點點苗頭,發展到能夠支撐那些每天被數億使用者使用的應用的。

人工智慧(Artificial Intelligence)——為機器賦予人的智慧

人工智慧:縮寫是 AI,就是像人一樣的智慧、會思考。人工智慧更適合理解為一個產業,泛指產生更加智慧的軟體和硬體。人工智慧實現的方法就是機器學習,所以談人工智慧技術,實際上就是機器學習的各種演算法的應用。各種智慧家居、智慧機器人都是人工智慧產業的方向。

早在1956年夏天那次會議,人工智慧的先驅們就夢想著用當時剛剛出現的計算機來構造複雜的、擁有與人類智慧同樣本質特性的機器。這就是我們現在所說的“強人工智慧”(General AI)。這個無所不能的機器,它有著我們所有的感知(甚至比人更多),我們所有的理性,可以像我們一樣思考。

人們在電影裡也總是看到這樣的機器:友好的,像星球大戰中的C-3PO;邪惡的,如終結者。強人工智慧現在還只存在於電影和科幻小說中,原因不難理解,我們還沒法實現它們,至少目前還不行。

我們目前能實現的,一般被稱為“弱人工智慧”(Narrow AI)。弱人工智慧是能夠與人一樣,甚至比人更好地執行特定任務的技術。例如,Pinterest上的影象分類;或者Facebook的人臉識別。

這些是弱人工智慧在實踐中的例子。這些技術實現的是人類智慧的一些具體的區域性。但它們是如何實現的?這種智慧是從何而來?這就帶我們來到同心圓的裡面一層,機器學習。

機器學習(Machine Learning)—— 一種實現人工智慧的方法

機器學習:是研究如何讓計算機去學習。學習什麼哪? 根據一些過去的事實,學習如何適應新的環境。太小白了,嚴肅點! 機器學習,是研究演算法的學科,研究的是如何讓計算機根據以往的經驗去適應新的環境。這裡“以往的經驗” 指的是歷史資料,“適應” 指的是通過歷史資料創造一個很牛逼的函式,“新的環境” 指的是把新的資料輸入到這個函式中,產生一個新的輸出。機器學習本質上是研究自學習演算法的科學,這些演算法是幫助軟體和機器進行自我學習解決問題的演算法。

機器學習最基本的做法,是使用演算法來解析資料、從中學習,然後對真實世界中的事件做出決策和預測。與傳統的為解決特定任務、硬編碼的軟體程式不同,機器學習是用大量的資料來“訓練”,通過各種演算法從資料中學習如何完成任務。

機器學習直接來源於早期的人工智慧領域。傳統演算法包括決策樹學習、推導邏輯規劃、聚類、分類、迴歸、強化學習和貝葉斯網路等等(當然還有很多)。眾所周知,我們還沒有實現強人工智慧。早期機器學習方法甚至都無法實現弱人工智慧。

機器學習最成功的應用領域是計算機視覺,雖然也還是需要大量的手工編碼來完成工作。人們需要手工編寫分類器、邊緣檢測濾波器,以便讓程式能識別物體從哪裡開始,到哪裡結束;寫形狀檢測程式來判斷檢測物件是不是有八條邊;寫分類器來識別字母“ST-O-P”。使用以上這些手工編寫的分類器,人們總算可以開發演算法來感知影象,判斷影象是不是一個停止標誌牌。

這個結果還算不錯,但並不是那種能讓人為之一振的成功。特別是遇到雲霧天,標誌牌變得不是那麼清晰可見,又或者被樹遮擋一部分,演算法就難以成功了。這就是為什麼前一段時間,計算機視覺的效能一直無法接近到人的能力。它太僵化,太容易受環境條件的干擾。

隨著時間的推進,學習演算法的發展改變了一切。

神經網路(Neural network)——機器學習中的一個演算法模型

神經網路:是機器學習中的一個演算法模型,指的是模擬人的神經系統。大家知道,人的神經非常複雜,所以神經網路演算法需要的計算量很大。神經網路在以前一直不溫不火,原因是計算機硬體不足以支撐神經網路的計算量。現在大資料技術的發展,讓神經網路迎來了春天。比如人臉識別、交通領域的車牌識別技術都是神經網路的應用。

深度學習(Deep Learning)——一種實現機器學習的技術

深度學習:屬於神經網路的一個發展分支,指的是層數很多的神經網路,可以簡單理解為更加高階的神經網路。把神經網路比作數學學科,深度學習類似於高等數學。無人駕駛汽車屬於深度學習的典型應用。Python 中,可以使用 TensorFlow2 和 PyTorch庫非常簡單的實現深度學習中的各種演算法。

人工神經網路(Artificial Neural Networks)是早期機器學習中的一個重要的演算法,歷經數十年風風雨雨。神經網路的原理是受我們大腦的生理結構——互相交叉相連的神經元啟發。但與大腦中一個神經元可以連線一定距離內的任意神經元不同,人工神經網路具有離散的層、連線和資料傳播的方向。

例如,我們可以把一幅影象切分成影象塊,輸入到神經網路的第一層。在第一層的每一個神經元都把資料傳遞到第二層。第二層的神經元也是完成類似的工作,把資料傳遞到第三層,以此類推,直到最後一層,然後生成結果。

每一個神經元都為它的輸入分配權重,這個權重的正確與否與其執行的任務直接相關。最終的輸出由這些權重加總來決定。

我們仍以停止(Stop)標誌牌為例。將一個停止標誌牌影象的所有元素都打碎,然後用神經元進行“檢查”:八邊形的外形、救火車般的紅顏色、鮮明突出的字母、交通標誌的典型尺寸和靜止不動運動特性等等。神經網路的任務就是給出結論,它到底是不是一個停止標誌牌。神經網路會根據所有權重,給出一個經過深思熟慮的猜測——“概率向量”。

這個例子裡,系統可能會給出這樣的結果:86%可能是一個停止標誌牌;7%的可能是一個限速標誌牌;5%的可能是一個風箏掛在樹上等等。然後網路結構告知神經網路,它的結論是否正確。

即使是這個例子,也算是比較超前了。直到前不久,神經網路也還是為人工智慧圈所淡忘。其實在人工智慧出現的早期,神經網路就已經存在了,但神經網路對於“智慧”的貢獻微乎其微。主要問題是,即使是最基本的神經網路,也需要大量的運算。神經網路演算法的運算需求難以得到滿足。

不過,還是有一些虔誠的研究團隊,以多倫多大學的Geoffrey Hinton為代表,堅持研究,實現了以超算為目標的並行演算法的執行與概念證明。但也直到GPU得到廣泛應用,這些努力才見到成效。

我們回過頭來看這個停止標誌識別的例子。神經網路是調製、訓練出來的,時不時還是很容易出錯的。它最需要的,就是訓練。需要成百上千甚至幾百萬張影象來訓練,直到神經元的輸入的權值都被調製得十分精確,無論是否有霧,晴天還是雨天,每次都能得到正確的結果。

只有這個時候,我們才可以說神經網路成功地自學習到一個停止標誌的樣子;或者在Facebook的應用裡,神經網路自學習了你媽媽的臉;又或者是2012年吳恩達(Andrew Ng)教授在Google實現了神經網路學習到貓的樣子等等。

吳教授的突破在於,把這些神經網路從基礎上顯著地增大了。層數非常多,神經元也非常多,然後給系統輸入海量的資料,來訓練網路。在吳教授這裡,資料是一千萬YouTube視訊中的影象。吳教授為深度學習(deep learning)加入了“深度”(deep)。這裡的“深度”就是說神經網路中眾多的層。

現在,經過深度學習訓練的影象識別,在一些場景中甚至可以比人做得更好:從識別貓,到辨別血液中癌症的早期成分,到識別核磁共振成像中的腫瘤。Google的AlphaGo先是學會了如何下圍棋,然後與它自己下棋訓練。它訓練自己神經網路的方法,就是不斷地與自己下棋,反覆地下,永不停歇。

深度學習,給人工智慧以璀璨的未來

深度學習使得機器學習能夠實現眾多的應用,並拓展了人工智慧的領域範圍。深度學習摧枯拉朽般地實現了各種任務,使得似乎所有的機器輔助功能都變為可能。無人駕駛汽車,預防性醫療保健,甚至是更好的電影推薦,都近在眼前,或者即將實現。

人工智慧就在現在,就在明天。有了深度學習,人工智慧甚至可以達到我們暢想的科幻小說一般。你的C-3PO我拿走了,你有你的終結者就好了。

小結

綜上,人工智慧就是一個產業,人工智慧的實現手段主要靠機器學習的各種演算法。在機器學習的演算法中,深度學習是一個智慧化程度非常高的演算法。現在雲端計算和大資料技術的發展,讓神經網路和深度學習得以在實際中應用。

大資料時代,資料是企業的最值錢的財富,但海量的資料並非都是有價值的,如何挖掘出有用的資料變成商業價值,就需要機器學習演算法。大資料和機器學習勢必顛覆傳統行業的運營方式,必將驅動公司業務的發展。目前,越來越多的機器學習/資料探勘/深度學習演算法被應用在電商、搜尋、金融、遊戲,醫療等領域中的分析、挖掘、推薦上。

但懂機器學習演算法的人才卻少之又少,物以稀為貴,致使這個行業的工資奇高。

數學很差,能學習機器學習嗎?

機器學習中的各種演算法,都是一個個的數學算式。不會高等數學、概率統計、凸優化等知識,就不能搞透各個數學算式。如果想明白這些算式的來龍去脈,以及如何推匯出來的,沒有前面的數學知識做鋪墊是絕對不可能的。

但是,包括很多公司裡需要招聘員工,培養的是工程師,不是科學家。我們要學習的如何使用這些算式,知道算式中的變數是從哪裡來的,如何傳入,以及變數的變化會對結果有什麼樣的影響。這些算式已經有各種 python 庫可以呼叫了,並不需要我們去寫。

除非是演算法方向側著為主的公司。打個比方吧,公司是駕校,培養的是司機。作為司機不需要了解汽車的內部結構。雖然瞭解汽車的內部結構對於成為一名優秀的司機是非常有好處的。但是市場上需要的是大量的司機,而不是 4S 點的維修工。

所以,數學很差,也可以搞機器學習,不必太擔心。但是,你必須得比別人花更多的努力。
肯定是希望你程式設計基礎又強、數學功底又好啦!

深入機器學習這麼久,如果你不是勵志成為圖靈,我發現學好機器學習靠的不是數學功底、較強的邏輯思維,而是堅韌。

如何稱為一個數據科學家

什麼叫資料科學家?演算法工程師和研發工程師,即搞資料探勘、機器學習、推薦系統的那群人,都可以稱為資料科學家。

你可以通過學習以下東西成為,如果你能看到這裡的話,就一定程度表明你很堅韌了。

  1. 數學(基礎)

高等數學、線性代數、概率論,進階可讀:凸優化、離散學

  1. 程式語言(基礎)

首選:Python!Python!簡單易懂又優雅
其他:C++、Java、R

  1. 演算法和模型(理論)

資料分析、資料探勘、推薦系統、機器學習、自然語言處理、影象識別

  1. 開源庫(工具)

單機:Numpy、Pandas、Matplotlib、Scikit-learn、TensorFlow2、PyTorch
分散式:Spark

  1. 實操(實踐)

阿里巴巴大資料競賽、Kaggle競賽等

結語

希望我們都能成為“人生硬核玩家”

相關推薦

資料分析人工智慧科普

大資料 大資料(Big Data) 眾說紛紜! 個人認為,大資料中的“大”,不僅僅是涉及資料規模,而且包含“價值“這個層面。其實無非就是大量的資訊罷了,但是我們卻能通過各種手段從這些資訊中提取出我們所需要的東西。 資料分析、資料探勘和推薦系統 資料分析(Data Analysis) 啤酒和尿布這個故事在歐

資料分析:將資料轉化為鉅額資金 第四章第五章

  第4章構建大資料團隊   大資料專案最重要的元素之一是一個相當明顯但經常被忽視的專案:人。 沒有人工參與或解釋,大資料分析變得毫無用處,沒有任何目的,沒有價值。 需要一個團隊才能使大資料工作,即使該團隊只由兩個人組成,它仍然是一個必要的元素。 將人們聚集在一起

資料分析平臺工程師演算法工程師崗位職責:

參與大資料平臺的搭建和優化,包括Hadoop,spark,Kafka,ELK等軟體的配置和系統優化。計算學習基礎演算法,使用Java語言和python語言實現資料處理,熟悉spark和MapReduce。瞭解AMOS,DEA,Frontier,統計分析的基本步驟

[DataAnalysis]資料分析資料入門推薦書單

應該是目前網上能搜到的最全和最靠譜的入門書單了,幾乎零基礎(懂一點高數就可以入門),而且基本上都是我看完的書,有一些我看過完全沒用的比如head first SQL等就不列入在內了。算是了了一直想要彙總書單的一個念想。 一、概率論和數理統計基礎 1、《茆詩鬆概率論和數理統

資料遇上人工智慧,企業轉型需要從基礎能力入手:資料科學平臺kesci科賽網更名為鯨科技

2019年元旦,資料科學平臺科賽網(Kesci.com)對外宣佈,因公司戰略升級,品牌正式更名為“和鯨科技”。作為資料分析和人工智慧領域的基礎服務公司,科賽網的品牌更新,彷彿給烈火烹油的人工智慧產業添置了一個新柴輸送器。   2015年成立的科賽網,是國內最早的資料科學

深度解析資料分析資料工程師資料科學家的區別

資料越來越多的影響並塑造著那些我們每天都要互動的系統。不管是你使用Siri,google搜尋,還是瀏覽facebook的好友動態,你都在消費者資料分析的結果。我們賦予了資料如此大的轉變的能力,也難怪近幾年越來越多的資料相關的角色被創造出來。 這些角色的職責範圍,從預測未

資料分析平臺搭建教程:基於Apache Zeppelin NotebookR的互動式資料科學

介紹 這篇文章的目的是幫助您開始使用 Apache Zeppelin Notebook,它可以滿足您用R做資料科學的需求。Zeppelin 是一個提供互動資料分析且基於Web的筆記本。方便你做出可資料驅動的、可互動且可協作的精美文件,並且支援多種語言,包括 Scala(

基於關係型資料庫ES搜尋引擎,實現多源,百億級資料資料分析方案

背景: 隨著公司各項業務的快速發展與擴張,伺服器和各種應用系統隨之而增加,同時對應用系統、伺服器的穩定性,可持續性提出了更高的要

怎麼實現員工工資資料分析

前言  現如今市場上的人事系統五花八門,可做了大資料分析的人事系統少之又少,最近本人花了一個星期好好研究了大資料展示方面的內容,圖表主要用的是echarts來實現的,官網地址:https://echarts.apache.org/zh/index.html     下面兩張圖片

怎麼實現員工工資資料分析,echarts+js實現

前言  現如今市場上的人事系統五花八門,可做了大資料分析的人事系統少之又少,最近本人花了一個星期好好研究了大資料展示方面的內容,圖表主要用的是echarts來實現的,官網地址:https://echarts.apache.org/zh/index.html     下面兩張圖片

如何選擇適合的資料分析軟體

  KNIME.com、 Microsoft、 Oracle、 RapidMiner、SAP、 SAS 和 Teradata,其中有的廠商提供的工具不止一個。這些廠商分別代表著大資料分析市場的不同方面。我們將結合之前文章中提到的特點,對這些產品進行對比,看這些產品是如

NVIDIA針對大規模資料分析機器學習推出RAPIDS開源GPU加速平臺!

2018年10月10日,NVIDIA釋出了一款針對資料科學和機器學習的GPU加速平臺,該平臺已為多個行業領先者所採用,並能幫助超大規模公司以前所未有的速度分析海量資料並進行精準的業務預測。 RAPIDS™ 開源軟體幫助資料科學家顯著地提高了工作績效,對於這些資料科學家來說,種種業務挑戰應接不暇,

資料分析學習之路

一、大資料分析的五個基本方面  二、如何選擇適合的資料分析工具 三、如何區分三個大資料熱門職業  四、從菜鳥成為資料科學家的 9步養成方案 五、從入門到精通——快速學會大資料分析   推薦下小編的大資料學習群;

R語言資料分析工具的安裝與應用

實驗名稱 R語言大資料分析工具的安裝與應用 專  業 軟體工程 姓    名      學  

資料分析學習筆記(Z檢驗,分類器以及Association Rule)

大資料分析學習筆記(Z檢驗,分類器以及Association Rule) Task 1 – Hypothesis Testing To improve student learning performance, a teacher developed two new learning app

跟我一起學Spark之——《Spark快速資料分析》pdf版下載

連結:https://pan.baidu.com/s/1vjQCJLyiXzIj6gnCCDyv3g  提取碼:ib01 國慶第四天,去逛了半天的王府井書店,五層出電梯右邊最裡面,倒數第三排《資料結構》,找到了一本很不錯的書《Spark快速大資料分析》,試讀了下,我很喜歡,也很適合

小象學院資料分析資料探勘精華實戰+資料分析資料探勘實戰

課程簡介:     小象學院大資料分析與資料探勘精華實戰課程 資料分析資料探勘實戰視訊教程 ----------------------課程目錄------------------------------ 第1 章 : 第一週回放課 課時1:第一課:

一篇文章詳解資料技術應用場景

什麼是大資料 說起大資料,估計大家都覺得只聽過概念,但是具體是什麼東西,怎麼定義,沒有一個標準的東西,因為在我們的印象中好像很多公司都叫大資料公司,業務形態則有幾百種,感覺不是很好理解,所以我建議還是從字面上來理解大資料,在維克托邁爾-舍恩伯格及肯尼斯庫克耶編寫的《大資料時代》提到了大資料的4個特徵:

滴滴技術沙龍第1期:聚焦資料架構實踐

滴滴技術沙龍是由滴滴出行工程委員會發起主辦的高質量技術交流活動。每期圍繞一個主題,由滴滴出行和其他網際網路公司的專家以獨立演講、Q&A、開放討論等方式,與領域內的中高階技術人員進行自由、深度的交流和學習。 近年來,滴滴出行業務高速發展,在國內已經覆蓋了400多個城市,有4億多使用者