1. 程式人生 > >資料探勘、自然語言處理

資料探勘、自然語言處理

一點小建議:作為一個業內人士,首先我的建議就是放棄“我的英語比較差”這個想法。作為母語非英語的所有人都不是天生英語就比較好的。程式設計師還好,題主所說的3門學問,如果不能熟練的閱讀英文材料,將寸步難行。如果有強烈的興趣甚至要考慮出國讀書。
下面就題主問的三項來解答:“機器學習、資料探勘、自然語言”
首先要認識到這三項並不是獨立的選項,機器學習需要資料探勘和自然語處理的支撐,自然語處理需要資料探勘的支撐,資料探勘需要大資料的支撐。最終所有的根源都要落實在大資料上,而這一切的頂點就是人工智慧。從這個層面上來看資料探勘是比較基礎的部分,目前也有比較成熟的解決方案,只要你有資料不愁找不到工具。各種資料庫(mongodb,Hive,Pig,HBase,RedShift),分散式系統(Hadoop, Spark),程式語言(Python和R)都是為其開發的或者擅長處理大資料。所謂學習資料探勘已經逐漸變成熟練掌握這些工具的過程了。當然如果有興趣,也可以參與各種分散式系統的開發,不過基本上你能想到的所有好用的演算法,前人都已經寫好了整合進去了。
自然語處理,在這個世界上除了谷歌,蘋果,微軟,IBM還沒有其他能夠挑戰此領域並且獲得受人矚目的成就的公司。因為現在自然語處理就是方法很落後,手段很暴力。基本上常用的技術在10幾20年前就出現了,只不過那時候沒有誰擁有上萬臺計算機來處理自然語,現在倒是有了。可離實用還有很長的路要走(可以看一下IBM的沃特森,基本上也就代表現階段最強的自然語處理的水平了)。
最後就是機器學習了,這一點除了我之外已經有很多人強調過了——“機器學習只是被過度神話了!”。說白了現在的機器學習技術就是“戰五渣”,誰上誰後悔。目前除了以“深度學習”為代表的人工神經網路之外其他的大部分常用的學習方法都是統計學習。不僅要喂足了料,還要精心調教,還不一定出貨,出了也基本上不準。如果恰好結果符合預期,只能說“運氣真好”。不過也正是因為這樣,機器學習才作為一項前沿學科,很多科學家去研究,據我目測,這一波深度學習熱應該已經過去了吧。按這個節奏,不知道10年之後又會有什麼技術點燃機器學習的熱情也說不定。

好了吐槽完了,我覺得題主可能先試試資料探勘看看,挺好玩的~

相關推薦

資料自然語言處理

一點小建議:作為一個業內人士,首先我的建議就是放棄“我的英語比較差”這個想法。作為母語非英語的所有人都不是天生英語就比較好的。程式設計師還好,題主所說的3門學問,如果不能熟練的閱讀英文材料,將寸步難行。如果有強烈的興趣甚至要考慮出國讀書。 下面就題主問的三項來解答:“機器學習、資料探勘、自然語言” 首先要認識

Python & R:資料自然語言處理與視覺化

微信公眾號關鍵字全網搜尋最新排名【機器學習演算法】:排名第一【機器學習】:排名第一【Python

資料檢索自然語言處理

為什麼要把這三個關鍵詞寫在一起呢? 對於文字挖掘,第一步:在理解業務的基礎上進行分詞,這就涉及到nlp相關的知識了,目前我接觸到中文分詞比較好用的就是結巴中分分詞,可能是我用python多一些,而結巴在python中安裝和使用很方便的。第二步:提取關鍵詞。那麼為什麼要提取關鍵詞?,我們練習做

Java開發網路爬蟲自然語言處理資料簡介

  也叫spider,始於也發展於百度、谷歌。但隨者近幾年大資料的興起,爬蟲應用被提升到前所未有的高度。就大資料而言,其實自有資料或使用者產生資料平臺很有限,只有像電商、微博類這樣的平臺才能免強自給自足,像很多資料分析挖掘公司多以網路爬蟲的方式得到不同來元的資料集合,最後為其所用,構建屬於自己的大資料綜合平

資料資料分析海量資料處理的面試題(總結july的部落格)

緣由 由於有面試通知,現在複習一下十道和海量資料處理相關的題。兩篇部落格已經講的非常完備了,但是我怕讀懂了並非真的懂,所以必須自己複述一遍。 面試歸類 下面6個方面覆蓋了大多數關於海量資料處理的面試題: 分而治之/hash對映 + hash統計 + 堆/快速/歸併排序

95自然語言處理svd詞向量

atp ear logs plt images svd分解 range src for import numpy as np import matplotlib.pyplot as plt la = np.linalg words = ["I","like","enjoy

資料就業前景怎麼樣?hadoop工程師資料資料分析師薪資多少?

近幾年來,大資料這個詞突然變得很火,不僅納入阿里巴巴、谷歌等網際網路公司的戰略規劃中,同時也在我國國務院和其他國家的政府報告中多次提及,大資料無疑成為當今網際網路世界中的新寵兒。 《大資料人才報告》顯示,目前全國的大資料人才僅46萬,未來3-5年內大資料人才的缺口將高達150萬,越來越多

資料分析資料演算法工程師資料分析師的區別是什麼?爬招聘網站用資料來全方位分析

大資料行業經過幾年的發展和沉澱,大資料專案崗位細分領域已經趨於完善,本文主要探討在大資料分析這個領域,通過爬蟲爬取各個招聘網站的相關資料,對細分崗位進行深入分析,本文的呈現,感謝科多大資料資料分析培訓班第10期學員“NO.1”團隊的技術支援。 此次分析結果呈現經歷三個階段: 細分查詢目

瞭解機器學習資料人工智慧的關係。

  人工智慧是電腦科學的一個分支,機器學習是電腦科學和統計學的交叉學科。資料探勘是機器學習和資料庫的交叉。資料探勘利用機器學習的技術來分析海量資料,人工智慧也用機器學習的方法解決問題。如:個性化推薦,就是通過機器學習的一些演算法、技術分析平臺上的各種購買,瀏覽和收藏日誌的海量資料,得到

人工智慧機器學習深度學習資料資料分析

在開始學習python大資料之前,先要搞清楚人工智慧、機器學習、深度學習、資料探勘、資料分析都是什麼意思。 人工智慧大家族包含著豐富的內容,分清楚了每一項都是做什麼的,才能選對路線。 人工智慧AI 人工智慧分為強人工智慧和弱人工智慧。 強人工智慧是通過計算機來構造複雜的、擁有與人

看完“最老程式設計師創業札記:全文檢索資料推薦引擎應用” 有感

         今天早起,看完這篇文章,頗有感,想記錄一些關鍵點,以期後用! 這篇文章很不錯,但是卻讓讀者完整的經歷了在網際網路領域從草根idea到產品上線盈利的完整過程。 1、技術積累很重要。文章

人工智慧機器學習深度學習資料資料分析區分

在開始學習python大資料之前,先要搞清楚人工智慧、機器學習、深度學習、資料探勘、資料分析都是什麼意思。 人工智慧大家族包含著豐富的內容,分清楚了每一項都是做什麼的,才能選對路線。 人工智慧AI 人工智慧分為強人工智慧和弱人工智慧。 強人工智慧是通過計算機來構造複雜的、

白馬負金羈(資料 | 統計分析 | 影象處理 | 程式設計)

跳脫舊我:心智砥礪之旅 誰的IT路上不迷茫?誰不曾有過懈怠和沉淪?些許經驗,共同分享,只為少有人走的路不再崎嶇,只為在迷茫中點一盞燈,只為不負青春不負夢。跳脫舊我,超越今我,這堵心智禪修之旅,我們一同走過

專注機器學習深度學習神經網路自然語言處理演算法Python體系分散式爬蟲等

深度整理AI學習資料,長期更新 機器學習實戰 中文文字版,帶完整書籤,能複製文字出來。還有英文版,中文掃描版,原始碼,讀書筆記等,非常全面; 機器學習-實用案例解析,中英文版,帶完整

拉格朗日插值法對資料中缺失值處理

本文參考《Python資料分析與挖掘實戰》一書。 對於資料探勘的缺失值的處理,應該是在資料預處理階段應該首先完成的事,缺失值的處理一般情況下有三種方式:1.刪掉缺失值資料。2不對其進行處理 3.利用插補法對資料進行補充第一種方式是極為不可取的,如果你的樣本數夠多,刪掉資料較少

資料統計資料資料OLAP的區別

在大資料領域裡,經常會看到例如資料探勘、OLAP、資料統計等等的專業詞彙。如果僅僅從字面上,我們很難說清楚每個詞彙的意義和區別。今天,我們就來通過一些大資料在高校應用的例子,來為大家說明白—資料探勘、大資料、OLAP、資料統計的區別。 一、資料分析 資料分析是一個大的概念,理論

機器學習深度學習計算機視覺自然語言處理及應用案例——乾貨分享(持續更新......)

機器學習、深度學習、計算機視覺、自然語言處理及應用案例——乾貨分享(持續更新……) GitChat提問碼: 1、機器學習/深度學習 1.1 對抗生成網路GAN 【2017.04.21】 對抗生成網路GAN變種大集合

資料分析師資料開發Hadoop開發工程師資料演算法工程師的工資薪水到底怎麼樣?

據最新發布的《大資料人才報告》顯示,目前全國的大資料人才僅46萬,未來3-5年內大資料人才的缺口

面試機器學習資料資料崗位時遇到的各種問題

平臺研究類 資料計算平臺搭建,基礎演算法實現,當然,要求支援大樣本量、高維度資料,所以可能還需要底層開發、平行計算、分散式計算等方面的知識; 演算法研究類 文字挖掘,如領域知識圖譜構建、垃圾簡訊過濾等; 推薦,廣告推薦、APP 推薦、題目推薦、新聞推薦等

淺談資料倉庫商業智慧資料資料雲技術的前世今生。

開題之前先做宣告,以下內容純為我一家之言。 何為資料倉庫?  資料倉庫(Data Warehouse可簡寫為DW或DWH)。資料倉庫,是為企業所有級別的決策制定過程,提供所有型別資料支援的戰略集合