資料探勘、自然語言處理
下面就題主問的三項來解答:“機器學習、資料探勘、自然語言”
首先要認識到這三項並不是獨立的選項,機器學習需要資料探勘和自然語處理的支撐,自然語處理需要資料探勘的支撐,資料探勘需要大資料的支撐。最終所有的根源都要落實在大資料上,而這一切的頂點就是人工智慧。從這個層面上來看資料探勘是比較基礎的部分,目前也有比較成熟的解決方案,只要你有資料不愁找不到工具。各種資料庫(mongodb,Hive,Pig,HBase,RedShift),分散式系統(Hadoop, Spark),程式語言(Python和R)都是為其開發的或者擅長處理大資料。所謂學習資料探勘已經逐漸變成熟練掌握這些工具的過程了。當然如果有興趣,也可以參與各種分散式系統的開發,不過基本上你能想到的所有好用的演算法,前人都已經寫好了整合進去了。
自然語處理,在這個世界上除了谷歌,蘋果,微軟,IBM還沒有其他能夠挑戰此領域並且獲得受人矚目的成就的公司。因為現在自然語處理就是方法很落後,手段很暴力。基本上常用的技術在10幾20年前就出現了,只不過那時候沒有誰擁有上萬臺計算機來處理自然語,現在倒是有了。可離實用還有很長的路要走(可以看一下IBM的沃特森,基本上也就代表現階段最強的自然語處理的水平了)。
最後就是機器學習了,這一點除了我之外已經有很多人強調過了——“機器學習只是被過度神話了!”。說白了現在的機器學習技術就是“戰五渣”,誰上誰後悔。目前除了以“深度學習”為代表的人工神經網路之外其他的大部分常用的學習方法都是統計學習。不僅要喂足了料,還要精心調教,還不一定出貨,出了也基本上不準。如果恰好結果符合預期,只能說“運氣真好”。不過也正是因為這樣,機器學習才作為一項前沿學科,很多科學家去研究,據我目測,這一波深度學習熱應該已經過去了吧。按這個節奏,不知道10年之後又會有什麼技術點燃機器學習的熱情也說不定。
好了吐槽完了,我覺得題主可能先試試資料探勘看看,挺好玩的~