學習與職業規劃——機器學習的學習路徑和職業規劃(簡單版)
第三章 機器學習的職業規劃
一、含義與方法
1、本文所說的“職業規劃”是指經過對自我的認知,和行業,公司,職業的認知,確定一個或者幾個工作目標,並進行相應的差距分析和提升的過程。
2、職業規劃可以理解為一個匹配的過程;將個人和眾多的備選職位進行匹配。按照傳統的職業相關理論,結合機器學習者的思維習慣,本文把職業規劃分為個人認知(相當於取人的feature),職業認知(相當於獲取職業相關的資訊和取出feature),以及人職匹配(相當於模型演算法部分)三個部分。
3、本文的重點是職業認知部分。
二、機器學習相關的公司分析
1、大的有師傅的公司
這類公司主要是百度,阿里和騰訊。共同的特點是資料很大,機器學習的團隊比較龐大,一般進去的同學都可以有師傅帶著學習,進步會比較快。
但是三個公司的特點也有所不同。
百度是我認為在業務和技術之間匹配的最好,並且從基礎到應用搭配的最好的公司。機器學習方面的能力對於百度的廣告,搜尋,移動搜尋,LBS,應用分發,移動音樂,移動閱讀,移動新聞,圖片搜尋,語音輸入,瀏覽器,視訊等所有業務都非常重要;而百度也非常重視機器學習團隊的搭建。目前在產品方面的表現也非常不錯。如果近期加入的團隊一旦在基礎研究以及產品化方面有巨大突破的話,百度的各個核心產品都可能大大的超出其他公司的產品。
百度的機器學習人才的需求種類最寬。
阿里目前的機器學習人才主要用在業務挖掘,廣告和推薦方面。和阿里的業務非常的匹配;根據IPO公告,以及近期的動作,阿里未來的業務發展方向主要是電商業務的區域擴張(向下是向縣城擴張,向上是跨國業務的發展)以及產品品類的擴張(從實物產品的電商向服務,金融方向的擴張。)從這種趨勢來看,未來阿里的機器學習人才需求還是以業務挖掘,廣告和推薦方面的人才需求為主(影象處理和
騰訊公司過去的主要業務是建立在社交網路之上的遊戲,網際網路增值服務(會員和道具之類的),廣告等。根據年報,我認為騰訊今後的重點是在微信的基礎上來發展盈利性業務,目前能夠看到的業務有遊戲,電商,支付,嘀嘀打車等;騰訊也單獨把廣告和視訊業務提出來當做重點業務。
結合以上對於騰訊的業務分析和預測,以及之前對於騰訊的職位的一些認識,我認為騰訊今後對於機器學習類人才的需求主要有業務挖掘,廣告演算法,推薦等。
從業務上來看,三家公司都具有收入和利潤基本都來自核心業務(百度主要來自於搜尋廣告;騰訊主要來自於遊戲和增值服務,阿里主要來自於電商廣告),同時有向其他倆家的核心業務擴充套件的動作但是沒有成功的特點(百度嘗試過電商和社交;阿里嘗試過社交,也正在做搜尋;騰訊嘗試過搜尋,也在做電商)。
從戰略和職位設定來看,百度是從基礎到產品都做;而阿里和騰訊主要側重於應用。
2、中等規模的團隊搭建中的公司以及專業公司
有一些公司,相對於BAT來說,市場地位相對較弱,但是公司的市場地位也不錯;同時機器學習的團隊相對較小,或者佈置的普遍程度相對較弱。
比如噹噹,攜程,去哪兒,360,58同城,優酷,樂視。這類公司一般會設定倆類機器學習的崗位,一是業務挖掘類崗位,另外就是推薦和廣告演算法的團隊。這類公司具有市場地位不夠穩固,機器學習團隊相對較弱或者較新的特點。
同樣有一些中等規模的廣告行業的專業公司,也有機器學習的團隊,比如MediaV,品友互動等公司。這類公司主要的崗位是計算廣告演算法工程師。
3、小的專業公司
在移動網際網路快速發展的今天,有一些專業性的小公司,產品本身對於機器學習技術的依賴性非常大,也設定了機器學習的崗位,這些小公司大多數是創業公司,業務發展的不確定性比較大,同時需要的機器學習人才和業務本身的相關性非常大。
比如口袋購物(主要需求的是推薦演算法,廣告演算法,NLP和影象處理人才),今日頭條(主要需要的是文字挖掘,推薦等人才),微博易(主要需要的是文字挖掘類人才),出門問問(主要需要的是語音識別,搜尋的人才)。
不同型別的公司對於人才的要求不同,對於能夠帶給人才的東西也不同,各有優劣。同學們可以根據自己的情況靈活的選擇,每類公司中都有非常好的公司和崗位!
三、機器學習相關的職位分析
從面臨的問題和考核方式來看,機器學習的職位可以分為研發類和應用類倆大類。
研發就是專門尋找沒有好的解決辦法的問題尋找解決辦法,一旦找到了解決辦法以後就基本上不管如何實現,以及如何迭代的問題了。這類職位一般都帶有“research”字樣。這類崗位的主要考核結果可能是paper的質量和數量。
應用類機器學習職位在工作中距離使用者更近,和機器和程式碼更近,更加側重於應用比較成熟的方法不斷的提升解決問題的效果。這類崗位主要的考核結果是基於系統的“率”,比如CTR預估工作的點選率,推薦演算法的各種率等。
本文主要介紹應用類的職位。
1、網際網路業務挖掘
使用的主要資料和要解決的問題:
參考《Data Mining Techniques For Marketing, Sales, and Customer Relationship Management》
。初級的業務挖掘人員的工作會離資料和演算法更近;高階的業務挖掘人員會離使用者和業務更近。
職位需求趨勢:
這類職位的需求量非常大,基本所有的主要網際網路公司都設定了這個崗位。這個崗位的名字常常有“分析師”,“資料探勘工程師”等。
零售,金融,電信,製造業等行業對於網際網路業務挖掘人員也持歡迎態度。近幾年對於這類人才的需求很能會有非常大的增長。
薪水狀況:
從我接觸到的獵頭職位的情況來看,在這個崗位上工作三四年,能夠獨立和業務部門以及技術部門溝通,並且能夠靈活的應用資料為業務部門提出解釋和建議的人才的年度薪水在20萬元到35萬元左右。
2年前見過大的網際網路公司的分析總監給到50萬元以上。
職業發展前景:
我個人認為人類曾經經歷過火車時代,電力時代,汽車時代,電子時代;當下的時代是資料時代。具有良好的資料分析能力的人對於越來越多的企業具有至關重要的作用。根據海德思哲公司的分析,未來的企業領袖人物往往是business+science+technology三方面都很強的人,業務挖掘工程師的工作內容和其中的倆項密切相關。
2、推薦演算法
使用的資料和要解決的問題:
參考《Recommender Systems Handbook》。
解決的核心問題是給使用者想要的,不要給使用者不想要的,降低使用者找東西的難度,給使用者更多的驚喜。
不同的網際網路產品在不同的階段,可以通過推薦系統解決不同的問題和實現不同的目標。
職位的設定情況和需求趨勢:
相對業務挖掘崗位,有推薦演算法職位的公司數量相對比較少。能夠看到的一些公司如下。
電商:淘寶,噹噹,京東,口袋購物。
視訊:優酷土豆,愛奇藝,風行線上,樂視。
音樂:豆瓣,蝦米,網易雲音樂,百度。
新聞APP:今日頭條,網易新聞客戶端,百度新聞,指閱。
閱讀:盛大文學,掌閱科技。
團購:美團,糯米。
社交:微博,linkedin。
手機助手:豌豆莢,
LBS推薦:百度,高德。
相對電腦,手機的私密性更強,螢幕資源更小,可能會有更多的移動應用公司會部署推薦演算法的崗位。
薪水狀況:
我接觸到的推薦演算法負責人的職位(能夠直接面對工程和產品部門,對推薦系統的效果負責),招聘方給到的年度薪在30萬元到50萬元左右。
職業發展前景:
移動網際網路是近幾年網際網路行業最大的潛力細分領域,而推薦對於移動網際網路的所有產品都有非常重要的作用,從這個角度來講推薦演算法工程師的職業前景非常不錯。
在多個移動網際網路的細分領域,推薦都處於核心地位,因此成熟的推薦演算法人才創業的機會也比較多。
3、廣告演算法
使用的資料和要解決的問題:
參考《Computational advertising, AZ Border, 2008(沒有找到電子版)》;另外劉鵬前輩也在做一些計算廣告相關的課程,大家可以在網上搜索具體的課程內容。
資料主要是倆塊,一塊是使用者的資料,除了公司自有的資料以外,也可以通過DMP(資料管理平臺)獲取到一些使用者的資料;另外一塊是關於廣告的資料。
需要解決的問題就是把使用者和進行更好的匹配,提升總體的市場效率。
其中CTR預估是非常重要的工作內容。
職位的設定情況和需求趨勢:
和其他的職位相比,計算廣告的公司數量比較集中。公司主要分為三類。
一類是有Exchange或者類似體量的公司(相當於有設局或者設立證券交易所的公司),有百度,淘寶,騰訊,搜狗,360,微軟,雅虎。這類公司的流量很大,廣告主的數量也很大,他們制定各自的市場內的遊戲規則(主要是資源分配的辦法以及結算辦法。)
另外一類是DSP(Demand side platform),比如MediaV,品友互動,浪淘金等。這類公司本身沒有大的流量,但是都在努力建立相對廣告主更為有效的廣告投放能力,主要從廣告主掙錢。主要的目標是幫助廣告主更有效率的把廣告投放到目標群體身上。
第三類公司是類似五八同城,優酷,新浪微博這樣的大媒體。或者多盟這樣的SSP(Supply side platform)。這類公司自己有一定的流量,也有一些廣告主客戶。也需要有人來做市場效率的提升。
新增職業機會的來源,我能夠看到的主要有以下幾種。一種是在搜尋市場上取得突破後需要建立商業變現體系的360;還有一些是來自於對淘寶模式模仿的電商公司,比如噹噹;還有一類是網際網路廣告公司的業務拓展和創新,比如SSP公司向DSP業務的拓展,或者網際網路廣告監測公司,或者廣告生態種新的角色誕生帶來的新職位機會。
近幾年看到的網際網路廣告相關的變化主要有2個,一個是谷歌採用GSP(General second price)競價方式並逐步被別的公司跟進;另外一個變化就是有些DSP公司大力倡導RTB(Real time bidding)。
這些變化都沒有帶來行業內計算廣告人才需求量的急速增長。看未來,廣告生態系統的逐漸完善而催生出的新的細分行業和公司,也沒有看到能夠帶來大的新增職位的急速增長。
但是網際網路廣告行業面臨的挑戰和機會也很多,比如多屏互動的期望,以及廣告主日益增長的需求,都對企業的創新提出了要求。
綜合以上,計算廣告行業未來的人才需求特點可能是“少而精”。
薪水狀況:
廣告目前是網際網路行業最重要的收入來源。從百度公司和阿里集團招股書中就可以看出,這倆個公司收入的絕大部分都來自廣告。
因此計算廣告人才的薪水也非常的高。
我瞭解到的比較成熟的計算廣告人才(同時在演算法和工程方面很成熟)的年收入有50萬元到150萬元左右。
職位發展前景:
一旦進入計算廣告行業,相對其他職位來說,創業機會較少。更有可能的是在行業內的少數幾個公司成長。
該類人才的創業機會可能需要具備幾個條件,第一是外圍環境的重大變化導致的新型別公司的創立機會比較成熟,這個週期可能比較長;另外要有大量資金的支援;另外相對來說可能風險會比較大。
4、NLP
使用的資料和要解決的問題:
參考《Foundations of Statistical Natural Language Processing》,《Speech_and_Language_Processing》。
使用的資料主要是人們日常隨意寫出來的或者說出來的話。比如新聞,文章,微博上的話,qq的聊天,貼吧裡的話,部落格上的話,企業呼叫中心的對話等。
要解決的問題主要是對這些內容進行抽象,對映或者響應。比如資訊抽取(命名實體識別,情感分析等),機器翻譯,聚類,分類,自動問答等。
職位的設定情況和需求趨勢:
目前看到的NLP崗位設定主要有以下幾類。
一類是在搜尋公司的query處理相關的工作。目前我瞭解到的工作主要分倆個部分,一個部分是做query的糾正,改寫,或者近義詞分析等;另外一類工作是做Topic model的研究,意思就是把使用者的需求抽象在一個“model”上,而同時預先把網頁到抽象到一個“model”上,然後在model內部挑選出使用者最感興趣的網頁優先展示。
還有一類是研發機構的研究崗位,比如微軟,富士通研發,三星通訊等機構都有NLP的研發崗位。
第三類崗位就是一些專業性公司,比如口袋購物,微博易,今日頭條,掌閱科技,簡網世紀這樣的公司。在這些公司裡NLP和影象處理的工作地位類似,就是為下一步的處理提供feature。
從使用者端來看,WEB2.0的出現,以及社交網路的大力發展,為NLP積累下了大量的資料,同時企業也越來越重視通過網路來傾聽使用者,以及和使用者進行溝通;同時資訊的急速增長,導致使用者對於個性化產品的需求越發明顯,也促進了NLP工作的推進和崗位的設定。
今後NLP的崗位會急速增長。增長的來源一部分來自於搜尋引擎公司,根據李航前輩的微博,未來搜尋突破可能來自倆個方向,一個方向是LTR(Learning to rank),另外的一個方向是Semantic match。我的理解可能semantic mtach需要大量的NLP的工作和人才。
另外一類職位我覺得來自於大量的已經產生的大量非結構化的資料處理相關的公司,以及從大量的語音識別轉化出來的資料的利用相關的公司。這個具體是在哪個方向上不好說,但是我想趨勢上一定是企業對於海量使用者產而生的嘈雜的聲音的理解和利用。資料的量還在不斷的急速增加,NLP工作量和任務型別也在增加,最終導致崗位需求的增加。
薪水狀況:
NLP人才的需求不象資料探勘和推薦那樣量大和緊缺,和其他的職位相比薪水比較溫和。
我接觸過的獵頭職位,有公司願意給工作2年左右的NLP工程師20到30萬元的年度工資;也有創業公司願意給NLP leader50萬元以上的年度工資。
職位發展前景:
我預測NLP工程師在原公司的職業生命活力會比較強(資料,演算法以及工作目標可能都會有新的挑戰和機會進來);同時成熟的人才也會有很多創業機會可以考慮。
5、影象處理
使用的資料和要解決的問題:
參考《Computer Vision:Algorithms and Applications.Richard Szeliski》,《Multiple_View_Geometry_in_Computer_Vision__2nd_Edition》
面對的資料是影象,具體也會有處理靜態影象和動態視訊的區別。以及離線處理和線上處理的區別。
常見的要解決的問題有檢測(就是看某個圖片裡是否有某類東西,比如是否有人臉),識別(就是輸入一個圖片,看這個圖片和庫裡的哪個圖片是一致的。)分割,拼接,3D重建,聚類,分類等。
職位的設定情況和需求趨勢:
傳統的影象處理崗位主要分佈在類似智慧眼,漢王這樣的IT公司和類似佳能,微軟這樣的研發機構中。
智慧眼和漢王這樣的