大資料全棧式開發語言 – Python
前段時間,ThoughtWorks在深圳舉辦一次社群活動上,有一個演講主題叫做“Fullstack JavaScript”,是關於用JavaScript進行前端、伺服器端,甚至資料庫(MongoDB)開發,一個Web應用開發人員,只需要學會一門語言,就可以實現整個應用。
受此啟發,我發現Python可以稱為大資料全棧式開發語言。因為Python在雲基礎設施,DevOps,大資料處理等領域都是炙手可熱的語言。
領域 | 流行語言 |
---|---|
雲基礎設施 | Python, Java, Go |
DevOps | Python, Shell, Ruby, Go |
網路爬蟲 | Python, PHP, C++ |
資料處理 | Python, R, Scala |
就像只要會JavaScript就可以寫出完整的Web應用,只要會Python,就可以實現一個完整的大資料處理平臺。
雲基礎設施
這年頭,不支援雲平臺,不支援海量資料,不支援動態伸縮,根本不敢說自己是做大資料的,頂多也就敢跟人說是做商業智慧(BI)。
雲平臺分為私有云和公有云。私有云平臺如日中天的OpenStack,就是Python寫的。曾經的追趕者CloudStack,在剛推出時大肆強調自己是Java寫的,比Python有優勢。結果,搬石砸腳,2015年初,CloudStack的發起人Citrix宣佈加入OpenStack基金會,CloudStack眼看著就要壽終正寢。
如果嫌麻煩不想自己搭建私有云,用公有云,不論是AWS,GCE,Azure,還是阿里雲,青雲,在都提供了Python SDK,其中GCE只提供Python和JavaScript的SDK,而青雲只提供Python SDK。可見各家雲平臺對Python的重視。
提到基礎設施搭建,不得不提Hadoop,在今天,Hadoop因為其MapReduce資料處理速度不夠快,已經不再作為大資料處理的首選,但是HDFS和Yarn——Hadoop的兩個元件——倒是越來越受歡迎。Hadoop的開發語言是Java,沒有官方提供Python支援,不過有很多第三方庫封裝了Hadoop的API介面(pydoop,hadoopy等等)。
Hadoop MapReduce的替代者,是號稱快上100倍的Spark,其開發語言是Scala,但是提供了Scala,Java,Python的開發介面,想要討好那麼多用Python開發的資料科學家,不支援Python,真是說不過去。HDFS的替代品,比如GlusterFS,Ceph等,都是直接提供Python支援。Yarn的替代者,Mesos是C++實現,除C++外,提供了Java和Python的支援包。
DevOps
DevOps有個中文名字,叫做開發自運維。網際網路時代,只有能夠快速試驗新想法,並在第一時間,安全、可靠的交付業務價值,才能保持競爭力。DevOps推崇的自動化構建/測試/部署,以及系統度量等技術實踐,是網際網路時代必不可少的。
自動化構建是因應用而易的,如果是Python應用,因為有setuptools, pip, virtualenv, tox, flake8等工具的存在,自動化構建非常簡單。而且,因為幾乎所有Linux系統都內建Python直譯器,所以用Python做自動化,不需要系統預安裝什麼軟體。
自動化測試方面,基於Python的Robot Framework企業級應用最喜歡的自動化測試框架,而且和語言無關。Cucumber也有很多支持者,Python對應的Lettuce可以做到完全一樣的事情。Locust在自動化效能測試方面也開始受到越來越多的關注。
自動化配置管理工具,老牌的如Chef和Puppet,是Ruby開發,目前仍保持著強勁的勢頭。不過,新生代Ansible和SaltStack——均為Python開發——因為較前兩者設計更為輕量化,受到越來越多開發這的歡迎,已經開始給前輩們製造了不少的壓力。
在系統監控與度量方面,傳統的Nagios逐漸沒落,新貴如Sensu大受好評,雲服務形式的New Relic已經成為創業公司的標配,這些都不是直接通過Python實現的,不過Python要接入這些工具,並不困難。
除了上述這些工具,基於Python,提供完整DevOps功能的PaaS平臺,如Cloudify和Deis,雖未成氣候,但已經得到大量關注。
網路爬蟲
大資料的資料從哪裡來?除了部分企業有能力自己產生大量的資料,大部分時候,是需要靠爬蟲來抓取網際網路資料來做分析。
網路爬蟲是Python的傳統強勢領域,最流行的爬蟲框架Scrapy,HTTP工具包urlib2,HTML解析工具beautifulsoup,XML解析器lxml,等等,都是能夠獨當一面的類庫。
不過,網路爬蟲並不僅僅是開啟網頁,解析HTML這麼簡單。高效的爬蟲要能夠支援大量靈活的併發操作,常常要能夠同時幾千甚至上萬個網頁同時抓取,傳統的執行緒池方式資源浪費比較大,執行緒數上千之後系統資源基本上就全浪費線上程排程上了。Python由於能夠很好的支援協程(Coroutine)操作,基於此發展起來很多併發庫,如Gevent,Eventlet,還有Celery之類的分散式任務框架。被認為是比AMQP更高效的ZeroMQ也是最早就提供了Python版本。有了對高併發的支援,網路爬蟲才真正可以達到大資料規模。
抓取下來的資料,需要做分詞處理,Python在這方面也不遜色,著名的自然語言處理程式包NLTK,還有專門做中文分詞的Jieba,都是做分詞的利器。
資料處理
萬事俱備,只欠東風。這東風,就是資料處理演算法。從統計理論,到資料探勘,機器學習,再到最近幾年提出來的深度學習理論,資料科學正處於百花齊放的時代。資料科學家們都用什麼程式設計?
如果是在理論研究領域,R語言也許是最受資料科學家歡迎的,但是R語言的問題也很明顯,因為是統計學家們建立了R語言,所以其語法略顯怪異。而且R語言要想實現大規模分散式系統,還需要很長一段時間的工程之路要走。所以很多公司使用R語言做原型試驗,演算法確定之後,再翻譯成工程語言。
Python也是資料科學家最喜歡的語言之一。和R語言不同,Python本身就是一門工程性語言,資料科學家用Python實現的演算法,可以直接用在產品中,這對於大資料初創公司節省成本是非常有幫助的。正式因為資料科學家對Python和R的熱愛,Spark為了討好資料科學家,對這兩種語言提供了非常好的支援。
Python的資料處理相關類庫非常多。高效能的科學計算類庫NumPy和SciPy,給其他高階演算法打了非常好的基礎,matploglib讓Python畫圖變得像Matlab一樣簡單。Scikit-learn和Milk實現了很多機器學習演算法,基於這兩個庫實現的Pylearn2,是深度學習領域的重要成員。Theano利用GPU加速,實現了高效能數學符號計算和多維矩陣計算。當然,還有Pandas,一個在工程領域已經廣泛使用的大資料處理類庫,其DataFrame的設計借鑑自R語言,後來又啟發了Spark專案實現了類似機制。
對了,還有iPython,這個工具如此有用,以至於我差點把他當成標準庫而忘了介紹。iPython是一個互動式Python執行環境,能夠實時看到每一段Python程式碼的結果。預設情況下,iPython執行在命令列,可以執行ipython notebook在網頁中執行。用matplotlib繪製的圖可以直接嵌入式的顯示在iPython Notebook中。
iPython Notebook的筆記本檔案可以共享給其他人,這樣其他人就可以在自己的環境中重現你的工作成果;如果對方沒有執行環境,還可以直接轉換成HTML或者PDF。
為什麼是Python
正是因為應用開發工程師、運維工程師、資料科學家都喜歡Python,才使得Python成為大資料系統的全棧式開發語言。
對於開發工程師而言,Python的優雅和簡潔無疑是最大的吸引力,在Python互動式環境中,執行import this,讀一讀Python之禪,你就明白Python為什麼如此吸引人。Python社群一直非常有活力,和NodeJS社群軟體包爆炸式增長不同,Python的軟體包增長速度一直比較穩定,同時軟體包的質量也相對較高。有很多人詬病Python對於空格的要求過於苛刻,但正是因為這個要求,才使得Python在做大型專案時比其他語言有優勢。OpenStack專案總共超過200萬行程式碼,證明了這一點。
對於運維工程師而言,Python的最大優勢在於,幾乎所有Linux發行版都內建了Python直譯器。Shell雖然功能強大,但畢竟語法不夠優雅,寫比較複雜的任務會很痛苦。用Python替代Shell,做一些複雜的任務,對運維人員來說,是一次解放。
對於資料科學家而言,Python簡單又不失強大。和C/C++相比,不用做很多的底層工作,可以快速進行模型驗證;和Java相比,Python語法簡潔,表達能力強,同樣的工作只需要1/3程式碼;和Matlab,Octave相比,Python的工程成熟度更高。不止一個程式設計大牛表達過,Python是最適合作為大學電腦科學程式設計課程使用的語言——MIT的計算機入門課程就是使用的Python——因為Python能夠讓人學到程式設計最重要的東西——如何解決問題。
順便提一句,微軟參加2015年PyCon,高調宣佈提高Python在Windows上的程式設計體驗,包括Visual Studio支援Python,優化Python的C擴充套件在Windows上的編譯等等。腦補下未來Python作為Windows預設元件的場景。