2018 年 8 月以來 5 個最好的機器學習 GitHub 庫和 Reddit 執行緒.md
2018 年 8 月以來 5 個最好的機器學習 GitHub 專案和 Reddit 熱帖
PRANAV DAR, SEPTEMBER 2, 2018
前言
當我去年年初開始使用 GitHub 時,我從來沒有想過它對我來說有多麼有用。最初我只是用它來上傳我自己的程式碼,以為這就是 GitHub 所能做到的有用的程度了。但當我加入了 Analytics Vidhya,並且我的研究範圍擴大後,我被這個平臺實際上的巨大規模所吸引。
除了允許我訪問像谷歌、微軟、英偉達、Facebook 等頂級公司的開原始碼和專案,它還提供了與機器學習愛好者合作現有專案的渠道。我無法告訴你,為別人使用的專案做出貢獻是多麼令人驚訝。這是一種獨一無二的感覺。當然,這也促使我寫了這個月刊系列,我希望你們在自己的工作中有所收穫。
這個月的文章包含了一些很好的倉庫。NVIDIA有一個專案是研究視訊到視訊的翻譯,它是一個簡潔的谷歌庫,使強化學習方法比以前更容易學習,我還添加了一個有用的自動物件檢測庫。下面還有大量的資訊,包括一個有趣的 R 語言包。
在我們的 Reddit 部分,我們有各種各樣的討論,從 Julia 的多專家評論到現實生活中的資料洩漏故事。作為一名資料科學家,你需要在任何時候都處於比賽的頂端,這包括跟進所有最新的進展。Reddit 和 AVBytes 絕對應該出現在你的首選列表中。
你可以看看 GitHub 的頂級儲存庫和 Reddit 的頂級討論(從四月開始),我們每個月都在下面討論:
影象到影象的翻譯領域已經取得了巨大的進步。然而,視訊處理領域近年來鮮有突破。直到現在。
英偉達(NVIDIA)已經在利用深度學習技術進行影象和視訊處理方面處於領先地位,它開源了一種從視訊到視訊的翻譯技術,其結果令人震驚。他們已經在 GitHub 上開源了他們的程式碼,所以你現在就可以開始使用這種技術了。程式碼是 vid2vid 的 PyTorch 實現,你可以利用它來:
- 將語義標籤轉換為現實世界的視訊
- 為合成從人類交談到對映圖的內容建立多個輸出
- 從一個特給定的姿勢生成一個人類身體(不僅僅是結構,而是整個身體!)
在
如果你在強化學習領域工作或研究過,你就會知道復現現有的方法有多難(如果不是不可能的話)。Dopemine 是一個已經建立和開源的 TensorFlow 框架,它被寄予能加快這一領域的進展,使其更靈活和可復現的希望。
如果你一直想學習強化學習,但又被它的複雜程度嚇到了,那麼這個庫就是一個珍貴的機會。僅有 15 個 Python 檔案,程式碼附帶詳細的文件和免費資料集!
您還可以在這裡閱讀更多關於這個庫。
在深度學習社群中,物件檢測正在蓬勃發展,但對於新手來說,這可能是一個艱鉅的挑戰。要對映多少畫素和幀數?如何提高一個非常基本的模型的準確性?甚至你從哪裡開始?你不用再為這個煩惱了——多虧了麻省理工學院的演算法,它能以驚人的精度自動檢測目標。
他們的方法被稱為「語義軟分割(Semantic Soft Segmentation, SSS)」。原本需要一個專業人士花費 10 分鐘來手工編輯的內容,你現在可以在幾秒鐘內完成!上面的圖片很好地說明了這個演算法是怎麼工作的,以及在機器上實現它時的外觀。
在這裡更詳細地檢視我們對該技術的介紹。
姿態估計今年吸引了大量研究人員的興趣,像麻省理工學院這樣的出版物也發表了在這一領域取得進展的研究報告。從幫助老年人接受正確的治療到商業應用,比如讓一個人虛擬跳舞,姿態估計將成為商業上的下一個最好的東西。
這個庫是微軟的流行論文——簡單的人類姿態估計和跟蹤的基線的官方 PyTorch 實現。他們提供的基準模型和基準足夠好,有希望能在這一研究領域激發新的想法。
這個是給所有 R用 戶的。我們通常從 CRAN 那裡下載 R 包,所以我個人覺得沒有必要去 GitHub,但是這個包我覺得很有趣。chorrrds 幫助你提取、分析和組織音樂和絃。它甚至預裝了一些音樂資料集。
實際上,您可以直接從 CRAN 安裝它,或者使用 devtools 包從 GitHub 下載它。在這篇文章中,您將瞭解更多關於如何做到這一點的資訊,以及更多細節。
你可能在過去的幾個月裡沒有關注過 OpenAI。他們的團隊一直在努力宣傳他們的最新創新——OpenAI Fivem,這是一個由 5 個神經網路組成的團隊,他們共同努力,以在玩 Dota 上變得更好為目標。這些神經網路做得非常好,一直到他們遇到了第一支職業 Dota 團隊。
Reddit 的這篇文章從各個角度來看待球隊的失敗,而機器學習的觀點真的很突出。即使你還沒有讀過他們的研究論文,這篇文章也有足夠的資訊讓你快速瞭解。關於這個話題,有超過 100 條評論,一個真正豐富知識的討論。
譯者注:這裡的 Notebook 即指 Jupyter Notebooks
在資料科學和機器學習領域,我們中的大多數人都使用 Notebook 來完成各種任務,比如資料清理、模型構建等。實際上,我還沒有遇到過在資料科學的旅程中沒有使用 Notebook 的人。我們通常不會質疑這些 Notebook 的侷限性,不是嗎?
現在我們來看看為什麼 Notebook 並不像我們想象的那麼有用。確保您瀏覽整個討論,有一些來自資料科學家同行的好奇和深刻的評論。另外,你還可以看看製作精良的簡報。
TensorFlow 2.0 幾周前被谷歌提出,預計將在未來幾個月釋出。這條線索既有趣又嚴肅。來自世界各地的 TensorFlow 使用者給出了他們所期望的,以及他們想看到的新增。相當多的評論圍繞著 Eager Execution 的有用性展開。
Eager Execution:TensorFlow 的即時執行(Eager Execution)是一個重要的程式設計環境,它可以立即評估操作,而不需要構建圖表:即操作返回具體的值,而不是構建一個計算圖稍後執行。這使得開始使用 TensorFlow 和除錯模型變得很容易,同時也減少了樣板檔案。
這是一個期待已久的更新,是一件被期待的大事。谷歌會發布嗎?
有人寫了一些關於 Julia 將來如何取代 Python 的文章之後,最近這一語言在社交媒體上廣為流傳。我收到過評論該語言的請求,並將每個人都引導到這個帖子。還有什麼地方比一個核心 ML Reddit 帖子更能檢驗程式語言的優缺點呢?
除了閱讀一個視角,您還可以訪問多個評論,每個評論都添加了一個獨特的觀點。我喜歡這個討論的地方是,許多現有的 Julia 使用者已經添加了他們的 2 美分。人們的共識似乎是,它顯示出了很多希望(尤其是最新版本 Julia 1.0),但它在趕上 Python 之前還有一段時間。
我們都在努力解決現實世界中的問題,而我們往往會忘記在現有專案中可能出現的問題。您可能會對人們在這裡講述的故事感到驚訝——其中一個故事中,他們對一行有重複的條目,這使得模型大量超出了訓練資料。對於行業中出現的資料洩漏問題,還有一些有用的連結供您進一步閱讀。
你曾經是資料洩露的受害者嗎?在這個 Reddit 帖子上分享你的故事並參與討論吧!
結束語
以上是原文翻譯過來的,這些話題都是挺吸引人的。對於 GitHub 專案的更多介紹,基於篇幅關係,沒有完全翻譯,但我們都留了連結,你可以戳進去查閱原文,或者如果你對於其中某一篇感興趣,希望我們可以翻譯,可以留言讓我們知道!
此外,如果你想了解更多關於人工智慧的資訊,歡迎關注微信公眾號以及知乎專欄**「譯智社」**,我們為大家提供優質的人工智慧文章、國外優質部落格和論文等資訊喲!