1. 程式人生 > >【機器學習】在生產環境使用Kafka構建和部署大規模機器學習

【機器學習】在生產環境使用Kafka構建和部署大規模機器學習

使用Apache Kafka在生產環境構建大規模機器學習

智慧實時應用為所有行業帶來了革命性變化。機器學習及其分支深度學習正蓬勃發展,因為機器學習讓計算機能夠在無人指引的情況下挖掘深藏的洞見。這種能力正是多種領域所需要的,如非結構化資料分析、影象識別、語音識別和智慧決策,這完全不同於傳統的程式設計方式(如Java、.NET或Python)。

機器學習並非新生事物,大資料集的出現和處理能力的進步讓每一個企業都具備了構建分析模型的能力。各行各業都在將分析模型應用在企業應用和微服務上,用以增長利潤、降低成本,或者改善使用者體驗。

這篇文章將介紹機器學習在任務關鍵型實時系統中的應用,將Apache Kafka作為中心化的、可伸縮的任務關鍵型系統,同時還將介紹使用Kafka Streams API來構建智慧流式應用。

可伸縮的任務關鍵型實時系統

網際網路、智慧手機和持續線上思維的出現改變了人們的行為方式。其中就包括人們對與裝置、產品和服務互動方式的期待:人們希望能夠實時地獲得資訊。這也給企業帶來了巨大挑戰:如何快速地採取行動才能把握先機。批處理系統已經無法滿足需求,取而代之的應該是實時系統。

傳統企業可以實現非常強大的實時處理機制來滿足日常的業務需求。這通常需要藉助領域知識來理解各種應用場景,並構建新的流式分析模型來增加業務價值。流式處理已經存在於各個行業中。

  • 欺詐檢測。將支付資訊與歷史資料或已知的模式關聯起來,在欺詐發生之前將其檢測出來。這對處理速度提出了很高的要求,因為你必須在交易發生之前將其取消掉。

  • 交叉銷售

    。利用客戶資料為客戶提供定製化的銷售方案或折扣,爭取讓客戶在離開商店之前成交訂單。這種情況下,你需要利用實時資料(比如位置資料、支付資料)和歷史資料(來自你的CRM系統或Loyalty平臺)為每個客戶提供最合適的銷售方案。

  • 預測性維護。使用機器資料來預測機器故障,在發生故障之前將舊的部件更換掉。從實際情況來看,這可以節省大量的金錢(製造)、增加利潤(自動售賣機)或提升使用者體驗(電信網路故障預測)。

所有這些場景都有一個共同點,那就是在資料產生的同時處理資料。你必須儘快地處理已經發生的事件,是主動處理,而不是被動處理。你的系統需要在欺詐發生之前,或在顧客離開商店之前,或在機器發生故障之前做出決策。

當然,這並不是說一定要求毫秒級別的響應時間。在某些情況下,即使是批處理也是沒有問題的。比如,大部分製造行業或物聯網場景中,預測性維護可以允許幾個小時甚至幾天的時間間隔,更換部件可以在當天或當週內完成。這樣可以節省大量的金錢,因為你可以在問題發生之前檢測出它們,避免造成更大範圍的損失。

在智慧實時系統中應用機器學習

任務關鍵型實時應用系統在不使用機器學習的情況下已經存在多年,那為什麼說機器學習將給這一領域帶來革命性的變化?

如果你讀過有關機器學習及其分支深度學習的資料,你經常會看到如下的一些場景。

  • 影象識別。上傳一張圖片到Facebook上,影象中的物體——比如你的朋友、背景或你手中的啤酒——就會被分析出來。

  • 語音翻譯。機器人因此可以通過生成的文字或聲音與人類進行互動。

  • 仿人類行為。IBM Watson擊敗了最強大的Jeopardy選手;Google的AlphaGo戰勝了最專業的Go選手。

上述的例子與那些想要構建創新型應用系統並從競爭當中脫穎而出的企業有著越來越緊密的聯絡。類似的,我們可以將機器學習應用在“傳統場景”裡,比如欺詐檢測、交叉銷售或預測性維護,以此來增強業務流程,基於資料驅動做出更好的決策。已有的業務流程可以保持原樣,你只需要將業務邏輯和規則替換成分析模型來改進自動化決策即可。

下面將介紹如何將Kafka作為流式平臺來構建、運營和監控大規模、任務關鍵型的分析模型。

機器學習——分析模型的開發生命週期

先讓我們瞭解一下分析模型的開發生命週期:

  1. 構建:使用機器學習演算法(如GLM、Naive Bayes、Random Forest、Gradient Boosting、Neural Networks等)分析歷史資料,挖掘洞見。在這一步需要進行資料的收集、準備和轉換。

  2. 驗證:使用一些驗證技術(如交叉驗證)再次確認分析模型能夠處理新的輸入資料。

  3. 運營:將分析模型部署到生產環境。

  4. 監控:觀察分析模型的輸出。這裡包含了兩部分內容:在達到某個閾值時傳送告警(業務層面的監控);保持結果的準確性和度量指標的質量(分析模型的監控)。

  5. 持續迴圈:重複上述步驟來改進分析模型,可以通過手動批次的方式來完成,也可以線上完成,在新事件達到時更新模型。

整個團隊在一開始就要在一起工作,並考慮如下問題:

  • 它需要在生產環境有怎樣的表現?

  • 生產環境系統支援哪些技術?

  • 如何監控模型的推理和效能?

  • 是構建一個完整的機器學習基礎設施還是使用已有的框架來分離模型訓練和模型推理?

例如,一個數據科學家開發出一個Python程式,建立了一個精確度非常高的模型,但如果你無法將它部署到生產環境(因為它無法伸縮也無法表現得如預期一樣),它就毫無用處。這個時候,或許你已經可以意識到為什麼Apache Kafka如此適合用在生產環境的分析模型上。下面的章節將介紹使用Apache Kafka作為流式平臺以及結合機器學習或深度學習框架來構建、運營和監控分析模型。

機器學習和Apache Kafka架構參考

在瞭解了機器學習開發生命週期之後,接下來我們來看一個用於構建、營運和監控分析模型的架構參考:

該架構的核心之處在於它使用Kafka作為各種資料來源、模型構建環境以及生產環境應用程式之間的媒介。

用於構建模型的特徵資料從各個應用程式和資料庫流入Kafka。模型構建環境可以是一個數據倉庫、一個大資料環境(如Spark或Hadoop)或者一個執行Python指令碼的伺服器。模型可以被部署在某個地方,只要生產環境的應用程式能夠訪問到它們,並把它們應用在輸入樣本資料上。生產環境的應用程式可以從Kafka資料管道接收資料,或者使用Kafka Streams API。

Kafka成為整個系統的中樞神經,這也帶來了如下好處:

  • 資料管道變得更簡單的了。

  • 分析模型的構建和服務之間不再耦合。

  • 根據具體情況使用實時模式或批處理模式。

  • 分析模型可以被部署到高效能、可伸縮的任務關鍵型環境裡。

除了Kafka本身,還可以加入Kafka生態系統的其他開源元件,如Kafka Connect、Kafka Streams、Confluent REST Proxy、Confluent Schema Registry或者KSQL,而不僅僅是使用Kafka Producer和Consumer API。

下面兩個章節將介紹如何使用Kafka Steams API來部署分析模型。

機器學習開發生命週期示例

現在我們來深入瞭解一個圍繞Kafka構建的機器學習架構示例:

(點選放大影象)

在綠色區域,我們可以看到用於構建和驗證分析模型的元件。在橙色區域,我們可以看到流式平臺,分析模型就部署在該平臺上,用於對新事件做出推理以及執行監控。

資料生產者持續地傳送事件,分析平臺以批次或實時的方式接收這些資料,然後使用機器學習演算法來構建分析模型。分析模型被部署在流式平臺上,流式平臺將分析模型應用在事件上,從而推理出結果(也就是預測),最後結果被髮送給資料消費者。

在這個例子裡,我們將模型訓練和模型推理分離開,這在當今的大部分機器學習專案中是很常見的做法。

模型訓練

資料經由Kafka集中到Hadoop叢集上,進而使用H2O.ai分析這些歷史資料,構建出神經網路。資料科學家可以使用各種介面來完成這項工作——R語言、Python、Scala、Web UI Notebook等。模型的構建和驗證就發生在Hadoop叢集上,最後得到一個Java位元組碼形式的分析模型,接下來就可以將它們部署到生產環境。

模型推理

神經網路被部署到Kafka Streams應用程式裡。Streams應用程式可以執行在任何地方,它可以作為單獨的Java程序執行,也可以執行在Docker容器裡或Kubernetes叢集上。模型被實時地應用在每一個新生成的事件上。Kafka Streams藉助Kafka叢集為我們提供了可伸縮、任務關鍵型的分析模型操作以及高效能的模型推理。

線上模型訓練

除了分離模型訓練和模型推理,我們也可以為線上模型訓練構建一個完整的基礎設施。很多巨頭科技公司(比如LinkedIn)在過去就將Apache Kafka作為模型的輸入、訓練、推理和輸出的基礎。當然,這種做法存在一些權衡。大部分傳統的公司會使用第一種方案,它可以滿足現今大部分的使用場景。

模型監控和告警

將分析模型部署到生產環境只是第一步,對模型的準確性、分數、SLA和其他度量指標進行監控並自動實時地發出告警也同樣重要。度量指標可以通過Kafka反饋給機器學習工具,用於改進模型。

使用H2O.ai開發分析模型

以下是使用H2O來構建分析模型的例子。H2O是一個開源的機器學習框架,它在內部使用了其他框架,如Apache Spark或TensorFlow。資料科學家可以在上面使用他們喜歡的程式語言,如R語言、Python或Scala。H2O引擎會生成Java位元組碼,可以很方便地通過Streams進行伸縮。

下面是使用H2O.ai Flow(Web UI或Notebook)和R語言構建分析模型的截圖:

(點選放大影象)

輸出的是一個位元組碼形式的分析模型,它可以直接部署到任務關鍵型的生產環境裡。因此,我們就不再需要花時間去考慮如何將Python或R生成的模型“移植”到基於Java平臺的生產系統裡。

這個例子使用H2O來產生Java位元組碼,當然,你也可以使用其他框架(如TensorFlow、Apache MXNet或DeepLearning4J)完成類似的工作。

使用Kafka Steams API部署分析模型

使用Kafka Streams來部署分析模型非常簡單,只要將模型新增到基於Streams構建的應用程式裡就可以了,然後將其應用在新生成的事件上。

(點選放大影象)

因為Kafka Streams應用程式實際上用到了Kafka的特性,所以已經具備了伸縮性和任務關鍵型用途,不需要對模型做出任何調整。

例子的程式碼可以在GitHub上找到:https://github.com/kaiwaehner/ kafka-streams-machine-learning-examples。拉取專案程式碼,執行maven構建命令,就可以看到H2O模型是如何與Kafka Streams應用整合在一起的。後續我們會不斷擴充這個例子,加入更多複雜的應用場景,不僅使用H2O,還會加入TensorFlow和DeepLearning4J。

藉助一些CI/CD工具,如Maven、Gradle、Chef、Puppet、Jenkins,機器學習與流式處理相結合的方式可以很容易地被整合到自動化持續整合工作流當中。

使用開放標準在訓練和推理之間共享分析模型

以下是其他一些用於在資料科學家之間共享和更新模型以及DevOps團隊部署模型的方式。

  • 原生模型(Native Model):直接將模型部署到流式處理引擎裡,比如通過JNI將Python模型部署到Java應用程式裡

  • 位元組碼生成(Generated Code):不管使用哪一種程式語言來構建模型,都可以通過生成二進位制庫或原始碼的方式將它們部署到流式處理應用裡。它們經過優化,可以獲得更好的效能。例如,資料科學家使用R語言或Python訓練的模型可以轉成Java位元組碼的形式。

  • 外部伺服器(External Server):以請求和響應的方式呼叫外部的分析伺服器。外部呼叫可以通過SAS、MATLAB、KNIME或H2O這類分析工具來完成,它們一般會提供REST介面。

  • PMML(預測模型標記語言):這是一種比較古老的XML標準,儘管還存在一些侷限和不足,一些分析工具仍然在支援它。

  • PFA(可移植分析格式):一種新標準,可以為模型提供預處理,利用了JSON、Apache Avro,並支援Hadrian。不過大部分分析工具並沒有為它提供開箱即用的支援。

以上這些方案之間存在權衡的關係。例如,PFA帶來了獨立性和可移植性,但同時也存在一些限制。從Kafka角度來看,如果要部署大規模的任務關鍵型系統,使用Java位元組碼生成的方式會更加合適,因為這種方式具有更高的效能、更容易伸縮,並且更容易嵌入到Kafka Streams應用中。同時,在進行模型預測時,它免去了與外部REST伺服器互動的成本。

結論

機器學習為行業帶來了價值,Kafka迅速成為很多企業的中樞神經系統。我們可以藉助Kafka來:

  • 進行實時的模型推理

  • 監控和告警

  • 線上訓練模型

  • 將資料攝取到批次層或分析叢集上進行分析模型的訓練

福布斯重磅預測:機器學習之火愈燒愈烈,開發者甩開膀子幹!

 來源: AI前線 Louis Columbus

作者|Louis Columbus
譯者|Sambodhi
編輯|Debra,Emily
  • 2013 年到 2017 年,機器學習專利的複合年增長率(Compound Annual Growth Rate,CAGR) 為 34%,是所有授予專利的第三大增長類別。

  • International Data Corporation(IDC)預測,人工智慧和機器學習的支出將從 2017 年的 12 億美元增長至 2021 年的 57.6 億美元。

  • Deloitte Global 預測,與 2017 年相比,2018 年機器學習試點和實施的數量將翻一番,到 2020 年再翻一番。

這些有趣的見解來自 Forbes 最新的機器學習市場預測、市場估計和預測的最新系列。機器學習對全球許多最重要的資料產業的潛在影響,繼續推動風險投資、私募股權(PE)融資、併購和收購,這些都集中在贏得這一領域智慧財產權(IP)和專利的競賽。

機器學習 IP 發展最快的領域之一是定製晶片組的研發。Deloitte Global 預測今年全球資料中心將使用高達 80 萬塊機器學習晶片。企業將在 2018 年加大對機器學習專案的研究、投資和試點。儘管這些方法在各種預測、市場估計和預測方面有所不同,但都反映了機器學習如何提高企業的敏銳度和洞察力,使它們能夠更快、更有利地增長。

從機器學習市場預測、市場估計和預測的收集中得出的關鍵結論如下:

  • 在商業智慧(BI)和分析市場中,支援機器學習的資料科學平臺預計到 2021 年將以 13% 的複合年增長率增長。 資料科學平臺的表現將超過更廣泛的商業智慧和分析市場,該市場預計在同一時期將以 8% 的複合年增長率增長。資料科學平臺的價值將從 2017 年的 3 億美元增長到 2021 年的 4.8 億美元。

資料來源:An Investors' Guide to Artificial Intelligence,J.P. Morgan 著,2017 年 11 月 27 日。(110 pp., PDF, no opt-in).

https://flamingo.ai/wp-content/uploads/2017/11/JPMorganAnInvestorsGuideToArtificialIntelligencev2.pdf

  • 2013 年至 2017 年,機器學習專利的複合年增長率為 34%,是所有授予專利的第三大增長類別。IBM、Microsoft、Google、LinkedIn、Facebook、Intel 以及 Fujitsu 是 2017 年最大的七家機器學習專利生產商。

   資料來源:IFI Claims Patent Services (Patent Analytics):8 Fastest Grow       ing Technologies SlideShare Presentation

 https://www.ificlaims.com/rankings-8-fast-growing.htm

  • 61% 的機構最經常選擇機器學習 / 人工智慧作為公司明年最重要的資料計劃。在這些表示積極使用機器學習和人工智慧的受訪機構中,58% 的受訪者表示他們在生產中使用了模型。

資料來源:2018 Outlook: Machine Learning and Artificial Intelligence, A Survey of 1,600+ Data Professionals (14 pp., PDF, no opt-in).

http://blog.memsql.com/2018-outlook-machine-learning-and-artificial-intelligence/

  • 包括 Amazon、Apple、Google、Tesla 和 Microsoft 在內的科技市場領軍企業,在機器學習和人工智慧投資領域處於領先地位。每家企業都將機器學習設計成未來新一代的產品,並使用機器學習和人工智慧來改善客戶體驗並提高銷售渠道的效率。

資料來源:Will You Embrace AI Fast Enough? AT Kearney 著,2018 年 1 月。

https://www.atkearney.com/operations-performance-transformation/article?/a/will-you-embrace-ai-fast-enough

  • 根據 Forrester 在 2017 年對 23 家企業應用的 14 項評估標準,SAS、IBM 和 SAP 在預測分析和機器學習市場佔領先地位。Forrester 預測,預測分析和機器學習(Predictive Analytics & Machine Learning ,PAML)市場將在 2021 年以 21% 的複合年增長率增長,這點體現在客戶諮詢和客戶採購活動的增加。

資料來源:Data Science Association, Predictive Analytics & Machine Learning Vendors, 2017 and The Forrester Wave™: Predictive Analytics And Machine Learning Solutions, Q1 2017 courtesy of SAP.

http://www.datascienceassn.org/content/predictive-analytics-machine-learning-vendors-2017

https://assets.cdn.sap.com/sapcom/docs/2017/03/6cd842e0-ac7c-0010-82c7-eda71af511fa.pdf

  • Deloitte Global 預測,與 2017 年相比,2018 年的機器學習試點和實施的數量將翻一番。推動機器學習試驗人員發展步伐的因素,包括對應用程式介面(Application Program Interfaces,API)的更為廣泛的部署、資料科學任務的自動化、減少訓練資料的需求、加速訓練以及更深入的解釋結果。

資料來源: Deloitte Global Predictions 2018 Infographics.

https://www2.deloitte.com/global/en/pages/technology-media-and-telecommunications/articles/tmt-predictions.html

  • 60% 處於採用機器學習不同階段的機構中,其中有近一半(45%)認為,這門技術已經引起了更為廣泛的資料分析和預測。35% 的受訪者還發現,機器學習正在增強其下一代產品的研發能力。

資料來源: Google & MIT Technology Review study: Machine Learning: The New Proving Ground for Competitive Advantage (10 pp., PDF, no opt-in)

https://s3.amazonaws.com/files.technologyreview.com/whitepapers/MITTR_GoogleforWork_Survey.pdf

  • Mckinsey 估計,2016 年人工智慧的年度外部投資總額在 8 億~12 億美元之間,機器學習吸引了近 60% 的投資。機器人和語音識別是兩個最受歡迎的投資領域。由於基於程式碼的創業可以快速擴充套件從而包含新功能,因此投資者最青睞機器學習初創公司。基於軟體的機器學習初創公司比那些成本更高、基於機器的機器人技術同行公司更受青睞,而後者通常沒有所對應的軟體機構。由於這些因素,這一領域中企業併購活動激增。下圖顯示了研究中按類別劃分的外部投資分佈情況。

資料來源:McKinsey Global Institute Study, Artificial Intelligence, The Next Digital Frontier (80 pp., PDF, free, no opt-in).

https://www.mckinsey.com/mgi/overview

http://www.mckinsey.com/~/media/McKinsey/Industries/Advanced%20Electronics/Our%20Insights/How%20artificial%20intelligence%20can%20deliver%20real%20value%20to%20companies/MGI-Artificial-Intelligence-Discussion-paper.ashx

  • Deloitte Global 預測,資料中心使用的機器學習晶片將從 2016 年的 10~20 萬塊增長至今年的 80 萬塊。其中至少 25% 是現場可程式設計門陣列(Field Programmable Gate Arrays,FPGA)和專用積體電路(Application Specific Integrated Circuits,ASIC)。Deloitte 發現,到 2020 年,機器學習加速技術的總可用市場(Total Available Market ,TAM)有望達到 26 億美元。

資料來源: Deloitte Global Predictions 2018.

https://www2.deloitte.com/global/en/pages/technology-media-and-telecommunications/articles/tmt-predictions.html

相關推薦

機器學習生產環境使用Kafka構建部署大規模機器學習

使用Apache Kafka在生產環境構建大規模機器學習智慧實時應用為所有行業帶來了革命性變化。

Nosql-安裝教程Linux環境下安裝部署Redis步驟

Linux環境下安裝和部署Redis步驟如下: 1.    下載安裝包 cd /var/lamp/ 2.編譯源程式 tar xzf redis-3.2.8.tar.gz cd redis-3.2.8 make cd src && make install

Scala-ML如何利用Scala構建並行機器學習系統

引言 在學習Scala的過程中,我發現其在構建大規模分散式計算系統上有與生俱來的特質。其豐富的型別系統可以幫助程式設計設計提供很好的資訊隱藏和抽象,其monoids和monads概念利用Scala高階函式實現計算並行和資料處理流水線,其Actor系統幫助編寫可

機器學習EM演算法詳細推導講解

眾所周知,極大似然估計是一種應用很廣泛的引數估計方法。例如我手頭有一些東北人的身高的資料,又知道身高的概率模型是高斯分佈,那麼利用極大化似然函式的方法可以估計出高斯分佈的兩個引數,均值和方差。這個方法基本上所有概率課本上都會講,我這就不多說了,不清楚的請百度。   然而現在我面臨的是這種情況,我

轉載機器學習EM演算法詳細推導講解

今天不太想學習,炒個冷飯,講講機器學習十大演算法裡有名的EM演算法,文章裡面有些個人理解,如有錯漏,還請讀者不吝賜教。   眾所周知,極大似然估計是一種應用很廣泛的引數估計方法。例如我手頭有一些東北人的身高的資料,又知道身高的概率模型是高斯分佈,那麼利用極大化似然函式的

Linux學習Linux環境下利用wget下載https連結內容時報錯:無法本地校驗頒發者的許可權。 要以不安全的方式連線至 ,使用“--no-check-certificate”

一、問題描述 今天在CenterOS系統上使用wget命令下載一個https連結的內容時報錯,如下所示: [[email protected] /]# wget https://mirrors.tuna.tsinghua.edu.cn/gitlab-

深度學習torch使用nngraph構建網路並訓練

torch使用nngraph構建網路並訓練 model = nn.Sequential() model:add(nn.Linear(3,5))prl = nn.ConcatTable()prl:add(nn.Linear(5,1))prl:add(nn.Linear(5,1

深度學習Ubuntu環境下Tensorflow的安裝以及與Pycharm的相互配置

****************************************************************************************************

若澤大資料生產環境mysql5.6-my.cnf 配置檔案 for linux

配置檔案設定 vi /etc/my.cnf[client]#user=root#password=123456socket=/var/lib/mysql/mysql.sock[mysqld]########basic settings########server-id = 1

機器學習正確率(Precision)召回率(Recall)

在二分類問題中, 如果將一個正例判別為正例,那這就是一個真正例(True Positive, TP); 如果將一個反例判別為反例,那麼這就是一個真反例(True Negative,TN); 如果將

機器學習帶你3分鐘看完《機器學習實戰》總結篇

決策樹易於理解和解釋,可以視覺化分析,容易提取出規則; 計算複雜度不高,對中間值的缺失不敏感,可

免費課程小白學資料探勘與機器學習

浩彬老撕的新書《小白學資料探勘與機器學習》正式發售啦!!!隨書配套了37節(660分鐘以上)免費

Spring使用@Profile註解實現開發、測試生產環境的配置切換,看完這篇我徹底會了!!

## 寫在前面 > 在實際的企業開發環境中,往往都會將環境分為:開發環境、測試環境和生產環境,而每個環境基本上都是互相隔離的,也就是說,開發環境、測試環境和生產環境是互不相通的。在以前的開發過程中,如果開發人員完成相應的功能模組並通過單元測試後,會通過手動修改配置檔案的形式,將專案的配置修改成測試環境

spring源碼學習spring的IOC容器之BeanFactoryPostProcessor接口學習

時機 process roc sta 自動 註解 lis nbsp factor 【一】org.springframework.beans.factory.config.BeanFactoryPostProcessor接口==>該接口實現方法的執行時機:該接口void

初學必備Win10環境下Anaconda安裝

create 虛擬環境 自定義 pts 本地 輸入a uninstall 導出 內容 Anaconda集合了python,Spyder,Jupyter notebook及conda-----包管理器與環境管理器(含常用的panda,numpy等),省去單獨下載的繁瑣步驟,方

SIGAI 4P計劃2.0免費來襲,給你一個深度學習python的機會

SIGAI 4P計劃一期啟動以來,收到了小夥伴們的熱烈反響。共1017人加入計劃學習,其中70%學生使用者,28%企業使用者。不少小夥伴希望加入,但由於人員和管理的限制,一期不再開放。 但是,SIGAI怎麼能辜負同學們一顆想天天向上的好學之心呢?在大家的殷殷期待下,SIGAI總結一期4P計劃經驗

基於Gitlab+Jenkins的測試環境自動構建生產環境手動釋出方案

需求說明: 專案和生產環境越來越多,專案的測試釋出和線上釋出任務繁重 本方案使用Gitlab+Jenkins實現測試環境自動構建和生產多環境手動控制釋出 實驗主機列表和功能: 192.168.77.100 CentOS7 gitlab 192.168.77.130 CentO

AI實戰基礎環境搭建(Ubuntu+conda+tensorflow+GPU+PyCharm)

為方便日常的深度學習模型開發與測試,在自己筆記本上搭建一個深度學習的基礎環境,便於學習AI使用。本人使用的筆記本配置是CPU為8代i5,顯示卡為GTX1060,記憶體為8G,基本上可滿足日常的AI研究與學習。下面將介紹基礎環境的搭建配置過程: 1、安裝Ubuntu 18.04

論文復現VGG框架講解以及VGG16復現,遷移學習自己的資料。tensorflow。

論文連結,至於論文我沒仔細看,我只學習了其框架。 但是需要注意的是: 在訓練期間,ConvNets的輸入是固定大小的224×224 RGB影象。 唯一預處理是從每個畫素中減去在訓練集上計算的平均RGB值,(eg:VGG16是:VGG_MEAN = tf.constant([123.68, 1

極簡機器學習課程:使用Python構建訓練一個完整的人工神經網

直接閱讀技術類的教材是困難的,理論的密集程度常常令人生畏,而Welch Labs的視訊用有趣的短片形式,以達到教學的目的,並結合相關資源介紹技術背景,使你能熟練掌握主題。 而本文介紹的系列,將帶領大家使用Python構建和訓練一個完整的人工神經網路。1.資料+架構 要想使用一種機器學習的方