【揭祕】中國四大銀行的大資料應用已到了哪個階段?
對於大資料給企業帶來的價值,已經毋庸置疑。在國內,銀行業應該是IT建設更為領先的行業之一。特別中、農、工、建四大銀行,更是走在整個銀行業的前面。那麼,他們對於大資料是如何看待的?在這四大銀行,大資料的應用又走到了什麼階段呢?
下面,我們來聽聽這四大銀行相關IT負責人的分享。
01 中國建設銀行資訊科技管理部資深經理林磊明
1)銀行壓力越來越大
從十二五走到十三五期間,銀行業面臨的各方面的壓力越來越大,從我們的年報數字可以看出去年四大行的利潤增長基本上趨近於零增長。在這樣的情況下,我們怎樣通過IT的引領提升傳統銀行的競爭力,這是擺在我們面前的一個很重要的課題。
2)過去十多年期間,銀行業務出現兩個拐點
大資料怎麼樣能夠在智慧銀行的方向上起到更大的作用呢?
通過銀行的歷程佐證這樣一個觀點。過去十多年期間銀行基本上有兩個拐點, 第一個拐點就是發生在網際網路銀行慢慢取代櫃員,IT支援從支援幾萬十幾萬的櫃員到支援面向所有的網際網路客戶,這裡面發生了一個根本性的變化,無論是服務的形態還是IT的支撐,都發生了很根本的變化,這是移動和雲要在裡面發揮作用。 下一個拐點是什麼?銀行要從原來做的賬務性的、交易性的處理轉向能夠滲透到經濟生活的方方面面,這是一個場景化,如果抓不住這個拐點,銀行就要被網際網路金融顛覆或者管道化。
3)三大網際網路渠道已建立,具備大資料基礎
這幾年銀行三大網際網路渠道已經建立: 手機銀行,已達到1.8億多; 網上銀行,我們有2億; 微信銀行,它佔的客服服務總量已經超過了傳統的客戶服務。 這意味著我們的渠道、我們場景化的實踐已經見到了效果,另外我們做大資料要具備的基礎已經存在。
4)大資料要解決3大問題
談大資料,對傳統銀行來講,要解決3大問題: 怎麼樣提升對於客戶的識別? 怎麼樣對於客戶的營銷? 怎麼樣提升對於風險的防範?
所以,無論是用傳統的結構化的資料,還是用現在網際網路形態下面非結構化的資料,要解決的問題都是這些,只不過我們現在有了更豐富的資料來源,有了更好的對於資料處理的方法。 目前,建設銀行已經成立了上海大資料分析中心,這不屬於技術部門,屬於資訊管理部門。
5)建行大資料平臺設計思路
從設計目標有這幾條:
策略上架構先行,我們已經有很好的基礎架構。1、基礎能力上,我們在做一些基礎的大資料分析工具的搭建。2、要想明白用資料做什麼?我一直不太同意你先不要管你做什麼,先把平臺搭起來,我不太清楚有多少人從做資料倉庫過來,當時提的很多的概念是垃圾進垃圾出,到了大資料時代沒人提這個事情了,好像所有大資料都是質量很高的,但這方面要警惕。
功能架構設計,和大家都差不多,從採集、儲存、分析、展現到應用。我要強調的是從這個結構來說,這是很完美的一個結構,但要能夠實時或者及時地反映到你的業務流程當中去,反映到你的營銷當中去。不要拘泥於一個結構。
資料設計,我們有一個演變過來的整體的結構。這裡面我想強調一點,大資料是資料的一部分,結構化的資料是大資料的一部分,這兩個東西不要割裂來看。
6)建行大資料成果
我們的大資料平臺取得了一些成果: 實時的資料倉庫上:我們能夠對客戶經理做實時的資料提供和交付,提供無論是併發的訪問還是實時服務方面。 從資料的應用模式上:我們總結了六類資料應用模式,包括挖掘類、資料實驗室、機器查詢、儀表盤、固定報表、自動查詢等等。
建立“模型實驗室”:現在越來越發揮了更大的作用,我們能夠基於結構化和非結構化的資料支援大資料模型的研發,這個模型研發出來我們能夠很快地把它部署到生產當中去,能夠為一些決策,未風先管理服務。
在非結構化大資料的應用方面,做探索:比如客戶行為偏好的資料,錄音文字、地理資料的應用、能耗資料的應用、媒體資訊、員工行為資料等等。通過位置服務終端識別的新技術新資料的採用,拒絕可疑風險事件,上半年避免1.9萬起,避免客戶損失1.4億,這種資料越來越大。
7)未來,場景化、標準化、平臺化
剛才我提到了場景化,我們希望能夠把金融資料的服務將來標準化和平臺化,平臺化之後能夠在基礎的大資料能力、基礎資料的提供甚至一些分析資料的提供,基礎應用,客戶花香、徵信評級的監測,為無論是內部的客戶還是外部的客戶提供更好的大資料技術,這是從技術方面來看大資料下一步做的工作。
02 中國工商銀行軟體開發中心資訊科技專家王曉平
1)工行大資料面臨的挑戰
如何處理資料量的快速增長?首先全行的資料量的快速增長,包括我們現在工行每天的交易量,外部網際網路金融,工行的三大網際網路平臺造成使用者的交易資料和行為資料有大幅的增長。 如何快速智慧分析歷史資料? 工行從2000年開始建立資料倉庫以來,擁有了龐大的歷史資料資產,在新的環境下怎麼能夠快速地智慧分析,對我們提出了更高的挑戰。 如何使用內外資料,描述客戶特徵?在資料來源方面,除了本單位資料,也需要採納外部的資料來配合進行分析。工行已經引入了徵信資料、稅務資料等,怎麼做到比較全的資料去描繪我行的客戶特徵,這是作為我們的一個新的課題。
2)工行大資料戰略思路
工行整個的戰略思路是通過我們行的兩庫一司的建設來完善大資料體系。 兩庫是資訊庫和資料倉庫,資料倉庫在工行的建設和銀行的建設中都是比較傳統的,主要是應對我們之前的銀行交易資料、賬戶資料,採用結構化的資料儲存來進行相關的處理。前兩年的時候工行啟動了資訊庫的建設,主要指非結構的資料。 通過兩庫的建設,我們還建設了一支分析師隊伍,能夠對這些龐大的資料進行相關業務的加工處理和分析。
3)發展階段
工行大資料的發展歷程可以分幾個階段,從TB級已經進入了PB級的建設階段,接下去在可預見的幾年內會進入EB級的龐大體量。
最早工行是2000年初,那個時候大資料的領域更多的還是應用在一些報表的快速展現,所以那個時候我們是基於比較傳統的Oracle和SaaS,做了T+1的動態報表,行領導和管理層能夠在第二天上班前看到我們行昨天的經營資料,這是最早建立的。
2007年工行基於當時較先進的企業級的資料倉庫的體系架構啟動了工行的企業級資料體系的建設,做了全行統一的管理資料的大集中。
2010年基於我們的資料倉庫的資料支援,我們推出了工行的MOVA管理會計系統,做了全行績效考核的管理系統。 2013年隨著外部形勢的發展,大量資料爆發式的出現,我們引進了大資料領域在業界最流行的Hadoop技術,在Hadoop基礎上搭建了資訊庫,發展是非常快的。
2014年工行基於大資料,原來的大資料採用連機異部批量的方式,通過檔案儲存的方式,不管是資料倉庫還是資訊庫,在時效上相對來說比較慢,所以自主研發了一個流資料平臺,能夠提供實時或者準實時的流資料處理。 2015年下半年和今年正在推動分散式資料庫的落地工作,會和企業級資料倉庫做一個互補。這是大資料的主要技術演進。
4)大資料體系
在大資料平臺上,我們可以把它抽象成如下幾層:
第一層是資料採集,統一針對外部和內部的資料進行相關的資料收集,包括日誌資訊、行為資訊和業務資訊。
再上面一層計算層,是我們不單單提供了傳統資料倉庫的批量計算的能力,也通過一些流資料的技術提供了實時的計算能力。
再上面一層應用層,抽象了大資料相關的應用,包括使用者可以自定義的查詢功能。通過這些資訊的服務,把這些服務抽象到我們的業務系統中,通過我們的管理會計系統,通過分析師平臺、風險系統、營銷系統,為我們在資料的運營、風險控制和營銷方面都提供相關的支援,這就是主要的大資料分層體系。
5)分散式、開源、通用成為趨勢
從大資料的起源開始,資料倉庫到目前的大資料新形勢下,資料倉庫已經在做非常大的升級換代和變化。2014年工行從高成本封閉的專業系統(如:Teradata),開始向高性價比、通用裝置和開放技術的系統轉變。
轉型有兩個原因:
第一是資料量太大了,原來只需要處理TB級已經轉向需要處理PB級甚至以後EB級的資料量。如果是這麼大的資料量,運用傳統的裝置沒有辦法進行相關的處理。
第二,價效比,我們做過測量,通過開放式的彈性可擴充套件的普通PC伺服器的方式,比傳統裝置在成本上介紹十幾分之一或者幾十分之一。我們在新平臺上一方面引進了Hadoop平臺基於普通的PC伺服器進行搭建,短短一兩年的時間已經擴充套件到150個節點,儲存空間已經超過1PB,超過建設了十幾年二十年的Teradata的資料容量。
另外我們在研究也會盡快落地的分佈資料庫,會基於開源的底層架構,基於普通的PC伺服器完成資料倉庫體系的擴充。後續在大資料的處理加工方面會基於分佈資料庫進行處理。
從目前的分析角度來看,Teradata會保留,著重在高階的分析師分析挖掘的探索性的工作方面。後續工行的大資料體系會採用多種技術路線、多種技術平臺共存的方式。
6)非結構化資料資訊庫,通過搜尋
非結構化資料資訊庫的建設情況,建行已經介紹了,工行也有點像。資訊庫的建設原則,因為非結構化的資料的量是非常大的,所以我們的原則是資訊庫建設沒有把非結構化建設進行物理儲存的集中,我們只是通過統一的搜尋引擎讓使用者能夠快速地搜尋找到他需要的非結構化的資訊。
7)風險防控,是落地最快、最有成效的應用
工行在大資料應用方面主要側重在風險方面。
工行通過大資料在事前、事中、事後三個環節的運用進行風險的柔性控制。簡單地舉一個例子,事前,比如銀行卡的授信過程中,或者信貸要進行發放做淨值調查中,資料能給它一個支撐。事中,比如銀行卡最近比較多地發生盜刷行為,我們可以在事中通過大資料的方式發現銀行卡的盜刷行為。事後,可以根據事後的交易或者發生的事件進行相關的分析,分析我們後續在業務的拓展或者風險控制方面有哪些需要進一步改進或者補救的工作。
這裡舉了幾個簡單的案例。非常好的大資料的應用場景:
第一,交易反欺詐,需要利用大資料流資料的技術,使用者在做交易的過程中採用主機旁路技術,交易沒有完成之前通過大資料在記憶體中進行一個判斷。
第二,大資料怎麼運用模型,通過比較好的使用者特徵的總結和模型做一個監控。通過標籤資訊,比如我們定義了兩個標籤,一個是使用者開戶的地區比較廣泛,另一個他持有比較多的借記卡,我們可以認為他涉嫌倒賣銀行卡的嫌疑,我們通過大資料的計算可以把這些人員抓出來,可以進行後續的業務處理和防空。這也是大資料應用的比較好的方面。
第三,現在各個銀行業碰到的比較大的困境,信貸資產的質量問題。工行持續在推動運用大資料驅防控信貸風險,工行成立了信貸防控中心,運用大資料技術在進行相關的防控。
03 中國農業銀行軟體開發中心專家趙維平
1)銀行在技術選擇上,相對保守
我們在2003年初開始搞大資料,當時有很多困惑,首先感覺到大資料到來了,現在各個行業,中央臺什麼東西都用大資料說話,我們在銀行業我們能做什麼呢?
早期在十幾年前我們大家做資料倉庫的時候,大家可能選擇面都很窄,四大行除了我們沒用TD其他都是用TD做的資料倉庫。我們當時某系統也很痛苦,計算資源可以擴,但IO能力就在那裡。當時覺得列儲存帶來很大的優勢,處理通用的資料量減少了很多IO。平臺選用什麼?還用傳統的嗎?新型的怎麼樣?
金融在有些技術的選擇上還是相對比較保守的,我們不會用的技術,不會用的版本,這也因為金融工委和國家人民銀行對於我們的連續服務要求特別高,一旦出了事情領導交不了差。
2)自主可控,我們從幾點入手
在自主可控上,基礎硬體、基礎軟體、資料模型、工具平臺和制度管理都是自主可控的。
硬體方面,採用華為的RH2288系列,2C、docore、256記憶體、12 4T硬碟,不同時期買的硬碟的容量是不一樣的,後來是4T,之前是3T。
基礎軟體方面,我們引進了國產的南大通用做的MPP架構資料庫,我們在原形試執行階段從2013年圓形環境開始投產,採用28個數據節點,2014年3月份把它擴到56個節點。非結構化,結構化的資料上游生產資料基本都是放在MPV架構資料庫裡,使用起來技術上更流暢,效率更好。Hadoop方面,非結構方面目前使用的是CDH開源版,大概有100個左右的Datanode。
資料模型方面,我們結合先進的建模理論,我們融合了正規化和維度的思路。我們在主庫核心層面基本是正規化建模減少重複。維度方面由業務驅動的方式建立維度模型為主。
基礎的工具方面,大家知道有ETL、批量排程、源資料的管理,這些東西都是我們自主開發的。我們制定了一套比較完備的規範、制度、方法、標準。
3)整體邏輯架構
資料來源層,上游的生產系統,幾乎全行所有的生產系統的資料到今年底已經全部進來了,金融交易類百分之百都進來了,現在有60多個上游系統,通過一個交換平臺,交換平臺不僅僅為大資料服務,負責上游生產和下游資料消費系統總分行之間、總行各應用系統間資料互動的平臺。
資料處理層,淡黃色指關係型的資料庫,也就是MPP架構資料庫。操作資料區、非結構化資料區、歷史資料平臺、流計算,流計算用Hadoop Stam架構。
下面是Hadoop的東西。我們在整個大資料平臺的結構化主庫裡分了基礎資料庫、共性加工區和指標區,非結構化有操作資料區、非結構化處理和歷史資料平臺。影像那部分早期已經建好了,為了減少網路壓力基本上存在分行。
跟傳統不一樣的是,大資料平臺的日加工時間目前在七八個小時,早期批量一個是優化不到位,一個是處理的分層,所以用了Hadoop把ETL和操作資料區都放在Hadoop裡,因為可以節點多、計算能力強,完成了ET的過程,上游來的全量資料在這裡做了歸類,生成了一個純層量的資料,減少了一天的批量時間幾個小時,提升33%的效能。
資料集市層,現在規劃8個數據集市,跟其他行沒有太多區別,客戶營銷、風險管控、外部監管,對分行服務的集市,各行服務的物件都是一樣的。底下研了資料提取平臺,外部監管和資料提取任務特別重,早期都得到生產去導帶生成,現在我們通過單獨建一個環境,把一些資料預加工好,基本以寬表的模式,以前做加法的事情變成了做減法,至少80%的提出需求都在我的環境裡直接提取,大大減輕了人力。
底下是分析挖掘平臺,ODM、SaaS都是農行已有的雲,大資料只是它的使用者而已,我們在Hadoop分裝了應用,為全行的分期挖掘提供服務支撐。對上層應用的服務有直接訪問,資料檔案和外部服務和資料快速複製等技術和應用進行連線。應用主要是對資產負債領域、電子銀行領域、信用卡和個人金融領域、風險和財務提供了一些支撐。
大資料平臺和集市,我們建成了4個集市,有3個集市在建的過程中,今年分行下半年要搞分行集市的試點。應用,我們提供統一的資料展示和服務。展示服務一個是對所有全行業的使用者,對所有行業監管的各種報送,因為各種報送比較零亂,點也比較多,趨向不同部署也不一樣,底層做了統一排程、統一監控和ETL,對全行描述類資料進行了統一管理,包括我們的資料標準和資料質量管理都在這裡統一進行。
4)硬體環境如何進行有效支撐?
在Gbase方面,56是生產環境,現在實現了56環境的雙活,這兩個56環境同時在工作,一個做T+1當天的資料加工,一個做隔一天的連級服務,這樣的話連級服務的能力,按實側的話會比以前做TD的測試中更強一點,另外個人客戶集市、資產負債集市,還做了資料探勘層次,Gbase集成了WODM和SaaS。Hadoop的生產環境是92個datanode和2個namenode。我們現在Gbase有236個節點,庫內主副本的整個容量有5.2PB資料,Hadoop的叢集是150個節點,容量是4.3PB。
56+8是56個數據計算環境,8個是載入機,56個環境每個節點是12塊3T的硬碟,有2塊做Read1,是存放作業系統和重要的引數資訊和資料庫環境,其他10個環境是Read5來存放資料,一個節點存放有效資料10幾個T,56的環境裡有效資料將近300個T,Gbase有5到10的壓縮比,各個欄位可以選擇壓縮去,300個TB的資料換算成倉外的文字量,就算簡單乘以300T也是1.5PB以上,現在折算成1.8PB左右,是PB級的。
我們跟Gbase從這個時候開始合作,我們在八方面跟他們共同做了一些優化工作,跟Gbase做了大量優化,有近百個優化的細項。MPP資料庫,我們搭建了雙活機制,兩個庫之間的同步加驗證現在每天大概是22TB的資料,僅需要3小時。早期在給主庫做備份的時候,100TB的資料有小40個小時,後來我們用了Hadoop做備份,100TB用了不到10小時,大家用TB備份一直是比較難的事情,在Hadoop方面我們做了大量基礎性的工作,非結構化的資料、檔案的服務、資料的備份等等。
我們做了MPP和Hadoop的互動,有些應用要互動,我們做了非結構化MPP和HDFS之間的融合。後來啟用了MPP和Hadoop之間的備份,大大提高了效率,300T也需要將近20個小時,所以我們做了雙活,如果雙活穩定的話我們就不用備份資料了。開發的基礎工具包括ETL工具、批量排程、整個的監控和統一訪問層,監控這塊我們還做了健康檢查,通過SaaS把半年的日誌交過去,最後生成一些模型,給我預測整個系統執行的安全狀況。資料混搭的模型設計,我們有一套完整的方法論,能保證資料的準確、穩定、完整和可用。同時我們在方法論、開發規範、資料規範和流程規範都積攢了一系列文件。整個模型是分層的,操作資料區、基礎資料區、共性加工區、指標層和集市層,完成了客戶的統一試圖、產品的統一管理和客戶的精準營銷和風險管控等等。
通過6個方面對大資料平臺的資料進行了全生命週期的管理,包括建模、驗證、清理、准入、資料地圖和一些規範。
5)如何充分體現大資料的價值?
我們在大資料的建設中充分體現了資料的價值:
分析挖掘上,跟業務融合,分別在多個領域寫出了20多份分析報告,有精準營銷和業績價值等九個方面都落到不同的應用去嘗試實現。
培養的人才,對SaaS、Spack、R語言,熟悉這些演算法,對聚類、分類、迴歸、神經網路等等進行了研究,要好用,建立一套多場景的實驗環境,流水線式的作業、組建化的模型集脫拉拽式的服務,使業務人員能更快地使用我的系統。多個技術對使用者來講是透明的,使用者要使用的話非常方便。我們展示了非常完整的服務,對基礎環境融合,對資源的管理展現進行全覆蓋,部署的模式也是收放自如的,展現也突破了傳統的思維,我們在報表展示層面是可交付的、動態的,可以放大縮小,可以按某一列去排序,可以鎖定表頭,不是一個靜態的頁面,報表是可操作的。
04 中國銀行總行軟體中心上海分中心副總經理牛曉峰
1)思考:大資料沒有成功的原因是什麼?
2015年下半年將近年底,Ganner對這1000多家企業和機構做了另外一次調查,大資料專案成功上馬的不到9%,為什麼?Ganner對他們沒有成功做了原因的分析,其中比較重要的幾條是這樣的。
排在第一位的是無法挖掘出資料的價值是什麼, 第二位是企業或機構沒有明確的大資料的戰略目標和戰略規劃, 第三是缺乏核心技術, 第四是無法有效的整合資料資源, 第五是企業的內部無法對大資料的實施和規劃達成共識。 總結了這樣一些不太順利的原因之後,我覺得有一個清晰的完整的系統性的戰略規劃,對中國銀行以後大資料的建設的作用是非常巨大的。
2)中行特別之處
中行的戰略方向: 以平臺為支撐構建大資料的技術體系; 以資料為基礎充分整合資料資源; 以應用為驅動深入挖掘資料價值; 以人才為核心提升資料分析能力; 以平臺為支撐構建大資料的技術體系。我們把大資料的技術體系分成戰略層面、規劃層面和設計及交付層面,在這裡面最重要的是大資料的體系架構,分為業務架構、應用架構、資訊架構和技術架構四個不同的架構,在這四個不同的架構裡分別支撐我們的業務流程和端到端的場景及應用的組建及分析模組,最後是設計跟交付。
我們在實施的方面採用分行試點的模式,有很多的調查機構在對大企業實施大資料專案做了總結之後發現大資料的專案實施方法上分兩個流派,一個流派是自頂向下的,上來規劃很大的大叔據的東西,從地層往下逐漸延伸,累了大量的資料,在這裡面做清洗分析,在這裡面找規律,再看這個企業怎麼從資料裡得到什麼樣的東西。另一個流派是從底向上的,先看需要哪些東西,再對這些資料進行整合。我看了很多相關的例項之後,後一個方法在現階段的效果會更明顯,有了清晰的需求才會更準確的對位需求的產品。所以我們在大資料實施的策略上採取小步快跑、快速迭代、迅速試錯的方式。
3)中銀開放平臺,是中行大資料實施例子之一
中銀開放平臺,2014年IDC金融的大獎,去年獲得人民銀行的獎,亞洲金融家組織把它評為今年較佳的金融雲服務產品,這個產品是我們對大戰略的落地實施的例子。這個產品的主要設計思路是我們把整個中國銀行的大資料進行了歸併整理之後,開發了1000多個標準的API介面,這些API介面可以用與我們的分行甚至我們的客戶,在我們規劃的未來裡,可以通過這些API訪問和使用中國銀行的資料,用於加工得到自己想要的相關結果。
目前已經有很多分行利用這樣的平臺開發出了很多比較受歡迎的產品,大家如果有興趣的話可以在蘋果的APP Store或者安卓的平臺下載這個產品看一下。
4)讓資料發揮較大價值
我們非常希望在合規的前提下充分利用銀行外部的資料服務。因為銀行或者金融企業的資料在深度上不是一般的網際網路企業能夠比擬的,如果我們金融行業跟其他的相關企業進行有效的資料交換,大家彼此利用對方的優勢,就能夠使我們這個資料得到更完美的使用。
以應用為驅動,深入挖掘資料價值。做大資料應用的場景產品。此外中國銀行還推出來口碑貸、中銀沃金融的服務,都是按照這個思路去進行我們產品的組合規劃和設計。
精準地建設客戶的營銷平臺,把線下的客戶資訊和線上的客戶行為統一在一起,把結構化的資料和非結構化的資料有機地提煉並且整合,爭取能夠較精確地描述客戶的各項屬性特徵。
來源:數盟
精彩活動
推薦閱讀
Q:你身處什麼行業?
大資料在你的行業裡有哪些應用?
歡迎留言與大家分享
請把這篇文章分享給你的朋友
轉載 / 投稿請聯絡:[email protected]
更多精彩文章,請在公眾號後臺點選“歷史文章”檢視
相關推薦
【揭祕】中國四大銀行的大資料應用已到了哪個階段?
對於大資料給企業帶來的價值,已經毋庸置疑。在國內,銀行業應該是IT建設更為領先的行業之一。特別中
網路程式設計基礎【day09】:socket接收大資料(五)
本節內容 1、概述 2、socket接收大資料 3、中文字元的坑 一、概述 上篇部落格寫到了,就是說當伺服器傳送至客戶端的資料,大於客戶端設定的資料,則就會把資料服務端發過來的資料剩餘資料存在IO緩衝區中,那我們如何解決這個問題呢? 有的同學就說了: 改大客戶端接收的資料的大小=&
【ATF】林偉:大資料計算平臺的研究與實踐
2016 ATF阿里技術論壇於4月15日在清華大學舉辦,主旨是闡述阿里對世界創新做出的貢獻。阿里巴巴集團技術委員會主席王堅,阿里巴巴集團首席技術官(CTO)張建鋒(花名:行癲),阿里巴巴集團首席風險官(CRO)劉振飛(花名:振飛),螞蟻金服首席技術官(CTO)程立(花名:魯
【揭祕】大資料程式設計師這9大行業上班最賺錢!
總是聽說大資料就業前景最好,那麼大資料學完後到底做啥呢,應該把自己放在哪個位置最合適。 在大資料成為趨勢,成為國家戰略的今天,如何最大限度發揮大資料的價值成為人們思考的問題。無論是對於網際網路企業、電信運營商還是數量眾多的初創企業而言,大資料的變現顯得尤為重要。誰最先一步找到密碼,誰就能夠搶佔市場,贏得發展
【轉】中國十大技術社區你都知道哪些?
開源框架 ive ups 流量 tps 用戶 sset 領域 架構 社區是聚集一類具有相同愛好或者相同行業的群體,IT技術社區就是聚集了IT行業內的技術人,在技術社區可以了解到行業的最新進展,學習最前沿的技術,認識有相同愛好的朋友,在一起學習和交流。 技術社區一般有三類人:
【資料資訊】大資料應用正深入經濟生活
目前,我國網際網路、移動網際網路使用者規模均居全球第一,有著豐富的資料資源和顯著的應用市場優勢。隨著打造“數字中國”戰略的推進,大資料產業正成為經濟社會發展的新引擎,受到廣泛關注。 當前,大資料產業正快速發展成為新一代資訊科技和服務業態,即對數量巨大、來源分
【北京線下】FMI2018人工智慧&大資料技術沙龍第869期
會議時間:2018年12月8日13:00 會議規模:300人 會議形式:現場分享 會議地點:五道口清華同方科技廣場C座3層(13號線五道口站或15號線清華東路西口) 報名連結:【北京線下】FMI人工智慧和大資料線下技術沙龍第869期 - 活動_飛馬網 - 飛馬網 分享嘉賓:
【2019最新篇】喬治城大學Georgetown——大資料下的學校
【2019最新篇】喬治城大學Georgetown——大資料下的學校 Collegelife 2019 最新大資料 最新資料在校生親身體驗 帶給你最真實的美國大學資訊 文丨CL Team 圖丨網路 Georgetown篇 Georgetown
zookeeper-分散式鎖的程式碼實現-【每日五分鐘搞定大資料】
本文涉及到幾個zookeeper簡單的知識點,永久節點、有序節點、watch機制。比較基礎,熟悉的就別看了跳過這篇吧 每個執行緒在/locks節點下建立一個臨時有序節點test_lock_0000000040 獲得/locks節點下所有子節點A、B、C,排序獲得最小值 若當前節點B為最小值則獲得鎖,執
【隨筆1】中國四大技術發明
注:引用言語可能不真確。 體制化。 人在社會環境中沉浸於那個穩定的狀態。 通識教育很重要! 教育是什麼? 崔永元地一個演講上說: 小時後我們需要愛國教育嗎,我們需要的是素質教育,我們先自己生活好了,我們才能去愛國啊,我們需要的是通識教育。 四大發明其實只
【大資料安全】基於Kerberos的大資料安全驗證方案
1.背景 網際網路從來就不是一個安全的地方。很多時候我們過分依賴防火牆來解決安全的問題,不幸的是,防火牆是假設“壞人”是來自外部的,而真正具有破壞性的攻擊事件都是往往都是來自於內部的。 近幾年,在thehackernews等網站上總會時不時看到可以看到一些因為資料安全問題被大面積攻擊、勒索的事件。在Hadoo
【運維專家大講堂】雲端計算和大資料時代,資料庫運維工程師發展方向在哪?
本次運維專家大講堂精選2014年6月份ITPUB的採訪,訪談物件是楊志洪,網名boypoo,Oracle ACE成員,現擔任上海新炬網路技術有限公司的技術總監。 開場: 一直以來運維工程師的角色被蒙上了各種神祕面紗,平時他們是默默無聞的幕後工作者,很少被人關注。而一旦企業出現技術故障,大家就會立刻呼
【工業大資料】工業大資料應用場景分析;工業大資料,從何做起
工業大資料也是一個全新的概念,從字面上理解,工業大資料是指在工業領域資訊化應用中所產生的大資料。
都昌資訊袁永福:利用電子病歷賦能框架,為健康醫療大資料打好基礎【電子病歷和健康醫療大資料系列】
隨著國家健康醫療大資料政策的推行,電子病歷作為其中的基礎資料庫之一,在醫院的資訊系統中的地位不斷攀升。針對電子病歷在健康醫療大資料的發展問題,動脈網專訪了國內最具代表性的幾家電子病歷企業的專家。 南京都昌資訊科技有限公司是一家新興的技術型軟體開發企業。公司雖然年輕,但成員卻是長期從事於電子病歷行業的專家。團
【機器學習01】機器學習,大資料雲端計算,再不學就out了
什麼是機器學習 利用計算機從歷史資料中找出規律,並把這些規律用到對未來不確定場景的決策 從這句話我們知道2點: 他是一種解決未來不確定因素的方法工具【比如公司明年的銷量情況】 通過什麼樣的手段呢,計算機挖出的歷史資料規律【有兩種情況一種是機器挖–
洛谷P3376【模板】網絡最大流 Dinic模板
span -c -s blog name sca print 技術 pop 之前的Dinic模板照著劉汝佳寫的vector然後十分鬼畜跑得奇慢無比,雖然別人這樣寫也沒慢多少但是自己的就是令人捉急。 改成鄰接表之後快了三倍,雖然還是比較慢但是自己比較滿意了。雖然一開始ecnt
【hive】hive表很大的時候查詢報錯問題
一段時間 partition 查詢 query order exception concat 使用 小時 線上hive使用環境出現了一個奇怪的問題,跑一段時間就報如下錯誤: FAILED: SemanticException MetaException(message
洛谷P3376 【模板】網絡最大流
規模 ostream style 一次 ios 分層 nic i++ %d P3376 【模板】網絡最大流 題目描述 如題,給出一個網絡圖,以及其源點和匯點,求出其網絡最大流。 輸入輸出格式 輸入格式: 第一行包含四個正整數N
luogu3376 【模板】網絡最大流 dinic
truct out ios div std main pty stream add 當前弧優化、單路增廣 #include <iostream> #include <cstring> #include <cstdio> #include
洛谷 P3376 【【模板】網絡最大流】
mem oid div pty ack turn color print from 題目描述 如題,給出一個網絡圖,以及其源點和匯點,求出其網絡最大流。 輸入 第一行包含四個正整數N、M、S、T,分別表示點的個數、有向邊的個數、源點序號、匯點序號。 接下來M行每行包含三個