【CCTC 2017】大資料在運營商、圖計算、大規模機器學習以及雲時代的運用與實踐...
【CSDN現場報道】2017年5月18-19日,CSDN主辦的中國雲端計算技術大會(CCTC)在北京朝陽門悠唐皇冠假日酒店盛裝啟航。本次會議踐行“雲先行,智未來”的主題,在Keynote環節之外精心策劃了微服務、人工智慧、雲核心三大論壇及Spark、Container、區塊鏈、大資料四大技術峰會,眾多技術社群骨幹、典型行業案例代表齊聚京師,解讀本年度國內外雲端計算技術發展最新趨勢,深度剖析雲端計算與大資料核心技術和架構,聚焦雲端計算技術在金融、電商、製造、能源等垂直領域的深度實踐和應用,全程高能不斷檔,乾貨滿滿精彩紛呈。
19日上午,來自東方國信、清華大學、Hortonworks和北京偶數科技的技術專家來到大資料核心技術與應用實踐峰會,與現場的開發者一同分享大資料在運營商、圖計算、大規模機器學習以及雲時代的運用與實踐。
【大資料核心技術與應用實踐峰會】在中國科學院計算技術研究所副研究員查禮主持下,正式開始。
大資料核心技術-中國科學院計算技術研究所副研究員查禮
大資料核心技術在運營商的應用與實踐
東方國信大資料中心總監王虎發表了《大資料核心技術在運營商的應用與實踐》的主題演講,本次分享主要包含三個方面,第一,運營商的大資料架構;第二,大資料核心技術體系;第三,運營商的應用與實踐。王虎介紹到,過去運營商大資料平臺分為Iaas/Paas/Saas三層,而未來運營商大資料平臺將往更深層次方向演進,包括應用域、資料域、技術域、基礎域、安全域和開放域。
大資料核心技術-東方國信大資料中心總監王虎
經過運營商多年的建設,當前技術主要基於“開源+自主”研發結合,利用大資料核心技術,構建面向業務應用和平臺應用的實踐。而東方國信的Hadoop發行版本,是基於開源版本進行增強,相容開源版本,能隨著開源版本的升級而升級。基於開源社群原始碼實現二次開發,轉換為自己的核心技術,逐漸將應用與生產實踐的驗證部分程式碼提交給社群,比如: K8s+Docker底層原始碼修訂。
在大資料核心技術在運營商業務應用實踐中,運營商的企業運營管理,圍繞大資料為核心,面向客戶和內部員工,實現企業業務運營和管理。而在業務應用實踐中,王虎為分別介紹了大資料核心技術在資料、決策、營銷、客戶、績效五個方面。最後,王虎對大資料核心技術在運營商未來發展中做了展望,主要包含六個層面,如實時能力、線上能力、學習能力、開放能力、資料能力和應用該能力。
圖計算優化技術探索
清華大學計算機系副教授陳康發表了《圖計算優化技術探索》的主題演講,其內容包含四個方面,首先,是對圖計算做簡要介紹;其次,講解使用體系結構區域性性加速圖計算;再次,講解圖的三維劃分加速計算;最後,分享外存圖計算的加速方法。圖資料的來源非常廣泛,Google和Facebook中都含有大量圖片資源,因此,計算方式由資料並行到圖並行轉變。陳康表示,當前圖計算呈現出四大特點:高訪存計算比、資料區域性性不好、結構不規則和受資料驅動。因此,優化資料載入的速度是重中之重。
大資料核心技術-清華大學計算機系副教授陳康
隨後,陳康介紹了圖計算系統的計算框架,包括計算框架的作用,如便於程式設計、效能擴充套件和自動容錯;以頂點為中心的計算框架和以邊為中心的計算框架等等。在使用體系結構區域性性加速圖計算、圖的三維劃分加速計算和外圍圖計算的加速中,陳康運用了大量例項,為現場的開發者帶來了詳細的技術分享。
最後,陳康總結了使用體系結構相關方法優化圖計算中表示,圖計算由於其應用的廣泛以及規模的擴充套件,現在仍然是熱點的研究內容;通過體系結構相關的方法可以加速圖計算的執行,如使用體系結構區域性性加速圖計算、圖的三維劃分加速計算和外存圖計算的加速方法;圖計算的不同模式,需要不同的加速方法。
基於Spark的面向10億級別特徵的大規模機器學習
Hortonworks技術專家樑堰波發表了《基於Spark的面向10億級別特徵的大規模機器學習》的主題演講,本次分享主要分為五個方面:首先,樑堰波為大家介紹了基於Spark大規模機器學習的應用背景;其次,介紹了基於Spark無載體L-BFGS的運用;再次,分享了基於無載體L-BFGS的邏輯迴歸,第四,對效能進行了詳細分析;第五,介紹了與現有的MLlib整合;最後,分享了未來研究方向。通過大量例項介紹,樑堰波表示未來還存在很多可以研究的方向,如不斷的減少迭代、效能的提升以及藉助數十億引數預測廣告點選率並形成真實案例,同時分享我們所得的經驗和教訓等等。
大資料核心技術-Hortonworks技術專家樑堰波
雲時代大資料管理引擎HAWQ++
Apache HAWQ Committer, PMC, 北京偶數科技有限公司架構師陶徵霖發表了《雲時代大資料管理引擎HAWQ++》的主題演講,陶徵霖首先為大家介紹了HAWQ及其發展歷程,緊接著介紹了HAWQ體系架構、HAWQ內部架構、HAWQ優化器、HAWQ查詢處理流程、HAWQ資源管理、HAWQ儲存、HAWQ++新特性、HAWQ++安裝部署、如何訪問HAWQ++以及HAWQ++匯入匯出資料和HAWQ++結合MADlib的使用等等。
大資料核心技術–Apache HAWQ Committer, PMC, 北京偶數科技有限公司架構師陶徵霖
HAWQ資源管理的目標是負責向YARN申請資源和回退資源和為HAWQ使用者,查詢和操作符分配資源;三級資源管理包括全域性資源管理、內部資源管理和操作符級別資源管理;多級資源管理和CPU和memory的管理。在HAWQ++匯入匯出資料中,可通過hdfs外部表匯入匯出資料、gpfdist外部表匯入匯出資料、COPY命令匯入匯出資料和hawq load工具匯入資料。
更多精彩內容,請關注圖文直播專題:CCTC 2017中國雲端計算技術大會,Keynote視訊直播,微博:@CSDN雲端計算,訂閱 CSDN 官方微信公眾號(ID:CSDNnews),即時獲取大會動態。
相關推薦
【CCTC 2017】大資料在運營商、圖計算、大規模機器學習以及雲時代的運用與實踐...
【CSDN現場報道】2017年5月18-19日,CSDN主辦的中國雲端計算技術大會(CCTC)在北京朝陽門悠唐皇冠假日酒店盛裝啟航。本次會議踐行“雲先行,智未來”的主題,在Keynote環節之外精心策劃了微服務、人工智慧、雲核心三大論壇及Spark、Contai
【異常帖】--- 大資料出現的所有異常,錯誤,和注意事項整理---持續更新.....
一、Ubuntu --> 修改主機名稱之後,要特別主要修改主機和ip的對映(否則會造成java.net.UnknownHostException: 主機名: 主機名的異常,mkdir: Call From java.net.UnknownHostException: s100: s100: u
【備忘】大資料spark SQL專案實戰分析視訊
一. 大資料初識 二. Spark以及生態圈概況 三. 專案開發環境搭建 四. Spark SQL概要 五. 從Hive平滑過渡到Spark 六. DateFrame與Dataset 七. External Data Source 八. SparkSQL願景 九. 大型網站日誌實戰 十.
【時政熱點】大資料 大變革
大資料 大變革 近年來,大資料以迅猛的發展速度滲透進人們生活的方方面面。大資料是資訊化發展的新階段,隨著資訊科技和人類生產生活交匯融合,網際網路快速普及,全球資料呈現爆發增長、海量集聚的特點,對經濟發展、社會治理、人民生活都產生了重大影響。 大資料的出現及應用,為國家治理提供了新手段,
【樂調查】大資料時代的市場調研樣本收集——資料驅動洞察
社交電商平臺化趨勢中,消費者關於產品或品牌的想法、態度、購物行為在網路上留下了大量足跡,社媒與電商上的資訊集中呈現了現代人的生活及思想形態。 我們發現,在以使用者為中心的產品運營中,這些資訊甚至正在影響商品的生產環節和爆款策劃。企業越來越重視消費者資訊的挖掘和
【Hadoop & Hbase】大資料儲存系統程式設計_讀出寫入
0x01 編譯環境 jdk 1.7 hbase 0.98 hadoop 2.6 Ubuntu Linux 14.04.2 0x02 目標 其中我的任務編號為5,即Sort-based Distinct Sort-based Distinct
【備忘】大資料爬蟲專案超清視訊+原始碼
本專案採用java語言實現,絕對基於真實的爬蟲專案進行改進和優化,希望進一步提升大家的大資料專案經驗。本專案基本涵蓋了爬蟲專案的整個流程,包括資料爬蟲、全文檢索、資料視覺化、爬蟲專案監控、爬蟲專案維護等等。解決了爬蟲專案中遇到的棘手問題,包括破解網站反爬策略、網站模板定期變更
【備忘】大資料學習從菜鳥到精通學習路線視訊教程
01.第一階段 大資料必備linux基礎與實戰 02.第二階段 大資料hadoop家族架構實戰 03.第三階段 大資料實時分析Storm入門到精通 04.第四階段 新一代大資料Spark平臺實戰 05.第五階段 知名公司大資料專案實戰
【知識圖譜】大資料環境下知識工程的機遇和挑戰
導讀:知識圖譜已經成為推動人工智慧發展的核心驅動力之一。本文選自清華大學電腦科學與技術系教授、清
【開車了】大資料競賽技術分享
本次分享為筆者在一年半時間裡的關於資料探勘技術在學習和實踐方面的經驗 由於準備時間倉促和水平有限,有誤之處請多多指教 過去的參賽成績 一般從如下4個方面來做深入分析 一套全自動的資料探勘工具應該是所有挖掘者的夢想 git上有人開發了一套自動的流程參考:https
【資源分享】大資料學習資料
資料連結:分享篇,願意和我一起共同學習的人士可以關注本部落格,也可私聊我一同學習新知識,如有需要新增修改的地方,可私聊我指正,謝謝百度雲連結:連結:https://pan.baidu.com/s/138
【原理思路】大資料中找中位數(騰訊面試題)
題目: 在一個大檔案中有100億個32位整數,亂序排列,要求找出中位數;記憶體限制為512M;請寫出演算法設計思路; 基本分析: (1)中位數的定義:一個給定排序好的序列,奇數個的話,我們就取中間的一個;偶數個的話,我們一般取中間兩個數的平均值;因此對於本題,我們需得到中
【乾貨分享】大資料開發套件DataIDE使用教程
課程介紹 大資料開發套件(Data IDE) 是阿里雲數加重要的Paas平臺產品,是”DataWorks”中最重要的核心元件。提供全面託管的工作流服務,一站式開發管理的介面,幫助企業專注於資料價值的挖掘和探索。 大資料開發套件(Data IDE) 基於MaxCompute作
【甲方自白】大資料在企業中的應用價值
轉載本文需註明出處:微信公眾號EAWorld,違者必究。 前言: 資訊科技的飛速發展,給人們的生活帶來了越來越多改變。人們也
大資料推薦系統演算法程式碼全接觸(機器學習演算法+Spark實現)
大資料推薦系統演算法程式碼全接觸(機器學習演算法+Spark實現)課程出自學途無憂網 課程分享地址:https://pan.baidu.com/s/1piCNIxC2Sv0zMY0yWxY9Ug 提取碼:b10v 一、課程簡介: 推薦系統是利用電子商務網站向
公司招聘大資料開發工程師(離線計算、實時計算)
國內某大資料供應商 待遇:10000-15000 崗位要求1、本科以上學歷,計算機及相關專業畢業。2、對大資料處理有強烈興趣,掌握至少一種主流開源技術方案,如Hadoop、Spark、Flink、Hbase,ES,kafka等,熟悉開源元件開發、系統調優、高可用等技術。3、具備1-3年以上Java開發經驗,掌
【機器學習】在生產環境使用Kafka構建和部署大規模機器學習
使用Apache Kafka在生產環境構建大規模機器學習智慧實時應用為所有行業帶來了革命性變化。
【Java筆記】為什麼資料範圍最大值加一等於最小值
在程式中有時候不小心將最大數值加1,我們會得到一個負數,這個負數就是這種資料型別的最小值。 下面看一個示例: public class Number { public static void main(String[] args) { System.out.println("最大的整數
【揭祕】大資料程式設計師這9大行業上班最賺錢!
總是聽說大資料就業前景最好,那麼大資料學完後到底做啥呢,應該把自己放在哪個位置最合適。 在大資料成為趨勢,成為國家戰略的今天,如何最大限度發揮大資料的價值成為人們思考的問題。無論是對於網際網路企業、電信運營商還是數量眾多的初創企業而言,大資料的變現顯得尤為重要。誰最先一步找到密碼,誰就能夠搶佔市場,贏得發展
【資料資訊】大資料應用正深入經濟生活
目前,我國網際網路、移動網際網路使用者規模均居全球第一,有著豐富的資料資源和顯著的應用市場優勢。隨著打造“數字中國”戰略的推進,大資料產業正成為經濟社會發展的新引擎,受到廣泛關注。 當前,大資料產業正快速發展成為新一代資訊科技和服務業態,即對數量巨大、來源分