通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析

阿新 • • 發佈：2019-04-02

開發十年，就只剩下這套架構體系了！ >>>

官方指導文件：https://help.aliyun.com/document_detail/68322.html
但是會遇到大家在分割槽上或者DataWorks排程引數配置問題，具體拿到真實的case模擬如下：

建立資料來源：

步驟1 進入資料整合，點選作業資料來源，進入Tab頁面。

步驟2 點選右上角

新增資料來源，選擇訊息佇列 loghub。

步驟3 編輯LogHub資料來源中的必填項，包括資料來源名稱、LogHub

Endpoint、Project、AK資訊等，並點選測試連通性。

建立目標表：

步驟1 在左側tab也中找到臨時查詢，並右鍵>新建ODPS SQL節點。

步驟2 編寫建表DDL。

步驟3 點選

執行按鈕進行建立目標表，分別為ods_client_operation_log、ods_vedio_server_log、ods_web_tracking_log。

步驟4 直到日誌列印成本，表示三條DDL語句執行完畢。

步驟5 可以通過desc 檢視建立的表。

其他兩張表也可以通過desc 進行查詢。確認資料表的存在情況。

建立資料同步任務

資料來源端以及在DataWorks中的資料來源連通性都已經配置好，接下來就可以通過資料同步任務進行採集資料到MaxCompute上。

操作步驟

步驟1 點選

新建業務流程並確認提交，名稱為直播日誌採集。

步驟2 在業務流程開發面板中依次建立如下依賴並命名。

依次配置資料同步任務節點配置：web_tracking_log_syn、client_operation_log_syn、vedio_server_log_syn。

步驟3 雙擊

web_tracking_log_syn 進入節點配置，配置項包括資料來源（資料來源和資料去向）、欄位對映（源頭表和目標表）、通道控制。

根據採集的時間視窗自定義引數為：

當然其消費點位也可以按照自定義設定5分鐘排程一次，從00：00到23:59，startTime=

[yyyymmddhh24miss−10/24/60]系統前10分鐘到endTime=[yyyymmddhh24miss-5/24/60]系統前5分鐘時間（注意與上圖消費資料定位不同），那麼應該配置為ds=[yyyymmdd-5/24/60]，hr=[hh24-5/24/60]，min=[mi-5/24/60]。

步驟4 可以點選高階執行進行測試。

可以分別手工收入自定義引數值進行測試。

步驟3 使用SQL指令碼確認是否資料已經寫進來。如下圖所示：

日誌服務的日誌正式的被採集入庫，接下來就可以進行資料加工。

比如可以通過上述來統計熱門房間、地域分佈和卡頓率，如下所示：

具體SQL邏輯不在這裡展開，可以根據具體業務需求來統計分析。依賴關係配置如上圖所示。

作者：禕休

原文連結

本文為雲棲社群原創內容，未經

通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析

開發十年，就只剩下這套架構體系了！ >>>

oracle通過logminer挖掘歸檔日誌還原誤操作資料

日誌挖掘：logminer 作用：通過對日誌的分析，能夠獲得使用者的dml操作語句，用來修復使用者資料的丟失或者是錯誤；能夠通過日誌挖掘，獲得使用者操作的反向操作(undo_sql)或者正向操作(redo_sql); 實現條件：執行日誌挖掘需要開啟輔助日

研究基於spring通過對http請求資料的預處理（資料加解密、校驗、日誌）（2）過攔截器篇

上文已經詳細講解了如何對request進行處理，本文主要是案例演示 spring MVC 的寫法新增攔截器定義一個攔截器 public class AppRequestIntercept

Geoserver通過ajax跨域訪問服務資料的方法（含使用者名稱密碼認證的配置方式）

Goeserver資料有兩種，一種需進行使用者密碼的許可權認證，一種無須使用者密碼。對於網上跨域訪問Geoserver資料的種種方法，對這2種資料並非通用。筆者將Geoserver官方下載的Geoserver.war包部署到linux伺服器，通過前端 ajax 訪問geoserver資料失敗，其中包含跨域問

Android通過JSON資料格式和java服務後臺進行資料互動

Android和JAVA後臺實現資料通訊前言進行綜合設計的時候，要求做個javaweb專案並掛到伺服器上，與此同時在Android上通過訪問後臺介面實現部分功能。經過了一番的摸索和踩坑，終於實現了和後臺服務的通訊登陸註冊和資訊列表顯示功能。這是 github

mysql資料庫通過日誌恢復資料

大家應該知道mysql通過備份恢復檔案的方法，其實用日誌其實也可以恢復資料，方法如下 1.找到my.ini檔案（方法:先到mysql安裝目錄找my.ini檔案如果此安裝目錄沒有找到該檔案，則此檔案一般在C盤下的ProgramData資料夾中，此資料夾為隱藏資料

11、Spring技術棧-整合Redis，通過Redis的Master-Slave實現快取資料讀寫分離

1、Redis主從複製（Master-Salve Replication）簡介 Redis 支援簡單且易用的主從複製（master-slave replication）功能，該功能可以讓從伺服器(slave server)成為主伺服器(master serv

阿里雲CDN實時日誌服務正式釋出資料驅動實時決策

12月26日，阿里雲CDN實時日誌服務舉辦線上直播發佈會，全網首次深度解讀阿里雲CDN大資料系統技術演進，產品應用場景與業務實操。阿里雲CDN實時日誌服務可以將CDN採集的實時日誌，在小於60秒的時間進行實時、互動式分析和報表呈現，為監控、報警、渠道分析、運營分析提供實時、可靠的資料參考。普通的CDN離線

通過Openlayers中getGetFeatureInfoUrl方法請求WMS服務資料到客戶端（Browser）（基於Geoserver伺服器）

本文基於tomcat伺服器進行網站開發，geoserver管理GIS資料服務，在tomcat伺服器中訪問geoserver時出現跨域訪問被拒絕的杯具，遂本文要有理有據的闡述一下如何解決這個跨域訪問geoserver中的GIS資料並以JSON資料格式返回到前端。首先，

日誌服務Python消費組實戰（三）：實時跨域監測多日誌庫資料

解決問題使用日誌服務進行資料處理與傳遞的過程中，你是否遇到如下監測場景不能很好的解決：特定資料上傳到日誌服務中需要檢查資料內的異常情況，而沒有現成監控工具？需要檢索資料裡面的關鍵字，但資料沒有建立索引，無法使用日誌服務的告警功能？資料監測要求實時性（<5秒，例如Web訪問5

通過hive表整合查詢hbase資料

大家知道，直接從hbase的讀取資料是一個比較繁鎖的過程，需要java程式碼或是spark 查詢通過Hive整合HBase,可以通過hive表查詢hbase資料，下面是測試過程 --建立hbase表 create "user","account","address","i

Android攝像頭採集的視訊資料流如何通過Socket實時傳送到目標服務端

分兩塊： 1.取得攝像頭採集的視訊流 2.傳送到伺服器端 protected MediaRecorder mMediaRecorder; private LocalServerSocket mLss = null; private LocalSock

oracle資料庫中重要的檔案（控制檔案、資料檔案、重寫日誌檔案、歸檔日誌檔案、初始化引數檔案）

本篇著重從物理角度來說明oracle資料庫的組成。 Oracle資料庫，就是作業系統檔案的集合。包括下面幾種檔案。 1 控制檔案引數檔案init.ora記錄了控制檔案的位置控制檔案中的主要資訊：資料庫的名字，檢查點資訊，資料庫建立的時間戳，所有的資料檔案

oracle 正確刪除歸檔日誌，並清除 V$ARCHIVED_LOG 資料

1. 連線 RMAN 管理 rman target / 2. 檢視歸檔日誌列表 RMAN> crosscheck archivelog all; 3. 刪除所有歸檔日誌 RMAN> DELETE ARCHIVELOG ALL COMPLETED BEFORE '

mysql通過binlog二進位制日誌恢復資料

有些萌新做事的時候經常大大咧咧，有一天萌新心血來潮寫了個sql delete from tablename 然後小手指一點，糟了沒加where條件。萌新的mysql還沒入門就到了刪庫跑路這一步。資料都沒了，怎麼辦？沒關係我們可以使用乾坤大挪移，讓時間倒流打死

阿里雲DataWorks實踐：資料整合+資料開發

--- # 簡介 - **什麼是DataWorks：** - DataWorks（資料工場，原大資料開發套件）是阿里雲重要的PaaS（Platform-as-a-Service）平臺產品，為您提供[資料整合](https://help.aliyun.com/document_detail/137663

應用程序的日誌通過rsyslog推送到syslog服務器

syslog rsyslog centos5系列系統自帶為syslog1.4.1centos6系列自帶rsyslog版本為5.8.10centos7系列自帶rsyslog版本為7.4.7目前最新版rsyslog為8.27.0,rsyslog從8.5.0後對imfile模塊進行重構，文件名中可以支持通配

通過RMAN刪除歸檔日誌不釋放問題

軟件 oracle 空間 google 操作系統我的生產環境中歸檔日誌滿了，通過如下腳本刪除後，空間並沒有釋放，看有網友有相關的解決思路，可以跟大家一起分享一下：RMAN> crosscheck archivelog all;RMAN> delete expried arch

eigenface資料整合

byte 一個不同 tar aid ast blank 驗證間隔把圖片映射到能最好區分的空間（pca），在這個空間同類是聚集的，而不同類之間間隔大。這相當於一個模型，把驗證集也映射到此空間，然後利用knn對驗證集分類。 pca：https://wenku.baidu.

【iOS】通過NSURLProtocol實現網頁載入本地快取資料

一.專案需求專案中有個海報生成功能，使用UIWebView載入一些網頁，因為海報使用率比較高，有時載入網頁比較慢會影響使用者體驗，因此我們在APP啟動後，將一些固定資源，如css、圖片等，先快取到本地。載入網頁時，通過NSURLProtocol，優先使用本地的檔案，以加快網頁載入速

通過DataWorks資料整合歸檔日誌服務資料至MaxCompute進行離線分析

建立資料來源：

建立目標表：

建立資料同步任務

相關推薦