1. 程式人生 > >clusterdata-2011-2 谷歌叢集資料分析(二)--task_usage

clusterdata-2011-2 谷歌叢集資料分析(二)--task_usage

先對 task_usage 即任務資源使用表進行一個分析學習。 task_usage 表共有20列,代表20個屬性,具體每一列代表含義即屬性名稱如下:

             

        

1、每個測量週期是5分鐘(300秒),這也能夠佐證時間單位是微秒,因為表中每一行開始時間和結束時間數值相差為300000000。

2、第四個屬性即 task index 屬性是指將一個Job分成多個Task,對這些Task進行一個編號,一個Job下的多個Task在不同的機器上可以實現並行執行。

3、對於一個Job,可以是順序執行,不再細分為多個Task ,如下圖,Job ID 為6227108810的作業,task index 為0,一直在machine ID 為156767904 的機器上執行,看時間區間沒有重疊,是順序執行。


4、有的 Job 是並行執行,而且細分為多個Task ,如下圖,Job ID 為6232112095的作業,task index 為0--49,說明分成了50個task來執行,分佈在50個不同的machine ID 的機器上並行執行,並且在一個測量週期內(5700000000--6000000000)並沒有執行完,在下一個週期(6000000000--6300000000)中繼續50臺機器並行執行。


5、有的Job是並行任務和順序執行任務都包含,如下圖,Job ID 為3418375的作業,task index 為0--1,在前幾個個測量週期內(5700000000--7500000000)是並行執行,即分成兩個任務同時執行,但是在後幾個週期(7500000000--8100000000)中只是以一個任務的形式,在一臺機器上順序執行。這種情況應該是分的任務之間長度不一定相同,有的執行時間短,有的執行時間長,這種情形也證明了多餘每個細分的 task 來說,只能是順序執行,每個任務單元不能再分散式並行執行。


6、對於一個機器來說,在同一時間段可以執行多個不同的任務,這些任務可以來自不同的Job,也可以來自同一個Job,但是同一個任務在一個時間週期中只能執行一次,如下圖,machine ID 為6226704737的機器,在一個測量週期中執行了來自12個不同 的task,這些task有的來自同一個Job ID(6221861800),但是同一個Job 下的同一個task(例如6221861800下的10704)在一個測量週期內只能執行一次,沒執行完在下個週期繼續執行。這裡猜想同一時間段中對於不同的任務,應該採用了一些排程演算法(類似時間片輪轉排程演算法),使得這些任務看起來是在一個時間段中並行執行,其實應該是順序執行,因為就一臺機器。


7、有的 task 也沒有按照嚴格的測量週期來執行,如下圖,machine ID 為27的機器,標紅的五項為Job ID 為6252026869 下的task index 為278的任務,這個任務執行週期不是300秒,但是對於不規則的任務,他們還是順序執行,這點也更加說明了task是最小單位,不能夠再拆分成多個任務並行執行。


相關推薦

clusterdata-2011-2 叢集資料分析--task_usage

先對 task_usage 即任務資源使用表進行一個分析學習。 task_usage 表共有20列,代表20個屬性,具體每一列代表含義即屬性名稱如下:                       

clusterdata-2011-2 叢集資料分析

        現在想找這麼一種資料,該作業在每次排程時會以不同的方式執行,例如第一次以並行度為3的方式執行,第二次以並行度為5 的方式執行,然後比較不同並行度下作業的執行時間。         1、

微信好友資料打包下載--微信資料分析

簡述 其實要這麼做的原因就是,我們之前操作的每次都要登入確認什麼的,比較麻煩。所以,如果我們能夠一次性將所有的資料都下載下來,然後儲存起來,那麼就可以直接操作資料,而不需要等待拿資料的過程了~ 程式碼

Python 金融資料分析

1.樣本資料位置 series = Series() series.mean() # 均數 series.median() # 中位數 series.mode() # 眾數 series.quantil

企業如何運用好資料分析

在前面提到的內容中我們不難發現數據分析能夠在企業發揮很大的作用,但是對於資料分析還是需要學習很多的知識,尤其是在進行資料分析的時候需要重視細節。因為資料分析需要嚴謹的態度,如果忽視了細節,那麼就會一著不慎滿盤皆輸。在表達資料分析結果的時候我們會用到很多的圖表。這樣才能夠做好資料分析。在這篇文章中我們會為大

資料分析

Numpy:Numeric Python 引言:要學好機器學習,先打好資料分析的基礎,打好基礎才能實現後面那些經驗的功能 一、匯入 匯入:import numpy as np 檢視版本:np.__ version __ 二、陣列ndarray 1、使用np.ar

2.gson-plugin基礎原始碼分析

二、Gson解析核心類 1.ArrayTypeAdapter.JAVA 用於解析陣列型別的資料 public Object read(JsonReader in) throws IOException { if(in.peek() == JsonT

創業公司做資料分析運營資料系統

  作為系列文章的第二篇,本文將首先來探討應用層中的運營資料系統,因為運營資料幾乎是所有網際網路創業公司開始做資料的起點,也是早期資料服務的主要物件。本文將著重回顧下我們做了哪些工作、遇到過哪些問題、如何解決並實現了相應的功能。 早期資料服務   產品上

三大核心技術Google MapReduce中文版

Google MapReduce中文版     譯者: alex 摘要 MapReduce是一個程式設計模型,也是一個處理和生成超大資料集的演算法模型的相關實現。使用者首先建立一個Map函式處理一個基於key/value pair的資料集合,輸出中間的基於key/val

產品經理怎麼用好資料分析

我們在上一篇文章中給大家介紹了產品經理對資料分析的使用的基本要求,需要產品經理能夠看出資料的維度以及做好資料的指標。但是隻有做到這些還是不夠的,我們還需要在資料分析異常中發現問題,這是一個比較棘手的工作,下面就由小編接著給大家聊聊資料分析的使用。 產品經理除了要看到資料的維度以及做好資料的指標,還必須能

【Python實戰】Pandas:讓你像寫SQL一樣做資料分析

1. 引言 前一篇介紹了Pandas實現簡單的SQL操作,本篇中將主要介紹一些相對複雜一點的操作。為了方便後面實操,先給出一份簡化版的裝置統計資料: 0 android NLL 387546520 2099457911 0 ios NLL 52877990 916421755 1 and

12306洩露資料分析

假裝有人看我的部落格:CSDN部落格要過稽核,稽核時間大概一天左右,看不到這篇就因為我又更新了。 【重要宣告:此次暫未統計香港、澳門、臺灣及南海諸島地區的資料,僅對中國大陸地區的資料進行統計,故在下文中沒有提及以上地區】 注:在原資料集中包含來自香港及其他未

小白學 Python 資料分析6:Pandas 基礎操作2資料選擇

人生苦短,我用 Python 前文傳送門: 小白學 Python 資料分析(1):資料分析基礎 小白學 Python 資料分析(2):Pandas (一)概述 小白學 Python 資料分析(3):Pandas (二)資料結構 Series 小白學 Python 資料分析(4):Pandas (三)資

小白學 Python 資料分析9:Pandas 資料預處理2

人生苦短,我用 Python 前文傳送門: 小白學 Python 資料分析(1):資料分析基礎 小白學 Python 資料分析(2):Pandas (一)概述 小白學 Python 資料分析(3):Pandas (二)資料結構 Series 小白學 Python 資料分析(4):Pandas (三)資

【機器學習】的速成課程

label spa dev 分類 ram 做出 org ron 表示 問題構建 (Framing) 什麽是(監督式)機器學習?簡單來說,它的定義如下: 機器學習系統通過學習如何組合輸入信息來對從未見過的數據做出有用的預測。 標簽 在簡單線性回歸中,標簽是我們要預測

zigbee 之ZStack-2.5.1a原始碼分析 無線接收控制LED

本文描述ZStack-2.5.1a 模板及無線接收移植相關內容。 main HAL_BOARD_INIT // HAL_TURN_OFF_LED1 InitBoard HalDriverInit HalAdcInit

三大核心技術Google BigTable中文版

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!        

Udacity資料分析入門-分析 A/B 測試結果

分析A/B測試結果 目錄 簡介 I - 概率 II - A/B 測試 III - 迴歸 簡介 對於這個專案,你將要了解的是電子商務網站執行的 A/B 測試的結果。你的目標是通過這個 notebook 來幫助公司弄清楚他們是否應該使用新的頁

資料結構LinkedList原始碼分析

一、基本概念 1、關係圖: public class LinkedList<E> extends AbstractSequentialList<E> implements List<E>, Deque<E>, C

BIGEMAP教程之Arcgis進行DEM資料進行水文分析

第一步:需要的工具       1. BIGEMPA地圖下載器       3. ARCGIS 第二步驟:通過BIGEMAP下載高程資料