MIT6.824 Lab1 預熱

阿新 • • 發佈：2019-12-31

假設有個字串：

var str = "The MapReduce library in the user program first splits the input files into M pieces of typically 16 megabytes to 64 megabytes (MB) per piece (controllable by the user via an optional parameter). It then starts up many copies of the program on a cluster of machines."
複製程式碼

需要統計裡面每個字母出現的次數。最直觀簡單的做法就是利用一個 map，從開始到末尾讀這個字串，並把字母作為 key，出現的次數作為 value。Map 中包含 key 的時候，value + 1，Map 中沒有 key 的時候預設 1。最後讀完這個字串就 OK。

var m = make(map[string]int)
temp := strings.Split(str,"")

for _,c := range temp {
    if !unicode.IsLetter([]rune(c)[0]) {
        continue
    }
    if count,ok := m[c]; ok {
        m[c] = count + 1
    } else {
        m[c] = 1
    }
}
複製程式碼

[M:3 R:1 y:7 o:13 v:1 e:26 h:7 l:10 i:14 r:15 T:1 p:13 d:1 u:6 c:8 b:5 s:14 g:4 a:17 f:5 m:7 t:20 B:1 I:1 n:10]
複製程式碼

在現實世界中，這個 str 可能非常巨大，所以有時候我們需要將源文字拆分成多個小的字串，然後多個執行緒同時處理，每個執行緒計算得到當前的中間結果，最後合併到一起。

上述的過程在函式語言程式設計中可以被抽象為 Map 和 Reduce 兩個函式。其中 Map 函式是把一個陣列的每個元素按照相同的邏輯處理之後返回的結果，Reduce 函式是把所有元素整合起來得到結果。通常這個兩個函式的引數都是函式，Map 的返回值一般也是陣列，Reduce 的返回值可能是各種型別。

為了在單機上實現出併發處理的效果，可以用 Go 自帶的 goroutine 來實現。下面把拆分的工作省略，直接進入主題

接下來用 4 個 goroutine 同時處理這些 string，每個做 goroutine 利用 單機序列版

的邏輯，生產出一個小規模的中間內容。隨後把每個中間內容都整合起來得到最終值。接下來需要考慮

Go 天生支援 CSP 程式設計模型，所以利用 channel 做通訊沒有問題
是否有 data race

package main

import (
	"strings"
	"sync"
	"unicode"
)

type ResultMap struct {
	sync.Mutex
	result map[string]int
}

func main()  {
	str1 := "The MapReduce library in the user program first"
	str2 := "splits the input files into M pieces of typically 16 megabytes to 64 megabytes (MB)"
	str3 := "per piece (controllable by the user via an optional parameter)."
	str4 := "It then starts up many copies of the program on a cluster of machines."

	strs := []string {str1,str2,str3,str4}

	// 主執行緒需要阻塞直到所有的 reduce 都結束
	var waitGroup sync.WaitGroup
	waitGroup.Add(len(strs))

	c := make(chan map[string]int)

	res := new(ResultMap)
	res.result = make(map[string]int)

	for _,str := range strs {
		go doMap(str,c)
		go doReduce(c,res,&waitGroup)
	}

	waitGroup.Wait()

	sortPrintMap(res.result)

}

// 生產出對應的 kv 傳遞給 channel
func doMap(str string,c chan map[string]int) {
	temp := strings.Split(str,"")
	m := make(map[string]int)

	for _,c := range temp {
		if !unicode.IsLetter([]rune(c)[0]) {
			continue
		}
		if count,ok := m[c]; ok {
			m[c] = count + 1
		} else {
			m[c] = 1
		}
	}
	c <- m
}

// 合併
func doReduce(c chan map[string]int,res *ResultMap,group *sync.WaitGroup) {
	res.Lock()
	defer res.Unlock()
	for k,v := range <- c {
		if count,ok := res.result[k]; ok {
			res.result[k] = count + v
		} else {
			res.result[k] = v
		}
	}
	group.Done()
}
複製程式碼

檢查一下結果 (Map 的 key 本身是無序的，這裡是排好序之後的）

[M:3 R:1 y:7 o:13 v:1 e:26 h:7 l:10 i:14 r:15 T:1 p:13 d:1 u:6 c:8 b:5 s:14 g:4 a:17 f:5 m:7 t:20 B:1 I:1 n:10]
複製程式碼

結果無誤之後，這個問題可以再深入

上述的 reduce 和 map 是單機上的，之間的資料共享用了 channel，如果是物理隔離的場景下，如何用別的東西做資料共享？
任何一個子任務都有可能因為各種原因掛掉，如何在某個子任務掛掉的情況下，系統的準確性不受影響，甚至能自愈？
上述的 goroutine 在執行結束之後就會被排程器回收，但實際上因為 map 總是會比 reduce 先結束，那麼後期的過程實際上可以有更多的 goroutine 可以參與到 reduce 任務中 r 如何實現這種排程讓資源可以被更加充分的利用？

MIT6.824 Lab1 預熱

假設有個字串： var str = \"The MapReduce library in the user program first splits the input files into M pieces of typically 16 megabytes to 64 megabytes (MB) per piece (controllable by the user via a

MIT6.824 Lab1 程式碼

實驗專案由純 Go 語言開發。程式碼框架已經搭好並提供了各種條件的測試用例來模仿分散式場景下的意外事件。最終目的是在指定修改的地方 coding 並通過測試用例，同時需要關注時間消耗，一定程度上效能做到最優。 ###

Mit6.824 Lab1 MapReduce實現

paper地址：http://nil.csail.mit.edu/6.824/2021/schedule.html MapReduce 原理啟動MapReduce, 將輸入檔案切分成大小在16-64MB之間的檔案。然後在一組多個機器上啟動使用者程式

MIT6.824 mapReduce lab1 reduce過程實現

技術標籤：演算法 worker 1. worker像master請求reduce任務，master分配reduce任務給worker

MIT6.824 2018 MapReduce Part II: Single-worker word count

技術標籤：演算法 Part II: Single-worker word count Now you will implement word count — a simple Map/Reduce example. Look inmain/wc.go; you\'ll find emptymapF()andreduceF()functions. Your job is

MIT6.828-LAB1 : PC啟動

Lab1 1. 先熟悉PC的實體地址空間這裡其實有很多可以說的，不過先簡單描述一下吧。從0x00000000到0x00100000這1mb的地址空間時機器處於16位的真實模式。也就是說這個時候機器的彙編都是16位彙編。這是為了相容之前的

MIT6.824 2020 Lab2 A Raft Leader Election

Preparation 實驗：http://nil.csail.mit.edu/6.824/2020/labs/lab-raft.html 的 Part 2A. 論文：英文版：https://raft.github.io/raft.pdf

MIT6.828——Lab1 partA

Lab1 基本部分在實驗給出的文件中，已經詳說明了早期PC的記憶體佈局，並且運行了bootloader。詳細地解釋了，上電後BIOS所做的工作，因此這部分不再贅述。需要注意的是bootloader的職能：

MIT6.824 Lab2除錯過程

2021-12-12 21:50 測試了5次，通過了併發用例。執行併發的用例的時候，會報第6個entry沒有被三個節點中的任意一個apply。

mit6.830 - lab1 - 儲存模型 - 題解

1.Intro github : https://github.com/CreatorsStack/CreatorDB lab1實現資料庫基本的儲存邏輯結構，具體包括：Tuple,TupleDesc,HeapPage,HeapFile,SeqScan, BufferPool等。

MIT6.824之MapReduce實現

MIT6.824之MapReduce實現這篇文章主要是大致分析一下MapReduce的實現，具體程式碼見Github(https://github.com/iloveacm4/mapReduce)

MIT6.824 lec3 GFS

2022.5.15 3.1 分散式儲存系統的難點(Why Hard) 824主要關注大型儲存，因為簡單的儲存介面往往極其通用，構建分散式系統大多是關於如何設計儲存系統。我們需要關注如何為大型分散式儲存系統設計一個優秀的介面，以

6.824 Lab1 MapReduce

1. 介紹這個lab需要實現兩種process woker process，它們會呼叫Map和Reduce函式，執行讀寫檔案的操作

mit6.s081-21-Lab1/ Xv6 and Unix utilities

sleep Implement the UNIX program sleep for xv6; your sleep should pause for a user-specified number of ticks. A tick is a notion of time defined by the xv6 kernel, namely the time between two interru

MIT 6.824(Spring 2020) Lab1: MapReduce 文件翻譯

首發於公眾號：努力學習的阿新前言大家好，這裡是阿新。 MIT 6.824 是麻省理工大學開設的一門關於分散式系統的明星課程，共包含四個配套實驗，實驗的含金量很高，十分適合作為校招生的專案經歷，在文章《2022 雙非

插曲：Kafka原始碼預熱篇--- Java NIO

前言上一篇的前言我都忘了隨便說兩句了hhh 因為Kafka的原始碼閱讀是需要對Java NIO知識有一定的瞭解的，所以怎麼說，如果覺得自己對於Java這塊算是比較熟悉，同樣作為插曲篇的這篇是可以直接忽略。因為這篇也不會涉

mit6824-lab1 讀論文

MapReduce 論文公佈自 2003 MapReduce: Simplified Data Processingn。在這之前 google 每天已經有大量的資料需要處理。MapReduce 的誕生讓程式設計師在面對大資料量環境下只需要專注於實現業務邏輯，並在一定程度上

Redis——快取雪崩、快取穿透、快取預熱、快取更新、快取降級

Redis的快取機制是：當有查詢操作時，會先查詢Redis，如果Redis中沒有該key，那麼就會去查詢資料庫，並把查詢結果寫入到Redis中，當下一次查詢的時候，就會直接從Redis中查詢

18. Redis中的快取雪崩、快取穿透、快取擊穿、快取預熱

Redis的使用雖然很方便，但是也會遇到一些問題，這些問題不僅在工作中會出現，面試的時候也經常會被問到。

ucore-lab1-ex1

作業系統映象檔案 ucore.img 是如何一步一步生成的？ (需要比較詳細地解釋 Makefile 中每一條相關命令和命令引數的含義，以及說明命令導致的結果)

MIT6.824 Lab1 預熱

相關推薦