【系統設計】如何設計 Twitter 時間線和搜尋？

阿新 • • 發佈：2022-04-19

如何設計 Twitter 時間線和搜尋？

1.業務場景

業務場景如下：

使用者釋出推文
- 服務將推文推送給關注者，傳送推送通知和電子郵件

使用者檢視使用者時間線（來自使用者的活動）
使用者檢視主頁時間線（使用者關注的人的活動）
使用者搜尋關鍵字
服務具有高可用性

其他場景：

服務將推文推送到 Twitter Firehose 和其他流
服務根據使用者的可見性設定刪除推文
- 如果使用者沒有關注被回覆的人，則隱藏回覆
- 尊重“隱藏轉發”設定
分析

2.業務要求

假設如下：

流量分佈不均
釋出推文應該很快
- 向所有關注者傳送推文應該很快，除非你有數百萬關注者
1億活躍使用者

每天 5 億條推文或每月 150 億條推文
- 每條推文平均扇出 10 次交付
- 每天通過扇出發送 50 億條推文
- 每月通過扇出發送 1500 億條推文
每月 2500 億次讀取請求
每月 100 億次搜尋

時間線

檢視時間線應該很快
Twitter 閱讀量大於寫入量
- 優化推文的快速閱讀
攝取推文寫得很重

搜尋

搜尋應該很快
搜尋是重讀

簡單的對業務要求進行計算，轉換成業務指標

每條推文的大小：
- tweet_id- 8 個位元組
- user_id- 32 位元組
- text- 140 位元組
- media- 平均 10 KB
- 總計：~10 KB
每月 150 TB 的新推文內容
- 每條推文 10 KB * 每天 5 億條推文 * 每月 30 天
- 3 年內 5.4 PB 的新推文內容
每秒 10 萬個讀取請求
- 每月 2500 億次讀取請求 *（每秒 400 次請求 / 每月 10 億次請求）
每秒 6,000 條推文
- 每月 150 億條推文 *（每秒 400 條請求 / 每月 10 億條請求）
每秒扇出 6 萬條推文
- 每月通過扇出發送 1500 億條推文 *（每秒 400 個請求 / 每月 10 億個請求）
每秒 4,000 個搜尋請求
- 每月 100 億次搜尋 *（每秒 400 次請求 / 每月 10 億次請求）

方便的轉換指南：

每月 250 萬秒
每秒 1 個請求 = 每月 250 萬個請求
每秒 40 個請求 = 每月 1 億個請求
每秒 400 個請求 = 每月 10 億個請求

3.系統設計

1.系統設計

我們必須進行必要的服務拆分

Timeline Service : 時間線服務，獲取儲存在Memory Cache中的時間線資料，包含使用者ID和推文ID
- TWeet Info Service: 推文資訊服務，獲取有關推文ID的附加資訊
- User Info Service : 使用者資訊服務，獲取有關UserID的附加資訊
Fan Out Service：扇出服務，A釋出推文後，通知關注了A的所有使用者，A發了新推文
- User Graph Service : 使用者關係服務，提供使用者之間的關係圖，比如A使用者關注了哪些使用者
- Search Service : 關鍵字搜尋服務，全文檢索(搜尋叢集,Lucene)
- Notification Service：通知服務，向某使用者傳送推文通知(你關注的使用者xx發了新推文)

2.用例實現

用例1：使用者釋出推文

我們可以將使用者自己的推文儲存在關係資料庫中以填充使用者時間線（來自使用者的活動）。

我們可以將照片和視訊等儲存在 Object Store

Client將推文釋出到Web Server，作為反向代理執行
Web Server將請求轉發到Write API Server
Write API Server將推文儲存在SQL 資料庫上的使用者時間軸中
Write API Server 聯絡 Fan Out 服務，該服務執行以下操作：
- 查詢 User Graph 服務，查詢 記憶體快取中儲存的使用者關注者
- 將推文儲存在記憶體快取中使用者關注者的主頁時間線中
  - O(n) 操作：1,000 個關注者 = 1,000 次查詢和插入
- 將推文儲存在Search Service中以實現快速搜尋
- 在Object Store中儲存媒體資料
- 使用Notification Service 服務向關注者傳送推送通知：
  - 使用佇列（未圖示）非同步傳送通知

記憶體快取如果使用redis，可以使用如下結構的redis列表

           tweet n+2                   tweet n+1                   tweet n
| 8 bytes   8 bytes  1 byte | 8 bytes   8 bytes  1 byte | 8 bytes   8 bytes  1 byte |
| tweet_id  user_id  meta   | tweet_id  user_id  meta   | tweet_id  user_id  meta   |

新的推文也會被放在redis中，該快取會填充使用者的主頁時間線(來自使用者關注人的活動)

$ curl -X POST --data '{ "user_id": "123", "auth_token": "ABC123", \
    "status": "hello world!", "media_ids": "ABC987" }' \
    https://twitter.com/api/v1/tweet

響應

{
    "created_at": "Wed Sep 05 00:37:15 +0000 2012",
    "status": "hello world!",
    "tweet_id": "987",
    "user_id": "123",
    ...
}

內部通訊，可以用grpc

用例2：使用者檢視主頁時間線

Client向Web Server釋出主時間線請求
Web Server將請求轉發到Read API Server
Read API Server 與 Timeline Service聯絡，後者執行以下操作：
- 獲取儲存在記憶體快取中的時間線資料，包含推文 ID 和使用者 ID - O(1)
- 使用multiget查詢Tweet Info Service以獲取有關推文 ID 的附加資訊 - O(n)
- 使用 multiget查詢User Info Service以獲取有關使用者 ID 的附加資訊 - O(n)

$ curl https://twitter.com/api/v1/home_timeline?user_id=123

響應：

{
    "user_id": "456",
    "tweet_id": "123",
    "status": "foo"
},
{
    "user_id": "789",
    "tweet_id": "456",
    "status": "bar"
},
{
    "user_id": "789",
    "tweet_id": "579",
    "status": "baz"
},

用例3：使用者檢視使用者自己的時間線

Client向Web Server釋出使用者時間線請求
Web Server將請求轉發到Read API Server
Read API Server 從SQL 資料庫中檢索使用者時間線

類似於用例2的檢視主頁時間線，除了所有推文都來自使用者自己而不是使用者關注的人。

用例4：使用者搜尋關鍵字

Client向Web Server傳送搜尋請求
Web Server將請求轉發到Search API Server
Search API Server 聯絡Search Service，它執行以下操作：
- 解析/標記輸入查詢，確定需要搜尋的內容
  - 刪除標記
  - 將文字分解為術語
  - 修正錯別字
  - 規範大寫
  - 將查詢轉換為使用布林運算
- 查詢搜尋叢集（即Lucene）以獲取結果：
  - Scatter 收集叢集中的每個伺服器以確定是否有任何查詢結果
  - 合併、排名、排序並返回結果

$ curl https://twitter.com/api/v1/search?query=hello+world

除了與給定查詢匹配的推文外，響應將類似於主時間線的響應。

4.系統優化

優化要點：

DNS
CDN
Load Balancer：負載均衡
SQL Read Relicas ：讀多副本
SQL Write Master-Slave :寫主從模式

關於扇出服務的效能瓶頸：一個幾百萬的使用者A發推文，可能需要幾分鐘，才能通知到關注了A的使用者，A傳送了新的推文：

當用戶A關注人數到達一定閾值的時候，可以讓Client主動搜我關注的A有沒有新發推文

其他優化：

在記憶體快取中只保留每個家庭時間線的數百條推文
僅在記憶體快取中保留活動使用者的主頁時間線資訊
- 如果使用者在過去 30 天內未處於活動狀態，我們可以從SQL 資料庫重建時間線
  - 查詢User Graph以確定使用者正在關注誰
  - 從SQL 資料庫中獲取推文並將它們新增到記憶體快取中
Tweet Info Service中僅儲存一個月的推文
僅在User Info Service中儲存活動使用者
搜尋叢集可能需要將推文儲存在記憶體中以保持低延遲

參考：https://github.com/donnemartin/system-design-primer/blob/master/solutions/system_design/twitter/README.md

【系統設計】如何設計 Twitter 時間線和搜尋？

如何設計 Twitter 時間線和搜尋？ 1.業務場景業務場景如下：使用者釋出推文服務將推文推送給關注者，傳送推送通知和電子郵件

【系統設計】設計一個限流元件

限速器 (Rate Limiter) 相信大家都不會陌生，在網路系統中，限速器可以控制客戶端傳送流量的速度，比如 TCP, QUIC 等協議。而在 HTTP 的世界中，限速器可以限制客戶端在一段時間內傳送請求的次數，如果超過設定的閾

【讀書筆記】設計資料密集型應用-第三部分

第10章-批處理系統分類：服務(線上系統)：服務等待客戶端的請求或指令到達。會盡快地返回結果

【Effective C++】設計與宣告

條款18：讓介面容易被正確使用，不易被誤用見原書條款19：設計class猶如設計type

Win10怎麼開啟攝像頭【系統天地】

自從升級到win10很多朋友想要使用視訊聊天功能跟家裡人視訊聊天的時候，發現根本不知道win10系統中攝像頭在哪裡，遇見這樣的情況很是令人煩心，有沒有什麼好的方法可以解決此類情況呢？開啟win10系統的“開始&r

win7無法正常關機的解決方法【系統天地】

win7系統雖然已停止更新服務，但是不少使用者還是會選擇使用它。近來有一些使用者反饋電腦關機後，一直顯示正在登出，無法正常關機，這要如何解決？通常出現這類問題是策略組設定上有問題，我們需要對其進行修復即可

重灌Win7系統步驟【系統天地】

因為win7系統的穩定性和可靠性，很多小夥伴還是使用的win7系統，那麼重灌Win7系統步驟的是什麼呢?今天小編帶來了詳細的安裝win7系統的教程，希望可以幫助到大家，具體的教程一起倆看看吧。重灌Win7系統步驟和詳細教程

win7系統怎麼分割槽【系統天地】

分割槽從實質上說就是對硬碟的一種格式化，有時候我們電腦裡面的資料太多了，雜亂無章。將硬碟分割槽之後我們可以將不同型別的資料裝相應的盤，分門別類，自己好找。，下面，我就教大家win7硬碟分割槽。1、點選桌面開

win10系統dns錯誤如何解決【系統天地】

最近有位win10系統使用者在使用電腦的過程當中，碰到了dns錯誤的情況，使用者不知道如何解決，為此非常苦惱，那麼win10系統dns錯誤如何解決呢?下面為大家分享win10電腦dns錯誤的解決方法。第一步：使用 ipconfig /fl

win10程式不受信任怎麼辦【系統天地】

Win10系統相對其他作業系統來說，比較穩定，但再穩定的作業系統同樣也是會出現各種各樣的問題，最近就有使用者反映執行程式的時候一直提示不受信任，導致程式執行失敗的問題。那麼win10程式不受信任怎麼辦呢?就此問題

【系統審計】採集osquery輸出傳送到kafka

技術標籤：系統審計 /* 參考github地址 https://github.com/segmentio/kafka-go https://github.com/kolide/osquery-go

【資料結構】演算法的時間與空間複雜度

　　演算法（Algorithm）是指用來操作資料、解決程式問題的一組方法。對於同一個問題，使用不同的演算法，也許最終得到的結果是一樣的，但在過程中消耗的資源和時間卻會有很大的區別。

【問題記錄】—SignalR連線斷線重連

起因：　ASP.NET Core SignalR是一個開源庫，可簡化嚮應用新增實時 SignalR Web 功能。實時 Web 功能使伺服器端程式碼能夠立即將內容推送到客戶端。(相信大家都用得比較多了)

【語音分析】基於matlab語音線譜對轉換【含Matlab原始碼 560期】

一、簡介線譜對分析是一種頻域引數分析方法，這種LPC方法求解的模型引數為線譜對(LSP, Line Spectrum Pair)。LSP在數學上等價於其他LPC引數，如αi。如將聲道視為由P+1段聲管級聯而成，則LSP表示聲門完全開啟或完全

【系統程式設計】執行緒同步

1 #include<stdio.h> 2 #include<string.h> 3 #include<pthread.h> 4 #include<stdlib.h>

【域控】域控時間同步問題

【1】問題（1.1）域控伺服器與網路時間不一致，域控伺服器是utc時間，而我們中國一般是 utc+8:00

【系統選型】網際網路輿情監控服務調研

網際網路輿情監控服務調查 1.概覽 1.1 網路輿情 \"網路輿情\"是較多群眾關於社會中各種現象、問題所表達的信念、態度、意見和情緒等等表現的總和。網路輿情形成迅速，對社會影響巨大，加強網際網路資訊監管的同

【java提高】(19)---BigDecimal詳解和精度問題

BigDecimal詳解和精度問題一、背景在實際開發中，對於不需要任何準確計算精度的屬性可以直接使用float或double，但是如果需要精確計算結果，則必須使用BigDecimal，例如價格、質量。

【Spring Security】2. EableWebSecurity、WebSecurityConfiguration和過濾器鏈原始碼解析

1 @EnableWebSecurity原始碼解析 @Retention(RetentionPolicy.RUNTIME) @Target({ElementType.TYPE}) @Documented

【軟體安裝】Dev-c++安裝教程和使用教程，多檔案專案構建

首先去Dev-c++官網下載安裝應用程式，然後雙擊可執行檔案選擇語言，這裡我選擇的是英文

【系統設計】如何設計 Twitter 時間線和搜尋？

如何設計 Twitter 時間線和搜尋？

1.業務場景

2.業務要求

3.系統設計

1.系統設計

2.用例實現

用例1：使用者釋出推文

用例2：使用者檢視主頁時間線

用例3：使用者檢視使用者自己的時間線

用例4：使用者搜尋關鍵字

4.系統優化

相關推薦