什麼是資料流?
資料流定義
想象一條河。河流從哪裡開始?河流在哪裡?我們對河流的理解本質上是流動的概念。這條河沒有開始也沒有結束。流資料非常適合於沒有離散開頭或結尾的資料。例如,交通燈的資料是連續的,沒有“開始”或“完成”。資料流是連續而不是分批發送資料記錄的過程。通常,資料流對於在生成資料時在連續流中以小尺寸(通常以千位元組為單位)傳送資料的資料來源型別是有用的。這可能包括各種各樣的資料來源,例如來自連線裝置的遙測,客戶使用您的Web應用程式生成的日誌檔案,電子商務交易或來自社交網路或地理空間服務的資訊。
傳統上,資料是分批移動的。批處理通常同時處理大量資料,具有長時間的延遲。例如,該過程每24小時執行一次。
資料流是時間序列和隨時間檢測模式的最佳選擇。例如,跟蹤Web會話的長度。大多數物聯網資料非常適合資料流。交通感測器,健康感測器,交易日誌和活動日誌等都是資料流的理想選擇。
此流資料通常用於實時聚合和關聯,過濾或採樣。通過資料流,您可以實時分析資料,並深入瞭解各種活動,例如計量,伺服器活動,裝置地理位置或網站點選。
請考慮以下方案:
金融機構跟蹤市場變化並根據配置的約束(例如達到特定股票價值時的賣出)調整客戶組合的設定。
電網監控吞吐量並在達到某些閾值時生成警報。
新聞源從各種平臺流式傳輸點選流記錄,並使用人口統計資訊豐富資料,以便它可以提供與受眾人口相關的文章。
電子商務站點流式傳輸點選流記錄以查詢資料流中的異常行為,並在點選流顯示異常行為時生成安全警報。
資料流挑戰
資料流是一種功能強大的工具,但在使用流資料來源時,有一些常見的挑戰。以下列表顯示了資料流時要規劃的一些事項:
規劃可擴充套件性。
規劃資料永續性。
在儲存層和處理層中加入容錯。