1. 程式人生 > >唐朝的大資料平臺 - 大案牘術

唐朝的大資料平臺 - 大案牘術

週末不務正業一回,寫點輕鬆點的內容,最近在陪老婆追一部挺火的劇《長安十二時辰》,劇情還是挺有意思的,但是有個叫"大案牘術"的東西看得我有點出戲,職業病犯了聯想了一堆亂七八糟的東西…

劇中有一個統管了大唐三省六部所有檔案資料的機構叫靖安司,這儼然就是一個大資料中心,裡面有一個把我驚呆了的黑科技--大案牘術,這不就是唐朝的大資料平臺嗎,雖然知道是杜撰而來,但是這套大資料平臺還是挺有模有樣的,麻雀雖小五臟俱全,平臺的總架構師是創始人徐賓,這是一個我懷疑有超憶症的人,下面我來瞎扯下這個大資料平臺的核心技術。

1.儲存


資料儲存介質是竹簡,竹簡有序地放在一些造型古怪的架子上,應該是為了查詢方便。

另外想要提高查詢效率,索引肯定是少不了的,而這個儲存平臺的索引就是徐賓本人,他有驚人的記憶力,能記住所有卷宗存放的位置,另外他胸前還有一條項鍊,劇中他有秀過一波操作,摸一下這個項鍊就能把一個人以前做過的事情都巴拉巴拉地說出來,所以這個項鍊應該是輔助記憶的一個東西,也就是二級索引。

劇中還有一段是李必要通過大案牘術去查徐賓這個人的過去,叫了10個人花了挺久的時間才查出來,可見沒了這個索引,查詢效率是非常低下的。

2.計算


如何能提高查詢計算的效率,最直接的方法加機器呀,分散式計算你懂的,雖然在唐朝沒有計算機,但是總架構師徐賓當然是知道分散式計算的原理的,所以“機器不夠,人頭來湊”,徐賓找了一幫的 SQL Boy (那個時候叫吏員)來幫忙查詢卷宗,提高查詢效率。

3.ETL


資料的採集,清洗,入庫過程也是架構師徐賓一手抓的,etl工程師從各地記錄各種事件和使用者的基本資訊,傳輸給靖安司進行儲存,另外因為長安當時藤紙已經不夠用了而且非常貴,導致沒紙錄入,案牘記錄大不如從前精準,大案牘術的可靠性大受質疑。所以徐冰還在研究造紙的技術,目的是為了能夠讓資料傳輸更加輕便,一次能傳輸更加大量的資料,且控制成本。

4.通訊


這個大資料平臺還有一套實時通訊的工具--望樓,這個望樓不僅用作觀察敵人行為以及異常報警,還有複雜的遠端通訊功能。

資訊還是通過加密才傳輸的,如下圖,看不懂但是看起來很牛逼。不過這個加密也不是絕對安全,遇到黑客也是會被攔截並且破解的,還有很大的優化空間,而且這個望樓還出現了一次特大級事故,被黑客龍波植入了名為陸三的病毒,訊息被洩漏甚至被篡改,總架構師徐賓也是差點付出了生命的代價。

5.應用場景


扯完了平臺的架構設計,那麼我們來說下應用場景吧。劇中提到辦案的人是大案牘術選出來的,是能通過使用者畫像精準地找到符合某種特徵的人群,再通過評分來選擇最優解。

但是,架構師徐賓在這裡又動了手腳,他在程式裡篡改了一行 SQL 程式碼,

"select '張小敬' from daandushu"

他把查詢結果寫死在了程式碼裡,可見公司裡還沒有程式碼互審機制啊,或者是沒有一個和架構師能力相當的人來牽制他,讓他不能在程式碼裡為所欲為。

接下來根據使用者的基本屬性和行為特徵進行分析,獲取使用者的喜好和可能的行為,沒錯,這就是資料探勘,沒想到徐賓不僅僅是工程師,還是個搞演算法的,來看看劇中的原話。

6.結語


因為很多地方我都是用二倍速看的,所以劇情看得不是很詳細,很多地方沒有寫得很嚴謹,大家不用在意,這部劇本身就是屬於架空型別的,很多設計都禁不起推敲,樂呵樂呵就完事了。

(文中的圖片均來自百度圖片,侵刪)

覺得有價值請關注 :公眾號「大叔據」

相關推薦

唐朝資料平臺 - 大案

週末不務正業一回,寫點輕鬆點的內容,最近在陪老婆追一部挺火的劇《長安十二時辰》,劇情還是挺有意思的,但是有個叫"大案牘術"的東西看得我有點出戲,職業病犯了聯想了一堆亂七八糟的東西… 劇中有一個統管了大唐三省六部所有檔案資料的機構叫靖安司,這儼然就是一個大資料中心,裡面有一個把我驚呆了的

資料脫敏介紹(資料平臺 )

資料脫敏(Data Masking),又稱資料漂白、資料去隱私化或資料變形。百度百科對資料脫敏的定義為:指對某些敏感資訊通過脫敏規則進行資料的變形,實現敏感隱私資料 的可靠保護。這樣,就可以在開發、測試和其它非生產環境以及外包環境中安全地使用脫敏後的真實資料集。 可以看到資料脫敏具有幾個關鍵點:

資料來源/資料平臺

【彙總】資料來源/大資料平臺 一、網路趨勢分析   站長工具:5118 | chinaz   指數工具:艾瑞指數 | 百度指數 | 微指數 | 搜狗指數    

資料平臺架構思考

筆者早期從事資料開發時,使用spark開發一段時間,感覺大資料開發差不多學到頭了,該會的似乎都會了。在後來的實踐過程中,發現很多事情需要站在更高的視角來看問題,不然很容易陷入“不識廬山真面目”的境界。最近在思考資料資產管理平臺的建設,進行血緣分析開發,有如下感悟: 大資料平臺從資料層面來說,包括資料本身和元

【福利】送Spark資料平臺視訊學習資料

沒有套路真的是送!! 大家都知道,大資料行業spark很重要,那話我就不多說了,貼心的大叔給你找了份spark的資料。   多囉嗦兩句,一個好的程式猿的基本素養是學習能力和自驅力。視訊給了你們,能不能堅持下來學習,就只能靠自己了,另外大叔每週會不定期更新《每日五分鐘搞定

美團資料平臺

今天給大家介紹的內容主要包括以下四個部分首先是介紹一下美團大資料平臺的架構,然後回顧一下歷史,看整個平臺演進的時間演進線,每一步是怎麼做的,以及一些挑戰和應對策略,最後總結一下,聊一聊我對平臺化的看法。     謝語宸是來自美團的大資料構建平臺的架構師。他在QCon2016北

【備忘】小象視訊教程 Hadoop 2.X資料平臺V3

第1講 :hadoop生態系統以及版本演化 第2講:HDFS 2.0應用場景、原理、基本架構及使用方法 第3講:Yarn應用場景、基本架構與資源排程 第4講: MapReduce 2.0基本原理與架構 第5講 :MapReduce 2.0程式設計實踐(涉及多語言程式設計) 第6講:Hbase應用場

雙11奇蹟背後的資料平臺,不喧譁,自有聲!

00:02:05 成交額超100億00:57:56 成交額超666億01:47:26 成交額超1000億15:49:39 成交額超1682億22:28:37 成交額超2000億 2018年雙11新紀錄2135億 高速跳轉的數字,不斷重新整理的狀態,光纜中狂奔的程式碼,鍵盤上飛舞的手指…

DataPipeline在資料平臺資料流實踐

文 | 呂鵬 DataPipeline架構師 進入大資料時代,實時作業有著越來越重要的地位。本文將從以下幾個部分進行講解DataPipeline在大資料平臺的實時資料流實踐。 一、企業級資料面臨的主要問題和挑戰 1.資料量不斷攀升 隨著網際網路+的蓬勃發展和使用者規模的急劇擴張,企業資

資料平臺SQL編碼開發規範--轉自阿里雲DataWorks

本文向您介紹SQL編碼的基本原則和詳細的編碼規範。 編碼原則 SQL程式碼的編碼原則如下: 程式碼功能完善,健壯。 程式碼行清晰、整齊,具有一定的可觀賞性。 程式碼編寫要充分考慮執行速度最優的原則。 程式碼行整體層次分明、結構化強。 程式碼中應有必要的註釋以

資料平臺hive原生搭建教程

環境準備 centos 7.1系統 需要三臺雲主機: master(8) 作為 client 客戶端 slave1(9) 作為 hive server 伺服器端 slave2(10) 安裝 mysql server 安裝包使用的是官網下載的 將hive上傳到master ,mys

資料平臺--Hadoop原生搭建教程

環境準備: 三臺虛擬機器 master(8)、slave1(9)、slave2(10) centos 7.1、jdk-8u171-linux-x64.tar.gz、hadoop-2.7.3.tar.gz 0x1環境準備 首先先在三臺虛擬機器中建立hadoop資料夾 mdkir /

資料平臺中資源控制在不同作業系統上的實現

大資料平臺中資源控制在不同作業系統上的實現 在大資料迅速發展的今天,很大一部分支援來自於底層技術的不斷髮展,其中非常重要的一點就是系統資源的管理和控制,大資料平臺的核心就是對資源的排程管理,在排程和管理之後如何對這些資源進行控制便成了另一個重要的問題。大資料系統中使用者成千上萬的作業程序

ambari資料平臺搭建的安裝(全)

本篇主要說明離線安裝的流程,如需檢視線上安裝的可以看以前博文 https://blog.csdn.net/xiaozou_it/article/details/82911160 一、安裝前的一些準備(離、線上皆需先完成) 1、推薦四臺虛擬機器器(本文以centos為例) 2、

使用docker搭建資料平臺

我們以Ambari+HDP為例。儘管說運維堅決不同意在docker上執行大資料元件,但是我覺得,作為測試和學習目的在本地快速構建大資料叢集仍然是一件非常有意義的事情。 如果我們想採取Ambari來安裝HDP的話,其包含的主要元件如下 ambari-server: 主要部署的控

阿里雲HBase攜X-Pack再進化,重新賦能輕量級資料平臺

一、八年雙十一,造就國內最大最專業HBase技術團隊 阿里巴巴集團早在2010開始研究並把HBase投入生產環境使用,從最初的淘寶曆史交易記錄,到螞蟻安全風控資料儲存。持續8年的投入,歷經8年雙十一鍛鍊。4個PMC,6個committer,造就了國內最大最專業的HBase技術團隊,其中HBase核心中超過2

資料平臺hbase,phoenix,spark搭建和研發問題和解決方式彙總

#Q Caused by: java.lang.NoSuchMethodError: org.apache.hadoop.tracing.SpanReceiverHost.get $A <hadoop.version>2.7.3</hadoop.version>

小型資料平臺搭建

目錄 前言 一、 搭建環境 1.1叢集規劃 二、 叢集的相關配置 2.1 新建使用者hadoop 2.2 更改主機名 2.3 主機和IP做相關對映 2.4 SSH免密碼登入 2.5 時間配置 2.6 整體安裝目錄安排 三、 Hadoop HA環境搭建 3.1 JDK配置 3.2 安裝

CentOS7部署CDH6.0.1資料平臺

Cloudera版本(Cloudera’s Distribution Including Apache Hadoop,簡稱“CDH”),基於Web的使用者介面,支援大多數Hadoop元件,包括HDFS、MapReduce、Hive、Spark、 Hbase、Zookeeper、Sqoop等,簡化了大資料平臺的

阿里雲HBase全新發布X-Pack 賦能輕量級資料平臺

一、八年雙十一,造就國內最大最專業HBase技術團隊 阿里巴巴集團早在2010開始研究並把HBase投入生產環境使用,從最初的淘寶曆史交易記錄,到螞蟻安全風控資料儲存。持續8年的投入,歷經8年雙十一鍛鍊。4個PMC,6個committer,造就了國內最大最專業的HBase技術團隊,其中HBase核心中超過