1. 程式人生 > >達觀資料:文字的起源與文字挖掘的前世今生

達觀資料:文字的起源與文字挖掘的前世今生

01 / 08、人類的文明,始於文字誕生。

100萬年前,古猿進化成人類。50萬年前,人類學會使用火。5000年前,人類發明文字。

文明並非從天而降,人類從矇昧、野蠻步入文明,是個漫長而坎坷的過程。遠古智人和禽獸並沒有什麼區別,和動物一樣,只有一種把資訊傳遞下去的方式:基因。

文字誕生後,人類學會用字把資訊儲存下來,才逐漸脫離了動物狀態。人們開始瞭解歷史不同時期所發生的事。歷史是前人走過的道路,瞭解來路,人才知道接下來該往哪裡去,不至於在原地踏步。

文字,是一切的載體。

02 / 08 、有史以來發現最早的人類文字:庫辛石板,始於財務記錄。

最早出現的文字共有四種:楔形文字、聖書文、瑪雅文、甲骨文。

公元前2500年,西亞地區的居民們開始用蘆葦稈在泥板上寫字,因書寫的痕跡形狀像楔子,後人稱為楔形文字。

“庫辛石板”被認為是迄今人類文明最早發現的文字,它由楔形文字刻寫:290086單位大麥37個月庫存庫辛。現代翻譯為“在37個月間,總共收到29086單位的大麥,由庫辛籤核”。

人類最早留下來的文字,既不是詩歌,也不是法律、占卜和宗教內容,而是枯燥的財務借貸賬本。

這和人類的大腦構造有關,人腦偏向於記憶影象、路線,卻天生不擅長記憶數字。做交易時,數量一旦超出記憶範圍,古人類就用土塊記錄,現代更多依靠計算機來實現。

庫辛石板

在距今5400年前的兩河流域,蘇美爾人寫在泥板上的一段財務紀錄,穿越了亙古漫長的歷史,成為當今文明的見證。

03 / 08 漢謨拉比法典,現代法律文字的起源。

自從數字出現,便有了借貸關係。當交易出現糾紛時,怎麼辦呢?

在第一部成文法典:《漢謨拉比法典》中,人們便有了規訓和準則。

這部人類文明最早的法律,共3500行條例,其中大多是條例法:“打自己父親的人,要被砍斷雙手”,“打掉同等地位者牙齒的人,將會被敲掉牙齒”。

“以眼還眼,以牙還牙”的價值觀在聖經舊約中也有體現。

這部法律文字的起源,由楔形文字寫作。至今還印在許多教科書的封面上。

漢謨拉比法典

 

漢謨拉比王

04 / 08 甲骨文是中國最早的象形文字,漢字的演變是由繁至簡的過程。

楔形文字在古西亞地區廣泛使用,象形文字則發源於埃及。

象形文字即刻畫動物形態,聖書文、瑪雅文、甲骨文都是象形文字。

甲骨文,早期的象形文字

甲骨文因篆刻於龜甲和獸骨上而得名,發掘於公元前1600年的殷商時期。它以象形手法描述事物,歷經千年演化,漢字就成為了人類史上最早誕生的文字中,唯一沒有消亡的文字,也是迄今為止唯一在使用的象形文字。

歷經悠長歲月,漢字是如何演變的呢?

“達觀”在不同年代的不同寫法

中國文明源遠流長,一脈相承,與漢字的進化也離不開。

隨著時代的變遷和語言的豐富,漢字的筆畫也逐漸減少,記錄文明的方式越是簡單,文明的發展也就越快。

古代中國領先世界,除卻地大物博,物產豐富,更是文明的先進。造紙術在公元1世紀就已發明,一千年前後才傳播到歐洲。自漢代“絲綢之路”開闢,文化交流與融合,繼有盛唐萬國來朝,海晏河清的繁華景象。

李白曾頌長安“萬國同風共一時,錦江何謝曲江池。”鮮為人知的是,李白不僅是個詩人,還是位翻譯。唐時渤海國來朝,使者呈書,字型非草非隸,跡異形奇,滿朝文武均不識得。為難間,玄宗想到李白,李白果然認識,宣誦如流,玄宗大悅。

05 / 08 羅塞塔石碑,是最早的“破譯機”,是人類跨越語言障礙的象徵。

翻譯是文化交流的重要的橋樑。《聖經·舊約》記載,人類曾有聯合起來、建造通往天堂的巴別塔的巨集願。為阻止人類的計劃,上帝讓人類說不同的語言,使人類之間不能相互溝通。不同語言的隔閡給人類交流帶來許多障礙。

最早的“破譯機”是公元前196年,古埃及國王托勒密的登基詔書。它同時由古埃及文、希臘文、聖書文記錄,刻在黑色大理石上,後世人稱為“羅塞塔石碑”

羅塞塔石碑

羅塞塔石碑,是人類跨越語言障礙的象徵。石碑上的對照文字為後人成功破譯這三種語言發揮了巨大價值。翻譯也逐漸從交流工具變成一門藝術。

時至今日,計算機也可以做一些簡單的翻譯工作,但機器翻譯仍是世界難題。

有人說,機翻遠不如人工翻譯來的準確,更遑論“信、達、雅”。

一項新發明是需要時間來驗證的。蒸汽船剛出現的時候,速度比不上精製的帆船,汽車也跑不過馬車,計算機剛誕生的時候,是幾十噸重的龐然大物。新技術是通過不斷的升級迭代,改進人類的生活。

06 / 08 文字語義理解四代的發展歷程。

古人類主動使用文字,就像是使用火,為文明帶來了光與熱。

30年前,人類進入計算機時代。當下,我們活在網際網路時代,對文字的處理,已由人工進化到了計算機。文字由筆畫精簡、語義漸豐到可用程式碼破譯。

現在計算機做文書處理,是先認識字詞、句子,通過字詞>語句>篇章三級結構,來進行文字語義分析。

文字語義分析技術的升級有四代程序

第一代技術(1950s):符號主義用計算機的符號操作來模擬人的認知過程。

第二代技術(1970s):語法規則,依賴於專家人工制定的語法規則和本體設計(ontological design)。

第三代技術(1990s):統計學習,即讓計算機閱讀大量文章。

第四代技術(2010s):深度學習,用一個複雜的模型像人腦神經網路一樣運作。

符號主義

 

語法規則
統計學習
深度學習

07 / 08 用詞向量(Word2Vec)技術來獲取相關詞彙。

我們以《全唐詩》為例,來看計算機是如何對文字進行處理。

分析了《全唐詩》5萬多首,我們發現,均每5首詩裡有3.9首有“人”,充分體現了唐詩的以人為本。

季節方面,“春”的出現比“冬”多得多,出現顏色最高頻率是白色,其次是綠和黃。

唐詩的出現的情緒詞:77%是悲,17%是思。剩下情緒都是打醬油的存在。

其中悲、思的情感,在唐詩中有許多的替代詞。

漢語中很多詞都有替代詞,其中替代詞最多的,是“我”,有超過一千多種表達方式。

寡人、灑家、奴家、老夫、咱、俺、朕,怎麼讓計算機去理解不同的“我”的意思?

這裡用到的是word2vec技術。

通俗的說,是把詞對映成向量,轉換成意義相近的字,從而找到相同情緒的不同表達。再通過深度分析,判定唐詩裡的“悲”是“晨起動徵鐸,客行悲故鄉”,是“少壯不努力”,還是“商女不知亡國恨,隔江猶唱後庭花”。

這是計算機對唐詩的情感分析。今天,我們達觀可以把消費者對產品的評論進行分析:比如手機,消費者態度是滿意還是不滿意、是對電池不滿意,還是對拍攝效果不滿意?再針對產品的某個點、某個模組做深入的情感分析,從而獲取消費者的態度傾向,更好的服務於消費者這是達觀在做的事。

(此段內容部分參考:用文字挖掘分析了5萬首《全唐詩》,竟然發現這些祕密

08 / 08 活字印刷和古騰堡印刷讓文字大範圍複製和傳播,“知識使人自由”。

“清明時節雨紛紛,路上行人慾斷魂。借問酒家何處有,牧童遙指杏花村。”清新雋永的詩句流傳至今,是得益於印刷技術的發明。

印刷術是中國古代四大發明之一,從雕版印刷到活字印刷,為知識傳播創造了條件。

真正使印刷術流行起來的,是18世紀的古騰堡印刷術,讓人類具備了大規模的文字傳播能力。

18世紀,歐洲籠罩在天主教的陰影之下。

當時的普通老百姓,是沒有資格閱讀聖經的。聖經的生產,要靠手工抄寫。抄寫需要大量抄書的人,培養抄書的人又需要大量的書,這就陷入了先有雞還是先有蛋的困境。

於是聖經只能由少數識字的人,謄寫在羊皮紙上,往往一本聖經冊子,就需要兩年的時間。因此稀少而珍貴,只有神父可以閱讀傳誦。於是,天主教擁有了對聖經的絕對解釋權,便通過宗教去控制人的思想。

印刷術發明後,紙質本的聖經大量傳播,普通人才可以閱讀。人們直接和上帝對話,並恍然大悟,擺脫了天主教思想上的洗腦控制,這也間接引發了馬丁路德的宗教改革,創立“新教”基督教。

約翰內斯·古騰堡

2005年,德國曾評選過歷史上最具影響的德國人,古騰堡排在第八,遠在愛因斯坦和鐵血宰相俾斯麥之前。

古騰堡印刷術大大加速了知識的傳播效率和範圍,儲存下了人類許多珍貴的思想、故事、詩歌。摧毀了一個文化上封閉、技術上停滯不前的舊世紀,並帶來了歐洲中世紀思想啟蒙,唱響了“黑暗中世紀”的輓歌,使歐洲從矇昧走向開化,大幅度加速了人類文明的進化速度。文化的先進促進了歐洲近現代在世界的霸主地位,這一切源於文字傳播的便捷。

無論對於人類總體或國家,知識的增加促進文明的發展,會給個體帶來更多的自由度。而文明的發展、知識的增加,又使人對人類自身的存在意義有更深的理解。某種角度上,文明即人類個體自由意識的發展史,知識的啟蒙和普及又推動文明的程序。

知識使人自由,擁有知識,就擁有了獲得自由的權利。人類文明璀璨如銀河,知識,即是宇宙中浩瀚的星海。人類對文書處理方式的升級迭代,恰如劃破寂寂長夜的流星,在茫茫宇宙中不過轉瞬即逝,卻照亮整片夜空。