【自然語言處理】2.漢語語言學研究
簡介
漢語屬於漢藏語系,與世界各國廣泛使用的拼音文字相比,他更像一種古老的孤立語。
這是中華民族獨特的地理位置和長期統一的發展歷程所決定的。
雖然,漢語在歷史上先後吸收和同化了匈奴、鮮卑、突厥、契丹、滿、蒙古、梵語等語言中的許多成分,但是兩千多年來,漢語特有的符號化表現形式卻一直沒有改變過。
1、文字元號的起源
只有瞭解歷史,才能正確地理解現在,準確的預見未來。
因為文字土坯了語言的時空範圍,是凝固的語言,所以文字並非從一開始就記錄人們語言中的所有內容,而是由選擇第記錄一些對人們生產、生活比較重要的部分。千百年來,隨著人們生產、生活不斷髮展,文字也在不斷髮展,並且促進了語言進一步的統一和規範。
這是人類語言發展的共同規律。
1.1、從記事談起
結繩記事、巖畫記事和刻契記事。這三類記事方式形成了後來文字元號的主要來源。
-
《中國古文字的起源》 結繩計數,數字
-
考古發現雖然某些漢字的形體與結繩有零星的關係,但結繩記事不是漢字的主要來源;
-
繪畫;東巴文;
-
刻契記事替代結繩記事是一種書寫載體的革新,它使記事載體從一維發展到了二維;
-
有證據表明,刻契記事後來直接發展出了兩河流域(底格里斯河和幼發拉底河流域)蘇美爾人使用的楔形文字。
1.2、古文字的形成
夏王朝。
文字是一種記錄語言的符號,原始的記錄必須脫離了任意繪形、任意理解的階段,產生一批具有約定的意義,具有固定讀音的單字,並且可以開始進行語料積累的時候,才能算真的產生。
即文字的產生必須具備如下的三個特點:
- 約定的意義
- 基本固定的讀音
- 基本一致的形式
形、音、義的三者一致性。
這就必須具備形、音、義三者一致性。必須對當時的季師傅好有一個再創造的過程,這個過程就是造字。
長時間集體累積和創作的產物,並在長時間的氏族擴張和衰亡的征戰中不斷傳承與毀滅。
兩種矛盾:
- 文字與語言;
- 文字與書寫者;
2、六書及其他
後人在總結前人的造字方法時,最重要的成果就是六書。
象形、指事、會意、轉註、假借、形聲。
2.1、象形
“象形者,畫成其物,隨體詰詘(jie qu),日月是也。”
模仿和抽象。
其他的造字都是以象形文字為根,在此結構上做出某種變形。
2.2、指事
“指事者,視而可識,查而見意,上下是也。”
區域性、整體。
2.3、會意
“會意者,比類合誼,以見指撝(hui,wei),武、信是也。”
兩個或兩個以上的度漢字,拼接。
2.4、形聲
“形聲者,以事為名,取譬相成,江河是也。”
90%;
在形聲字之前,字形和字義是統一的,字形能夠完整的表達語義,但從形聲字開始,這種情況發生了變化。一部分表義的功能讓位於表音的偏聲旁,更便於將語言中表意的音節迅速構成文字。這使得文字在數量上發生了質的飛躍。同時,形聲造字法使字形與字義逐漸分離開來。這是漢字走向符號化的第一步。
2.5、轉註
轉註是原始文字規範化的開始,轉註暗示了這樣一個規則——語義上近似的兩個字,其字形也應該儘量相似,其不同之處可以通過其他造字模式來彌補。
例如:“女”通過加入表示“因生育而發達的兩乳”的兩點,即指事造字法,構造出了新字“母”。
轉註法提出說明上文所述的4種造字法並不完整,表示同一語義的字可能有很多種。
殷商甲骨文:4500詞就支援了豐富的社會生活,這就是轉註造字法的作用。
2.6、假借
“假借者,本無其字,依聲託事,令長是也。”
假借法使用已有的漢字去記錄新詞,其進步的意義在於,減少了需要記憶的字元數量。這是假借的積極作用。
但也因為這樣導致了一字多意,客觀上造成了一些同音同形而異義的詞,使人不易掌握。
3、字形的流變
文字變革:隸變。
3.1、筆與墨的形成與變革
形成於商周,發展與秦漢。
3.2、隸變的方式
《試論漢字的隸變》
漢字的總體趨勢是一個由繁到簡的過程,這個趨勢在中國上下五千年的歷史彙總,從未改過。
3.3、漢字的符號化與結構
漢字新生了一種統一的子結構,就是我們常說的部首。
漢字最早部件化的開始。
楷書的通行加速了漢字元號化的程序,而文字研究在隸變之後又一次達到了新的高潮。
偏旁部首才是漢字構成的最小部分。
漢字結構
- 簡介而不可分割
- 上下結構
- 左右結構
- 半包圍結構
- 全包圍結構
- 堆成結構
- 品字結構
我們在記憶漢字時,首先大度記憶數量小得多的偏旁部首,再根據各個偏旁部首的位置和結構來記憶各種生僻的漢字,就會使漢字的學習變得容易多了,從而及大地降低了漢字的學習難度,即便現在看來也是一種極為精妙的思維。
在隋唐之後,漢語書面語逐漸向口語化的趨勢發展,後世稱為近代百花。他的一個鮮明的特徵就是與口語相結合,出現了大量的複音詞和通俗的表達形式。此時,以獨字為核心的古漢語又出