Introduction to NLP by Chris & Dan翻譯 第十九課 單詞含義與相似性
阿新 • • 發佈:2018-12-18
- 回顧:詞目(lemma)與單詞形式(wordform)
- 詞目:表示相同的詞根、詞性以及大致的語義
- 單詞形式:表示在文件中出現的具體單詞形式
- 一個詞目可能會含有很多含義(sense)。含義(sense)表示單詞意思的一個方面的表現。比如說bank就有兩個含義。
- …a bank can hold the investments in a custodial account…
- “…as agriculture burgeons on the east bank the river will shrink even more”
- 同音異義詞(homonymy):有同一個形式但是有獨立不同的含義的單詞,形如bank,bat
- bank1: financial institution, bank2: sloping land
- bat1: club for hitting a ball, bat2: nocturnal flying mammal
- 同音異義詞分為兩種: 同形異義(Homographs )(bank/bank, bat/bat);同音異義(Homophones):Write/right或者Piece/peace
- 同音異義詞可能會引起NLP應用的很多問題:資訊檢索(“bat care”),機器翻譯(bat: murciélago (animal) or bate (for baseball)),文件發音(bass (stringed instrument) vs. bass (fish))
- 一詞多義(polysemy):多義詞會有相關聯的含義。一詞多義可以分為兩種:轉喻(metonymy)以及系統性的(systematic)。大部分的一詞多義都是系統性的,比如school,hospital等等都可以既指組織又指建築。
- 我們怎麼知道單詞有一種以上的含義?zeugma測試。
- 利用連詞把兩個句子連起來,然後看一下句子是否奇怪,如果奇怪的話就說明有兩種含義。
- 句子1:Which flights serve breakfast?
- 句子2:Does Lufthansa serve Philadelphia?
- 連起來:?Does Lufthansa serve breakfast and San Jose?
- 利用連詞把兩個句子連起來,然後看一下句子是否奇怪,如果奇怪的話就說明有兩種含義。
- 同義(synonyms):在某些語境下單詞有相同的含義
- couch / sofa big / large automobile / car Water / H20
- 如果他們能在所有語境中互相替代,我們就認為他們有相同的命題含義(propositional meaning)
- 但是基本有沒有完全同義的兩個單詞,即使在某些情況寫是完全一致的,但是在正式用語,俗語等等各種方面還是會有所不同的。因此,同義是一種針對含義(sense)的關係,而不是針對單詞的關係。比如下面的big和large的例子,前者是同義,後者則不是。
- 反義(Antonyms):在某一種含義上有相反的含義。可以是對立的兩個方面,或者是反向關係。比如:
- 下義(hyponymy)與上義(hypernymy):如果一種含義是另一種的子集的話,我們認為前者是後者的下義,後者是前者的上義。比如car是vehicle的下義,vehicle是car的上義。下義一般是具有傳遞性的,如果A是B的下義,B是C的下義,那麼A也是C的下義。我們也可以稱下義為IS-A等級(IS-A hierarchy)