1. 程式人生 > >第二課、信息檢索原理

第二課、信息檢索原理

ron and 修改 中國 通配符 檢索策略 示例 nat 機構

一、學術信息的檢索步驟

技術分享圖片

1、檢索準備:

- 明確課題學科屬性、專業範圍及相關內容

如:微生物降解苯酚的研究進展

- 弄清檢索課題的信息類型和時間要求

即:為文獻類檢索課題還是事實數據類檢索課題

如:中國經濟領域的統計數據、政策

即:考慮所需文獻的時間跨度

- 考慮課題的特殊要求

- 明確用戶自身的信息要求

2、選擇檢索系統:

-依據數據庫收錄的信息內容所涉及的學科範圍

-依據數據庫收錄的文獻類型、數量、時間範圍及更新周期

-依據數據庫提供的檢索途徑、檢索功能和服務方式

3、制定檢索式:

檢索詞是檢索式的基本組成元素,能否選準、選全檢索詞直接影響到檢索效果的優劣。檢索詞包括:專業技術名詞、作者、機構名稱、分類號、出版物名稱等。

(1)確定檢索詞

自由詞 (任意詞)

關鍵詞 (專業詞、非受控詞)-推薦使用

主題詞 (規範詞、受控詞、敘詞 )

技術分享圖片

確定檢索詞常用的方法是:從給定的課題名稱出發,經過切分、刪除、補充等步驟,確定檢索詞,最終通過組配,構成能全面、明確表達信息需求的檢索式。對於課題名稱中無法獲取充分檢索詞的情況,可以從技術要點中抽取核心技術詞匯。

切分:對語句進行切分,以詞為單位劃分句子或詞組。

刪除:刪除不具有檢索意義的虛詞、其他非關鍵詞及過

於寬泛和過於具體的限定詞。

補充:補充還原詞組、同義詞和近義詞。對需要較高查全率的檢索課題,可以以降低檢索詞的專指度為出發點,補充選用檢索詞的上位詞。

示例1:工農業/廢水/的/循環利用/的/研究

檢索詞包括“工業、農業、工農業、廢水、廢液、循環利用”

示例2:高速公路/運營/財務/管理/模式/研究

檢索詞包括“高速公路、高速路、運營、營運、財務”

(2)構建檢索提問式

檢索提問式是計算機信息檢索中用來表達用戶檢索提問的邏輯表達式,由檢索詞和各種布爾邏輯算符、位置算符、截詞符以及系統規定的其它組配連接符號組成。

- 布爾邏輯算符

用布爾邏輯算符進行檢索詞的邏輯組配,是一種常用的檢索技術。常用的邏輯運算有三種:與、或、非。

1)邏輯“與”

用and、 “*”或者空格表示。在網絡搜索引擎中常用“空格”代替“*”。

2)邏輯“或”

用or、“+”或逗號表示。在網絡搜索引擎中習慣用逗號代替or或+。

3) 邏輯“非”

用not 或“-”號表示。在網絡搜索引擎中習慣用減號代替not。

- 西文檢索通配符的使用

  • 截詞符(前截詞、後截詞)

comput*,表示computer, computerized, computation 等

*physics 表示 physics、astrophysics、biophysics、chemicophysics

  • 替代符(替代一個字母,或替代若幹個字母)

wom?n可檢到women, woman,

  • 鄰近算符(same、near、W/n )

Cellulose SAME wood 可檢索到 wood cellulose, cellulose from wood, wood-cellulose等

laser near/3 diode

精確檢索

  • “international space station”

(3)確定檢索式

如:檢索詞A and 檢索詞B and 檢索詞C

土豆 and 種植

(檢索詞A or 檢索詞B) and 檢索詞C

(土豆 and 洋芋) and 種植

(4)確定檢索途徑

即限定檢索詞出現的字段

如:AU=作者;LA=語種;TI=篇名;AB=文摘;PY=年代等。

從主題途徑查找:通過主題、關鍵詞、主題詞這些能夠反映文獻主題內容方式進行信息檢索;

從分類途徑查找:信息資料和科技文獻一般都是用分類表按學科進行組織管理,檢索時要熟悉分類表,了解所查文獻隸屬於哪一“類”,利用類號做檢索點查找文獻。分類查找特點:可以避免因檢索詞考慮不周而造成漏檢;

從著者途徑查找:文獻的編者、作者、譯者等;

從文獻代號途徑查找:科技報告、專利、標準、會議、圖書、期刊都有自身的標準號碼,它們是查找具體文獻標示,是獲取文獻的重要途徑。

4、調整檢索策略

檢索時,應及時分析檢索結果是否與檢索要求一致,根據檢索結果對檢索提問式進行相應的修改和調整,直至得到比較滿意的結果。

- 檢索結果信息量過多

a 增加更多限制概念,采用邏輯“與”連接檢索詞

b 減少同義詞與同族相關詞

c 使用字段限定,將檢索詞限定在某個或某些字段範圍

d 使用邏輯“非”算符,排除無關概念

e 調整位置算符,由松變嚴

- 檢索結果信息量過少

a 選全同義詞與相關詞,並用邏輯“或”將它們連接起來

b 減少邏輯“與”的運算,丟掉一些次要的或者專指性太

強的概念。

c 去除某些字段限制

d 調整位置算符

5. 篩選文獻

根據詳細記錄符合檢索需求的文獻線索,包括文獻名稱、作者、時間、文獻出處、文獻類型等,確定最終希望獲取的信息。

6、獲取全文

二、實例

實例:工農業廢水的循環利用研究

檢索要求:查證國內外關於“工農業廢水的循環利用研究”情況。

通過分析得知:“工農業廢水的循環利用研究”屬於環境學科。

根據檢索要求,查閱的資料範圍應為國內外資源(包括期刊文獻、專利文獻、會議論文、學位論文等),檢索的主要內容為“工農業廢水的循環利用”方面的研究報道。

- 確定檢索詞

工業 industry 、 industrial

農業 agriculture 、agricultural、 farming

工農業 industrial and agricultural

廢水 wastewater、waste water、effluent

循環利用 recycling、recycle

- 編寫檢索式

(工業 OR 農業 OR 工農業) AND 廢水 AND 循環利用

(industr* or agricultur* or farm*) AND (wastewater OR “waste water” OR effluent) AND recycl*

三、練習題

  • 確定下列課題的檢索式

① 了解“碳納米管在電極中的應用” 情況;

② 查找有關“山楂的食品加工”文獻;

③ 查找有機錫、有機銻類的塑料熱穩定劑資料;

④ 煤灰利用;

⑤ 用生物方法防治棉鈴蟲(排除用赤眼蜂)的文獻。

參考答案:

課 題:了解“碳納米管在電極中的應用” 情況。

檢索式:(碳納米管 OR 巴基管) AND 電極

課 題:查找有關“山楂的食品加工”文獻;

檢索式:(山楂 OR 紅果 OR 山裏紅) AND 食品加工

課 題:查找有機錫、有機銻類的塑料熱穩定劑資料;

檢索式:(有機錫 OR 有機銻) AND 熱穩定劑

課 題:煤灰利用;

檢索式:(煤灰 OR 粉煤灰 OR 煤渣) AND (磚 OR 水泥 OR 混凝土 OR 路基 OR……)

課 題:查找“用生物方法防治棉鈴蟲(排除用赤眼蜂)的文獻”

檢索式: 生物 AND 棉鈴蟲 NOT 赤眼蜂

註意:檢索運算順序非常重要,檢索式應能正確表達檢索意圖。

第二課、信息檢索原理