1. 程式人生 > >一個google高手寫的心得體會

一個google高手寫的心得體會

1、前言

我是在2000年上半年知道GOOGLE的。在這之前,我搜索英文資訊通常用AltaVista,而搜尋
中文資訊則常用 Sina。但自使用了GOOGLE之後,它便成為我的Favorite Searchengine了
。這也得感謝新浪網友曹溪,因為當初正是因為他的大力推介,才使我識得了GOOGLE。

記得1996年夏季的時候,當我第一次接觸Internet,便被撲面而來的魔力征服了。那種天
涯咫尺的感覺,真是妙不可言。在經歷了瘋狂的WWW衝浪和如痴如醉的BBS沉迷之後,我意
識到Internet對我影響至深的還是在於學習方式的變遷。

如何來描述這種變遷呢?以前的學習,一般需要預先在肚子裡儲存下足夠的知識,必要時
,就從海量的資訊中提取所需的部分。這種學習方式造就了很多“才高八斗,學富五車”
的大才子。但是,到了資訊領域大大超出“四書五經”的新時期,預先無目的的吞下海量
資訊的學習方式就有些不合時宜了。比方說,我們到了大型的圖書城,往往有一種不知所
措的感覺。舊有的學習方式需要變更以適應這個資訊爆炸的年代。目的明確的去學習,即
先知道要學什麼,然後有目的的去尋找答案,這種方式看上去更加有效率。我不妨把這稱
為“即學式”,相應的,舊有的稱為“預學式”。 不過,“即學式”的實施是有前提的。
首先,要求學習者擁有一個包羅永珍的資訊庫,以供隨時抽取各種目的資訊;其次,是需
要一個強勁的資訊檢索工具,以便高效率的從資訊庫中提取資訊。很明顯,Internet可以
充當那個海量的資訊庫,而搜尋引擎,則正是尋找光明之火的絕好工具。

“公欲善其事,必先利其器”。Internet只有一個,而搜尋引擎則有N多個。有搜尋高手說
,所謂搜尋,就是“在正確的地方使用正確的工具和正確的方法尋找正確的內容”。但是
,對於普通人而言,掌握諸多搜尋引擎的可能性似乎不大。用一兩個相對強勁的具代表性
的工具達到絕大多數搜尋目的更為人們所迫切希望。不同的時期,湧現出不同的強者。就
目前而言,我們非常幸運的有了:

*****GOOGLE*****

2、摘要

本文簡要的介紹了GOOGLE的歷史和特點,GOOGLE的基本搜尋語法和高階搜尋語法,GOOGLE
的特色功能,包括圖片搜尋、新聞組搜尋和整合工具條等,還簡單的介紹了一些常用搜索
技巧和實用個案。儘管本文名為“GOOGLE搜尋從入門到精通”,但事實上,筆者對運用GO
OGLE進行搜尋也尚處於“入門”階段。

3、如何使用本文

閱讀本文最好具備一些最基本的布林代數基礎,如“與”、“或”、“非”等。不過,即
便你沒有這方面的知識,也不必在意。對那些例項進行練習,你的疑惑就會迎刃而解。對
於剛剛接觸網路搜尋的讀者而言,也許你應該從頭到尾的閱讀本文;但對於那些有一定搜
索基礎的讀者而言,只需要跳躍著尋找自己所需要的資訊就可以了。當然,如果你有一定
的英文基礎,也可以把本文與GOOGLE大全(http://www.< wind_code_1 >.com/about.htm
l)參照閱讀,那樣效果會更好。

4、GOOGLE簡介

Google(www.< wind_code_2 >.com)是一個搜尋引擎,由兩個斯坦福大學博士生Larry P
age與Sergey Brin於1998年 9月發明,Google Inc. 於1999年創立。2000年7月份,Googl
e替代Inktomi成為Yahoo公司的搜尋引擎,同年9月份,Google成為中國網易公司的搜尋引
擎。98年至今,GOOGLE已經獲得30多項業界大獎。

GOOGLE的成功得益於其強大的功能和獨到的特點:

GOOGLE支援多達132種語言,包括簡體中文和繁體中文;
GOOGLE網站只提供搜尋引擎功能,沒有花裡胡哨的累贅;
GOOGLE速度極快,據說有10000多臺伺服器,200多條T3級寬頻;

GOOGLE的專利網頁級別技術PageRank能夠提供高命中率的搜尋結果;
GOOGLE的搜尋結果摘錄查詢網頁的含有關鍵字的內容,而不僅僅是網站簡介;
GOOGLE智慧化的“手氣不錯”功能,提供可能最符合要求的網站;
GOOGLE的“網頁快照”功能,能從GOOGLE伺服器裡直接取出快取的網頁。

5、搜尋入門

要用GOOGLE做搜尋,當然首先要進GOOGLE網站--www.google.com;不過,163.com和yahoo
.com.cn使用的實際上也是GOOGLE搜尋引擎,只是對搜尋結果進行了編排,但無法提供一些
特色功能,如圖片搜尋等。

第一次進入GOOGLE,它會根據你的作業系統,確定語言介面。需要提醒的是,GOOGLE是通
過cookie來儲存頁面設定的,所以,如果你的系統禁用cookie,就無法對GOOGLE介面進行
個人設定了。

GOOGLE的首頁很清爽,LOGO下面,排列了四大功能模組:網站、影象、新聞組和目錄服務
。預設是網站搜尋。現在進行第一次搜尋實踐,要查詢所有關於“易筋經”的中文網站和
網頁。在搜尋框內輸入一個關鍵字“易筋經”,然後點選下面的“google搜尋”按鈕(或
者直接回車),結果就出來了。

搜尋:“易筋經”
結果:已搜尋有關易筋經的中文(簡體)網頁。 共約有5,930項查詢結果,這是第1-10項 。
 搜尋用時0.12秒。 

6、初階搜尋

在上例子中,你已經知道了最基本的搜尋,即查詢包含單個關鍵字的資訊。現在,進一步
探討多個關鍵字以及關鍵字間不同邏輯關係的查詢。

6.1、搜尋結果要求包含兩個及兩個以上關鍵字

一般搜尋引擎需要在多個關鍵字之間加上“+”,而GOOGLE無需用明文的“+”來表示邏輯
“與”操作,只要空格就可以了。

示例:搜尋所有包含關鍵詞“易筋經”和“吸星大法”的中文網頁
搜尋:“易筋經 吸星大法”
結果:已搜尋有關易筋經 吸星大法的中文(簡體)網頁。 共約有774項查詢結果,這是第1
-10項 。 搜尋用時 0.24秒。 

注意:文章中搜索語法外面的引號僅起引用作用,不能帶入搜尋欄內。 

6.2、搜尋結果要求不包含某些特定資訊

GOOGLE用減號“-”表示邏輯“非”操作。

示例:搜尋所有包含“易筋經”而不含“吸星大法”的中文網頁
搜尋:“易筋經 -吸星大法”
結果:已搜尋有關易筋經 -吸星大法的中文(簡體)網頁。 共約有5,150項查詢結果,這是
第1-10項 。 搜尋用時 0.40秒。 

注意:這裡的“+”和“-”號,是英文字元,而不是中文字元的“+”和“-”。此外,
操作符與作用的關鍵字之間,不能有空格。比如“易筋經 - 吸星大法”,搜尋引擎將視為
關鍵字為易筋經和吸星大法的邏輯“與”操作,中間的“-”被忽略。

6.3、搜尋結果至少包含多個關鍵字中的任意一個

GOOGLE用大寫的“OR”表示邏輯“或”操作。假定你是布蘭妮和批頭士的歌迷,現在要查
找所有關於布蘭妮和批頭士的中文網頁。

示例:搜尋包含布蘭妮“Britney”或者披頭士“Beatles”、或者兩者均有的中文網頁。

搜尋:“Britney OR Beatles OR 布蘭妮 OR 批頭士”
結果:已搜尋有關Britney OR Beatles OR 布蘭妮 OR 批頭士的中文(簡體)網頁。 共約有
31,300項查詢結果,這是第1-10項 。 

注意:小寫的“or”,在查詢的時候將被忽略;這樣上述的操作實際上變成了一次“與”
查詢。

6.4、“+”、“-”和“OR”的混合查詢

混合查詢涉及到邏輯操作符的順序問題。一般而言,搜尋引擎按照從左往右的順序讀取操
作符號。如果只涉及“與”操作和“非”操作,則不會產生順序問題,搜尋結果數量和關
鍵字順序無關,不過,具體搜尋的結果順序會視關鍵字的順序而定。單純的“或”操作也
同樣道理。但是,如果“或”查詢和其他兩種查詢混合在一起,問題就複雜了。現在我們
做這樣的查詢:“所有關於Britney或者Beatles、但是沒有Madonna相關資訊的中文網頁”


搜尋:“Britney OR Beatles -Madonna”
結果:已搜尋有關Britney OR Beatles -Madonna的中文(簡體)網頁。 共約有16,200項查
詢結果,這是第1-10項 。 搜尋用時0.23秒。 

搜尋:“-Madonna Britney OR Beatles”
結果:已搜尋有關-Madonna Britney OR Beatles的中文(簡體)網頁。 共約有16,200項查
詢結果,這是第1-10項 。 搜尋用時0.13秒。 

搜尋:“Britney -Madonna OR Beatles”
結果:找不到和您的查詢-Britney -Madonna OR Beatles-相符的網頁

搜尋:“Britney OR -Madonna Beatles”
結果:找不到和您的查詢-Britney OR -Madonna Beatles -相符的網頁

可見,“或”操作的前後兩個關鍵字必須是預設的“與”查詢,否則,搜尋引擎將無法完
成搜尋。 

6.5、用“+”和“-”減少冗餘資訊

通常情況下,用一個關鍵字查詢,會得到很多和查詢目的不相關的冗餘資訊。我們總是希
望,搜尋結果的第一個條目中就包含所需要的資訊。“+”和“-”很多時候就起到縮小搜
索結果的範圍,以提高查詢結果命中率。

例:查閱天龍八部具體是哪八部。

分析:如果光用“天龍八部”做關鍵字,搜尋結果有20,300項,而且排前列的主要與金庸
的小說《天龍八部》相關,很難找到所需要的資訊。可以用兩個方法減少無關結果。

(1)、如果你知道八部中的某一部,比如阿修羅,增加“阿修羅”關鍵字。“天龍八部 阿
修羅”的搜尋結果就只有1,050項,可以很快找到全部八部。

(2)、如果你不知道八部中的任何一部,但知道這與佛教相關,可以排除與金庸小說相關的
記錄。“天龍八部 佛教 -金庸”的查詢結果為1,120項,可以迅速找到需要的資料。


wqd428(C)emuch.net(2004-08-26 21:49): 

Google搜尋從入門到精通 v4.0 (二)

7、輔助搜尋

7.1、萬用字元問題

很多搜尋引擎支援萬用字元號,如“*”代表一連串字元,“?”代表單個字元等。GOOGLE不
支援萬用字元,只能做精確查詢,關鍵字中的“*”或者“?”會被忽略掉。

7.2、關鍵字的字母大小寫

GOOGLE對英文字元大小寫不敏感,“GOD”和“god”搜尋的結果是一樣的。

7.3、搜尋整個句子

GOOGLE的關鍵字可以是片語(中間沒有空格),也可以是句子(中間有空格),但是,用
句子做關鍵字,必須加英文引號。

示例:搜尋包含“long, long ago”字串的頁面。
搜尋:“"long long ago"”
結果:已搜尋有關long long ago的中文(簡體)網頁。 共約有16,500項查詢結果,這是第
1-10項 。 搜尋用時 0.06秒。

7.4、搜尋引擎忽略的字元和詞彙

GOOGLE對一些網路上出現頻率極高的英文單詞,如“i”、“com”、“www”等,以及一些
符號如“*”、“.”等,作忽略處理。

示例:搜尋關於第一次世界大戰的資訊
搜尋:“"worldwar i"”
結果:"i"使用過於頻繁,沒有被列入搜尋範圍。已向英特網搜尋"worldwar i". 共約有7
,370項查詢結果,這是第1-10項 。 搜尋用時0.17秒。 

7.5、強制搜尋

如果要對忽略的關鍵字進行強制搜尋,則需要在該關鍵字前加上明文的“+”號。

示例:搜尋包含“Who am I ?”的網頁。如果用“"who am i ?"”,“Who”、“I”、“
?”會被省略掉,搜尋將只用“am”作關鍵字,所以應該用強制搜尋。
搜尋:“"+who +am +i"”
結果:已向英特網搜尋"+who +am +i". 共約有332,000項查詢結果,這是第1-10項 。 搜
索用時3.68秒。 

注意:大部分常用英文符號(如問號,句號,逗號等)無法成為搜尋關鍵字,加強制也不
行。

8、進階搜尋

上面已經探討了GOOGLE的一些最基礎搜尋語法。通常而言,這些簡單的搜尋語法已經能解
決絕大部分問題了。不過,如果想更迅速更貼切找到需要的資訊,你還需要了解更多的東
西。 

8.1、對搜尋的網站進行限制

“site”表示搜尋結果侷限於某個具體網站或者網站頻道,如“sina.com.cn”、“edu.s
ina.com.cn”,或者是某個域名,如“com.cn”、“com”等等。如果是要排除某網站或者
域名範圍內的頁面,只需用“-網站/域名”。

示例:搜尋中文教育科研網站(edu.cn)上所有包含“金庸”的頁面。
搜尋:“金庸 site:edu.cn”
結果:已搜尋有關金庸 site:edu.cn的中文(簡體)網頁。 共約有1,730項查詢結果,這是
第1-10項 。 搜尋用時 0.23秒。

示例:搜尋包含“金庸”和“古龍”的中文新浪網站頁面,
搜尋:“金庸 古龍 site:sina.com.cn”
結果:已在sina.com.cn搜尋有關金庸 古龍 的中文(簡體)網頁。 共約有734項查詢結果,
這是第1-10項 。 搜尋用時0.12秒。 

示例:搜尋新浪文教頻道中關於魯迅的資訊。
搜尋:“魯迅 site:edu.sina.com.cn”
結果:已在edu.sina.com.cn搜尋有關 魯迅的中文(簡體)網頁。 共約有672項查詢結果,
這是第1-10項 。 搜尋用時0.24秒。 

注意:site後的冒號為英文字元,而且,冒號後不能有空格,否則,“site:”將被作為一
個搜尋的關鍵字。此外,網站域名不能有“http”以及“www”字首,也不能有任何“/”
的目錄字尾;網站頻道則只侷限於“頻道名.域名”方式,而不能是“域名/頻道名”方式
。諸如“金庸 site:edu.sina.com.cn/1/”的語法是錯誤的。

8.2、查詢某一類檔案(往往帶有同一副檔名)

“filetype:”,這是個尚在測試階段的GOOGLE特色查詢,不過功能已經非常強大,可以做
很多意想不到的事情哦。

最重要的文件搜尋是PDF搜尋。PDF是ADOBE公司開發的電子文件格式,現在已經成為網際網路
的電子化出版標準。目前GOOGLE檢索的PDF文件大約有2500萬左右。PDF文件通常是一些圖
文並茂的綜合性文件,提供的資訊一般比較集中全面。

示例:搜尋關於電子商務(ECOMMERCE)的PDF文件。
搜尋:“ecommerce filetype:pdf”
結果:已向英特網搜尋ecommerce filetype:pdf. 共約有25,500項查詢結果,這是第91-1
00項 。 搜尋用時 0.44秒。 

下面是某項搜尋結果:

[PDF] www.ecommerce.gov/apec
文件型別: PDF/Adobe Acrobat - 一般文字檔
Page 1. A Partnership of the Business Community With APEC Economies E-COMMERCE

READINESS ASSESSMENT GUIDE www.ecommerce.gov/apec Page 2. ... 
www.ecommerce.gov/apec/docs/read ... adiness_guide_5.pdf - 類似網頁

可以看到,GOOGLE在PDF檔前加上了[PDF]的標記,而且,GOOGLE把PDF檔案轉換成了文字檔
,點選“一般文字檔”,可以粗略的檢視該PDF文件的大致內容。當然,PDF原有的圖片以
及格式是沒有了。

搜尋PDF文件還可以用“inurl:”語法。比如上例,也可以用“inurl:pdf ecommerce”。
搜尋結果數量大致相同,不過查詢結果順序則略有很大差別。

注意,上述查詢均是對PDF內文的檢索,“ecommerce”這個關鍵字是包含在PDF文件中的。


“filetype”的另一個強大用處則在圖片搜尋。下文將對GOOGLE的圖片搜尋功能作詳細說
明,此處只是略提一下。進入“http://images.< wind_code_5 >.com/”,查詢關於本拉
登的JPG圖片。

搜尋:“Bin Laden filetype:jpg”
結果:搜尋有關 Bin Laden filetype:jpg 的圖片()。(試驗版) 共約有1,630項查詢
結果,這是第1-20項 。 搜尋用時0.14秒。 

除此之外,我尚未發現其他的filetype用法。如果有誰知道,請給我發郵件。預先感謝。


8.3、搜尋的關鍵字包含在URL連結中

“inurl”語法返回的網頁連結中包含第一個關鍵字,後面的關鍵字則出現在連結中或者網
頁文件中。有很多網站把某一類具有相同屬性的資源名稱顯示在目錄名稱或者網頁名稱中
,比如“MP3”、“GALLARY”等,於是,就可以用INURL語法找到這些相關資源連結,然後
,用第二個關鍵詞確定是否有某項具體資料。INURL語法和基本搜尋語法的最大區別在於,
前者通常能提供非常精確的專題資料。

示例:查詢MIDI曲“滄海一聲笑”。
搜尋:“inurl:midi 滄海一聲笑”
結果:已搜尋有關inurl:midi 滄海一聲笑的中文(簡體)網頁。 共約有16項查詢結果,這
是第1-10項 。 搜尋用時0.16秒。 

示例:查詢微軟網站上關於windows2000的安全課題資料。
搜尋:“inurl:security windows2000 site:microsoft.com”
結果:已在microsoft.com內搜尋有關inurl:security windows2000 的網頁。 共約有188
項查詢結果,這是第1-10項 。 搜尋用時0.27秒。

注意:“inurl:”後面不能有空格,GOOGLE也不對URL符號如“/”進行搜尋。例如,GOOG
LE會把“cgi-bin/phf”中的“/”當成空格處理。

“allinurl”語法返回的網頁的連結中包含所有作用關鍵字。這個查詢的關鍵字只集中於
網頁的連結字串。

示例:查詢可能具有PHF安全漏洞的公司網站。通常這些網站的CGI-BIN目錄中含有PHF指令碼
程式(這個指令碼是不安全的),表現在連結中就是“域名/cgi-bin/phf”。
語法:“allinurl:"cgi-bin" phf +com”
搜尋:已向英特網搜尋allinurl:"cgi-bin" phf +com. 共約有37項查詢結果,這是第1-1
0項 。 搜尋用時0.36秒。 

8.4、搜尋的關鍵字包含在網頁標題中

“intitle”和“allintitle”的用法類似於上面的inurl和allinurl,只是後者對URL進行
查詢,而前者對網頁的標題欄進行查詢。網頁標題,就是HTML標記語言title中之間的部分
。網頁設計的一個原則就是要把主頁的關鍵內容用簡潔的語言表示在網頁標題中。因此,
只查詢標題欄,通常也可以找到高相關率的專題頁面。

示例:查詢日本明星藤原紀香的照片集。
搜尋:“intitle:藤原紀香 寫真”
結果:已搜尋有關intitle:藤原紀香 寫真的中文(簡體)網頁。 共約有465項查詢結果,這
是第1-10項 。 搜尋用時0.16秒。