1. 程式人生 > >停用詞stopWord

停用詞stopWord

先看維基百科的解釋:

In computingstop words are words which are filtered out prior to, or after, processing of natural language data (text).There is not one definite list of stop words which all tools use and such a filter is not always used. Some tools specifically avoid removing them to support phrase search

.

Any group of words can be chosen as the stop words for a given purpose. For some search machines, these are some of the most common, short function words, such as theisatwhich, and on. In this case, stop words can cause problems when searching for phrases that include them, particularly in names such as '

The Who', 'The The', or 'Take That'. Other search engines remove some of the most common words—including lexical words, such as "want"—from a query in order to improve performance.

由於一些常用字或者詞使用的頻率相當的高,英語中比如a,the, he等,中文中比如:我、它、個等,每個頁面幾乎都包含了這些詞彙,如果搜尋引擎它們當關鍵字進行索引,那麼所有的網站都會被索引,而且沒有區分度,所以一般把這些詞直接去掉,不可當做關鍵詞。

G .W. H a r t 在研究中發現, 在典型英文段落中所有詞的 50% 可以包含在一個具有 135 個詞的普通詞表中, Van Rijsbergen 認 為 這 些 詞 應 被 視 為 噪 聲,並且應當在文字分析的預處理中去除。目前,已經有了一些公開發表的英文停用詞表, 其中比較著 名 的 是 Van Rijsbergen 發 表 的 停 用 詞 表 以 及Brown Corpus 停用詞表。如果對停用詞按照其出現的文字頻數降序排序,用前 10 個停用詞削減特徵向量空間, 不會產生負面影響; 用前 100個停用詞削減特徵向量空間, 所產生的負面影響非常小。 Catarina Silva 驗證了應用停用詞表削減特徵空間, 對提高基於支援向量機的文字分類器準確率所產生的積 極作用。停止詞對SEO的意義不是越多越好,而是儘量的減少為宜

停用詞表連結:http://www.ranks.nl/stopwords,裡面有很多語言的停用詞表。