1. 程式人生 > >nutch2.2.1 URLNormalizers 詳解

nutch2.2.1 URLNormalizers 詳解

Java程式碼  收藏程式碼
  1. org.apache.nutch.net.URLNormalizers   

url過濾封裝類,過濾器有3個實現類分別是:

Java程式碼  收藏程式碼
  1. //格式化url將url字元小寫轉換一次,Perl5正則解析URL FILE。  
  2. org.apache.nutch.net.urlnormalizer.basic.BasicURLNormalizer  
  3. //空方法,不執行任何解析,直接返回url,注:應該是預留介面  
  4. org.apache.nutch.net.urlnormalizer.pass.PassURLNormalizer  
  5. //根據配置檔案regex-urlfilter.txt中的網站爬取規則過濾URL,不符合規則的網站不予爬取
      
  6. org.apache.nutch.net.urlnormalizer.regex.RegexURLNormalizer  

 外掛包如下:

urlnormalizer-basic.jar

urlnormalizer-pass.jar

urlnormalizer-regex.jar

三個外掛包