nutch2.2.1 URLNormalizers 詳解
阿新 • • 發佈:2019-02-06
Java程式碼
- org.apache.nutch.net.URLNormalizers
url過濾封裝類,過濾器有3個實現類分別是:
Java程式碼- //格式化url將url字元小寫轉換一次,Perl5正則解析URL FILE。
- org.apache.nutch.net.urlnormalizer.basic.BasicURLNormalizer
- //空方法,不執行任何解析,直接返回url,注:應該是預留介面
- org.apache.nutch.net.urlnormalizer.pass.PassURLNormalizer
-
//根據配置檔案regex-urlfilter.txt中的網站爬取規則過濾URL,不符合規則的網站不予爬取
- org.apache.nutch.net.urlnormalizer.regex.RegexURLNormalizer
外掛包如下:
urlnormalizer-basic.jar
urlnormalizer-pass.jar
urlnormalizer-regex.jar
三個外掛包