nutch2.3.1 updatejob時錯誤url導致崩潰
原因可能是錯誤的html解析出來的
在DbUpdateMapper.java的map時加個trycatch
55 @Override
56 public void map(String key, WebPage page, Context context)
57 throws IOException, InterruptedException {
58 if (Mark.GENERATE_MARK.checkMark(page) == null) {
59 if (LOG.isDebugEnabled()) {
60 LOG.debug ("Skipping " + TableUtil.unreverseUrl(key)
61 + "; not generated yet");
62 }
63 return;
64 }
65
66 String url = TableUtil.unreverseUrl(key);
67
68 scoreData.clear();
69 Map<CharSequence, CharSequence> outlinks = page.getOutlinks();
70 if (outlinks != null) {
71 for (Entry<CharSequence, CharSequence> e : outlinks.entrySet()) {
72 int depth = Integer.MAX_VALUE;
73 CharSequence depthUtf8 = page.getMarkers().get(DbUpdaterJob.DISTANCE);
74 if (depthUtf8 != null)
75 depth = Integer.parseInt(depthUtf8.toString());
// add here to filter error url
76 try {
77 String testUrl = TableUtil.reverseUrl(e.getKey().toString());
78 } catch (MalformedURLException ex) {
79 LOG.warn("dbupdate,error url:" + e.getKey().toString());
80 continue;
81 }
82 scoreData.add(new ScoreDatum(0.0f, e.getKey().toString(), e.getValue()
83 .toString(), depth));
84 }
85 }
86
87 // TODO: Outlink filtering (i.e. "only keep the first n outlinks")
88 try {
89 scoringFilters.distributeScoreToOutlinks(url, page, scoreData,
90 (outlinks == null ? 0 : outlinks.size()));
91 } catch (ScoringFilterException e) {
92 LOG.warn("Distributing score failed for URL: " + key + " exception:"
93 + StringUtils.stringifyException(e));
94 }
95
96 urlWithScore.setUrl(key);
97 urlWithScore.setScore(Float.MAX_VALUE);
98 pageWritable.setWebPage(page);
99 nutchWritable.set(pageWritable);
100 context.write(urlWithScore, nutchWritable);
101
102 for (ScoreDatum scoreDatum : scoreData) {
103 String reversedOut = TableUtil.reverseUrl(scoreDatum.getUrl());
104 scoreDatum.setUrl(url);
105 urlWithScore.setUrl(reversedOut);
106 urlWithScore.setScore(scoreDatum.getScore());
107 nutchWritable.set(scoreDatum);
108 context.write(urlWithScore, nutchWritable);
109 }
110 }
相關推薦
nutch2.3.1 updatejob時錯誤url導致崩潰
原因可能是錯誤的html解析出來的 在DbUpdateMapper.java的map時加個trycatch 55 @Override 56 public void map(String key, WebPage page, Context con
nutch2.3.1 scoring-opic 外掛url評分為0 問題
執行nutch程式,發現除了入口url等分為1以外,其餘的url得分都為0,問題如下圖紅圈所示。 首先在org.apache.nutch.scoring.opic.OPICScoringFilter類裡面打斷點定位問題,每次執行到下面紅圈處,程式就re
nutch2.3.1 構建solr6索引時meta_keywords longer than the max length 32766
解決辦法有3 1是在managed schema置meta_* 的index=false 2是在managed schema置meta_* 的type=任意一種class是solr.TextFiel
androidstudio2.3.1 ndk 編譯錯誤error: clang frontend command failed with exit code 70 (use -v to
問題描述 android ndk編譯公司舊程式碼時出現如下錯誤: clang.exe: error: clang frontend command failed with exit code 70 (use -v to see invocation) 原因分析&查詢
Nutch2.3.1在Linux上部署
1、下載Nutch2.3.1,使用Ant構造Eclipse工程 2、在Idea中匯入Nutch 3、配置nutch-default.xml檔案 <property> <name>plugin.folders</name> &
windows上Nutch2.3.1匯入Eclipse詳解
自己搞了大半天才配置好,所以記錄一下。 正文:環境配置:Eclipse:Mars(4.5.2) JDK1.7 Ivy:2.4.0 http://download.csdn.net/detail/xiaoyaoxiaozi007/9921665
Nutch2.3.1 hbase配置加使用。
ivy必須配合ant 安裝ant #yum -y install ant #mkdir /home/nutch-hbase #cd /home/nutch-hbase #tar zxvf apache-nutch-2.3.1-src.tar.gz #mv apache-nu
nutch2.3.1 SolrDeleteDuplicates.java 去重時空指標崩潰
修改原始碼如下: @Override public boolean nextKeyValue() throws IOException, InterruptedException
Nutch2.3.1版本選擇
1. Nutch主頁:http://nutch.apache.org/# 2. Nutch有1.X和2.X兩個版本 (1)1.X依賴於Hadoop,適合做分散式。目前最高版本為1.13 (2)2.X與1.X最關鍵的不同是引入了Gora,資料持久化不再侷限於某一種資料庫。目前
Nutch2.3.1原始碼開發環境搭建
原始碼下載 修改配置檔案 修改配置檔案conf/nutch-site.xml <!-- Put site-specific property overrides in this file. --> <config
整合Nutch2.3.1/Hadoop2.5.2/Hbase1.1.5/Solr4.10.4構建搜尋引擎:安裝及執行
第一次寫部落格,之前從來沒有寫過部落格因為不知道要寫什麼,這次寫部落格是因為自己在學習東西的時候遇見很多問題,國內的技術資料基本都是比較老的,要不就是nutch2.x整合hadoop1.x的,沒有找到整合hadoop2.x的,對hbase的整合度也很少,自己在學習的時候,
3-1長短時記憶神經網路(LSTM)--簡單程式碼實現
LSTM(Long Short-Term Memory)是長短期記憶網路,是一種時間遞迴神經網路,適合於處理和預測時間序列中間隔和延遲相對較長的重要事件。LSTM 已經在科技領域有了多種應用。基於LSTM的系統可以學習翻譯語言、控制機器人、影象分析、文件摘要、語音識別影象識別
ICP 3.1社群版貌似這幾天安裝出現helm的錯誤,導致catalog 及helm release的圖形介面功能無法使用。
ICP 3.1社群版貌似這幾天安裝出現helm的錯誤,導致catalog 及helm release的圖形介面功能無法使用。 只能看3.1.1是否有問題了。 TASK [Creating the install lock file] ***********
eclipse建立maven工程沒有src/main/resources資料夾和web.xml使用3.1的dtd時工程有錯誤的問題
1.有時候我們建立maven時會發現沒有src/main/resources檔案, 解決方法:右鍵工程———>>build path——>>選擇Source——>>Add Folder——>>勾選webapp——>&g
Dynamic Web Module 3.1 requires Java 1.7 or newer. 錯誤解決方案
pom.xml文件 artifact logs per group -s conf 你會 cti 在寫代碼的時候工程出現了這樣奇怪的bug很是蛋疼啊,經過查詢解決方法,終於解決了這些個問題。 下面是解決問題的方法,和大家分享一下 (1)確定你的java工程配置使用了java
關於python3.6.3 與python2.7.14使用for循環便利時遇到in range(變量)時錯誤
變量 span 發現 顯示 pri 3.6 obj inpu range 1. number = input("Enter a numbers: ")2. product = 13. for i in range(number):4. product = prod
Drupal V7.3.1 框架處理不當導致SQL註入
literal select getc 十分 req bar databases 網絡 inf 這個漏洞本是2014年時候被人發現的,本著學習的目的,我來做個詳細的分析。漏洞雖然很早了,新版的Drupal甚至已經改變了框架的組織方式。但是絲毫不影響對於漏洞的分析。這是一
exchange報452 4.3.1 Insufficient system resources錯誤
Insufficient system system resources 問題描述:exchange收不到郵件,報452 4.3.1 Insufficient system resources錯誤。解決辦法:但是磁盤空間並沒有滿,確認後是因為Exchenge Server 2010引入了一項新功能:B
hadoop 3.1.1 單機集群配置/啟動問題時的問題處理
mapr size iss specific onf keys property chm ctc 一.修改配置文件(hadoop目錄/etc/hadoop/配置文件) 1.修改hadoop-env.sh,指定JAVA_HOME 修改完畢後 2.修改core-site.x
Eclipse Maven 編譯錯誤 Dynamic Web Module 3.1 requires Java 1.7 or newer 解決方案
1.開啟這個檢視,kanyi看一下javaSE版本 2.還錯把這個搞上去 <build> <plugins> <plugin>