1. 程式人生 > >關於mapreduce解析xml的方法

關於mapreduce解析xml的方法

mapreduce的TextInputFormat很方便的處理行行的文字,但遇到xml的時候就很糾結了,曾經採用</property>分隔資料重寫FileInputFormat(網上有資料),可以解決此問題,但會獲取很多噪音資料。
後來想到以起始<property>結束</property>來獲取資料,重寫FileInputFormat沒有這個技術能力,呵呵。
後來一直找資料,看了一篇http://www.linezing.com/blog/?p=489,可以藉助mahout工程的XmlInputFormat.java很方便的解決問題。

根據mahout的版本有適宜hadoop0.20以前版本的XmlInputFormat,新版本適宜0.20以後的版本。從官網上下mahout包原始碼即可。

相關推薦

關於mapreduce解析xml方法

mapreduce的TextInputFormat很方便的處理行行的文字,但遇到xml的時候就很糾結了,曾經採用</property>分隔資料重寫FileInputFormat(網上有資料)

java解析xml方法詳解

首言 java中解析xml檔案有四種方式,分別是DOM、SAX、JDOM、DOM4J,這四種前兩種是系統自帶的,後兩種需要匯入jar包,其中先要對xml檔案有一個基本的瞭解。xml檔案是為了不同程式,不同平臺之間資料傳輸,不同資料平臺的資料共享的作用。是以樹形結構的儲存的。

Java之DOM,SAX,JDOM,DOM4J,四種解析xml方法比較

4種解析方式的比較 1.DOM解析   優點:a.形成了樹結構,直觀好理解,程式碼更易編寫         b.解析過程中樹結構保留在記憶體中,方便修改缺點:        a.當xml檔案較大時,對記憶體耗費比較大,容易影響解析效能並且造成記憶體溢位 2.SAX解析優點:

Java解析xml方法

    public Map<String,String> decodeXml(String content) {         try {           &nb

解析xml的4種方法詳解(轉)

項目 目標 源碼 更多 news 大量 優秀 大型 頻繁 http://blog.csdn.net/jzhf2012/article/details/8532873 1. 介紹 1)DOM(JAXP Crimson解析器) DOM是用與平臺和語言無關的方式表

Dom方法解析XML文件

content clas style 對象 物理文件 數據源 class 讀取 輸出 Dom方法,解析XML文件的基本操作 1 package com.demo.xml.jaxp; 2 3 import java.io.IOException; 4 5 im

對DOM,SAX,JDOM,DOM4J四種方法解析XML文件的分析

文件加載 四種方法 結束 要求 每次 xml文件 基於 擴展方法 四種 ---恢復內容開始--- 1、DOM   與平臺無關的官方解析方式   DOM是一次性把xml文件加載到內存中,形成一個節點樹   對內存有要求 2、SAX   java提供的基於事件驅動的解

解析XML文檔大致流程以及相關方法

數據 attribute 使用 中間 ttext 獲取 doc name 每一個 ---恢復內容開始--- 使用dom解析XML文檔的大致流程(要導入dom4j)1:創建SAXReader2:使用SAXReader讀取xml文檔,並生成對應的Document對象,該對象保

解析xml字串方法

package xml; import java.io.IOException; import java.io.StringReader; import java.util.Iterator; import java.util.List; import javax.xml.parsers.Doc

詳解Java解析XML的四種方法(轉載)

出處:http://developer.51cto.com/art/200903/117512.htm XML現在已經成為一種通用的資料交換格式,它的平臺無關性,語言無關性,系統無關性,給資料整合與互動帶來了極大的方便。對於XML本身的語法知識與技術細節,需要閱讀相關的技術文獻,這裡

Java中使用DOM方法解析XML檔案

Java中使用DOM方法解析XML檔案 1、簡介 XML現在已經成為一種通用的資料交換格式,平臺的無關性使得很多場合都需要用到XML,本部落格將介紹用DOM方法解析XML檔案的方法,DOM解析是將XML檔案全部載入到記憶體,組裝成一顆DOM樹,然後通過節點以及節點之間的關係來解析XM

Java之DOM4J解析XML 實現 XML檔案資料的增刪改查方法

下面是我的Persons.xml檔案資料 <?xml version="1.0" encoding="utf-8"?> <persons> <person id="0"> <name>翠花</name>

Java解析XML檔案的常用方法介紹

1 import java.io.IOException; 2 3 import javax.xml.parsers.DocumentBuilder; 4 import javax.xml.parsers.DocumentBuilderFactory; 5 import javax.x

xml簡介和dom4j解析xml重要方法

1.xml(可擴充套件標記語言)的概述 與html的區別: xml: 描述資料,用於儲存和傳輸資料。標籤都是自定義的 html:顯示資料,標籤都是預定義的 注意事項: 文件宣告必須在第一行 只有一個根標籤 元素只能

用python 解析XML 的幾種常見方法的介紹

XML (Extensible markup Language) 指的是可擴充套件標記語言,被設計用來傳輸和儲存資料,已經日趨成為當前許多新技術的核心,在不同的領域都有著不同的應用,它是web 發展到一定階段的必然產物   python 解析XML 常見的有三種方法 一是 xml.

java生成解析xml的另外兩種方法JAXB

JAXB(Java Architecture for XML Binding) 是一個業界的標準,是一項可以根據XML Schema產生Java類的技術。該過程中,JAXB也提供了將XML例項文件反向生成Java物件樹的方法,並能將Java物件樹的內容重新寫到XML例項文件。從另一方面來講,JAXB提供了快速

javaScript解析XML時IE11瀏覽器不支援xmlDoc.load()方法

大家直接看原始碼和截圖吧!jsResolveXML.html<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>使用javascript解析xml&

Java解析XML的四種方法詳解

package com.alisoft.facepay.framework.bean;  import java.io.FileInputStream;  import java.io.FileNotFoundException;  import java.io.IOException;  import

java中解析xml檔案的五種常見方法:DOM4J,dom,pull,SAX,Jdom

package com.zhidi.dom4jtest; import java.io.File; import java.util.ArrayList; import java.util.Iterator; import java.util.List; import or

用axis2解析xml失敗的原因分析和解決方法

和同事之間調介面時遇到了如下的問題,同事用的LotusScript(wsdl檔案是由他那邊提供的),我用的是Java,我這邊通過axis2去解析該wsdl,但解析時報下面這樣的錯。 More than one part for message XMLMAINRequest