1. 程式人生 > 其它 >Spark的機器學習演算法mlib的例子執行

Spark的機器學習演算法mlib的例子執行

  Spark自帶了機器學習的演算法mlib,頁面網址 http://spark.incubator.apache.org/docs/latest/mllib-guide.html

  但是執行的時候,遇到了很多問題,著實讓我頭疼了很久,不過最後還是解決了,下面說一下這兩個問題吧。

  第一個demo執行到val model = SVMWithSGD.train(parsedData, numIterations)這一句的時候遇到了lzo的jar包。

  我是這麼解決的,方法不是很好,我修改了spark-env.sh這個檔案,添加了SPARK_CLASSPATH=/usr/lib/spark/ext/hadoop-lzo-0.5.0.jar這句話就ok了

  這種方式不是很好,比如我指定某個目錄的話,它是不認的,只能一個jar包一個jar包的指定,也可以學習下面的方法。

  這次是遇到了jar包的問題,Spark搭配的是hadoop1.0.4,搭配hadoop2.2.0的時候就可能會出現這個問題,先放一下錯誤資訊,方便大家搜尋。

java.lang.NoSuchMethodError: org.apache.commons.io.IOUtils.closeQuietly

  最後被我查出來是commons.io這個jar包引起的,但是Spark自己下的話,它也下了commons-io-2.1.jar這個jar包,但是它並沒有使用這個jar包,編譯過的Spark會把所需的jar包全部合併到一起,最後打成一個類似spark-assembly_2.9.3-0.8.1-incubating-hadoop2.2.0.jar的jar包。

  這裡面就涉及到怎麼合併兩個jar包的問題了,我是這麼處理的,分別解壓兩個jar包,用commons-io-2.1.jar的解壓出來的目錄覆蓋spark-assembly_2.9.3-0.8.1-incubating-hadoop2.2.0.jar解壓出來的相應的目錄,然後在加壓出來的根目錄下使用下面的命令,重新打包。

jar -cvf spark-assembly_2.9.3-0.8.1-incubating-hadoop2.2.0.jar *;

  替換掉原來的jar包就執行就正常了。