Spark的機器學習演算法mlib的例子執行
Spark自帶了機器學習的演算法mlib,頁面網址 http://spark.incubator.apache.org/docs/latest/mllib-guide.html
但是執行的時候,遇到了很多問題,著實讓我頭疼了很久,不過最後還是解決了,下面說一下這兩個問題吧。
第一個demo執行到val model = SVMWithSGD.train(parsedData, numIterations)這一句的時候遇到了lzo的jar包。
我是這麼解決的,方法不是很好,我修改了spark-env.sh這個檔案,添加了SPARK_CLASSPATH=/usr/lib/spark/ext/hadoop-lzo-0.5.0.jar這句話就ok了
這種方式不是很好,比如我指定某個目錄的話,它是不認的,只能一個jar包一個jar包的指定,也可以學習下面的方法。
這次是遇到了jar包的問題,Spark搭配的是hadoop1.0.4,搭配hadoop2.2.0的時候就可能會出現這個問題,先放一下錯誤資訊,方便大家搜尋。
java.lang.NoSuchMethodError: org.apache.commons.io.IOUtils.closeQuietly
最後被我查出來是commons.io這個jar包引起的,但是Spark自己下的話,它也下了commons-io-2.1.jar這個jar包,但是它並沒有使用這個jar包,編譯過的Spark會把所需的jar包全部合併到一起,最後打成一個類似spark-assembly_2.9.3-0.8.1-incubating-hadoop2.2.0.jar的jar包。
這裡面就涉及到怎麼合併兩個jar包的問題了,我是這麼處理的,分別解壓兩個jar包,用commons-io-2.1.jar的解壓出來的目錄覆蓋spark-assembly_2.9.3-0.8.1-incubating-hadoop2.2.0.jar解壓出來的相應的目錄,然後在加壓出來的根目錄下使用下面的命令,重新打包。
jar -cvf spark-assembly_2.9.3-0.8.1-incubating-hadoop2.2.0.jar *;
替換掉原來的jar包就執行就正常了。