1. 程式人生 > >pyspark依賴第三方庫

pyspark依賴第三方庫

問題描述

想在叢集中使用第三方庫,不知道怎麼上傳相關的依賴關係。

參考辦法

開始找到相關解決方法主要有兩種:

  • 一是通過virtualenv為每個程式建立互不干擾的虛擬環境來執行;
  • 二是通過anaconda進行安裝包和環境的管理。
相關教程: 但是上面的教程解決的都是driver(master)的環境問題,並沒有解決worker(executer,slaver)的問題。而且對於實際情況,並不能保證打包環境和slave端的執行環境一致。

實際操作

情況介紹:伺服器A中安裝了需要依賴的package,伺服器B中有相關程式碼,且通過
sc.addPyPath(path_to_hdfs)
添加了路徑,但是執行後報錯,錯誤描述大概是找不到 dict.txt檔案,具體描述見
這裡
。 嘗試指定了dict路徑後依然出錯,後來將程式碼放到了伺服器A上就可以正常運行了,貌似PYSPARK_PYTHON就解決了問題?用zip的方式jieba需要pkg_resources來解決上述出現的那個錯誤~但伺服器B上也沒有pkg_resources

就醬。。。