PyCharm+Eclipse共用Anaconda的數據科學環境

阿新 • • 發佈：2017-06-02

ctrl+ 程序 cache height from 環境 nac rip 指定

1.安裝anaconda2

　　安裝好之後，本地python環境就采用anaconda自帶的python2.7的環境。

2.安裝py4j

　　在本地ctrl+r打開控制臺後，直接使用pip安裝py4j，因為anaconda默認是安裝了pip的，當然也可以使用conda安裝。

　　安裝命令：pip install py4j

　　如果不安裝py4j可能出現的問題？

答：因為Spark的Python版本的API依賴於py4j，如果不安裝運行程序會拋出如下錯誤。

3.配置環境變量

　　配置PyCharm的環境變量主要配置兩個變量一個是SPARK_HOME，另外一個是PYTHONPATH。

（1）.先打開Run Configurations

(創建一個項目，項目或python文件的左上角有該選項) 　　技術分享

（2）.編輯Environment variables

或者按下面的方式展開

菜單：File-->Settings (圖來源於互聯網~這裏我用的是python2)

技術分享

（3）.在Environment variables下增加spark和python的環境

　　增加SPARK_HOME目錄與PYTHONPATH目錄。

　　- SPARK_HOME:Spark安裝目錄

　　- PYTHONPATH:Spark安裝目錄下的Python目錄

技術分享

4.復制pyspark的包

編寫Spark程序，復制pyspark的包，增加代碼顯示功能

為了讓我們在PyCharm編寫Spark程序時有代碼提示和補全功能，需要將Spark的pyspark導入到Python中。在Spark的程序中有Python的包，叫做pyspark

pyspark包

Python導入第三方的包也很容易，只需要把相應的模塊導入到指定的文件夾就可以了。
windows中將pyspark拷貝到Python的site-packages目錄下（這裏使用的是anaconda）

5.測試代碼

import sys
from operator import add

from pyspark import SparkContext

logFile = "D:\\BigData\\Workspace\\PycharmProjects\\MachineLearning1\\word.txt"
sc = SparkContext("local", "PythonWordCount")
logData = sc.textFile(logFile).cache()

numAs = logData.filter(lambda s: ‘a‘ in s).count()
numBs = logData.filter(lambda s: ‘b‘ in s).count()

print("Lines with a: %i, lines with b: %i" % (numAs, numBs))

PyCharm+Eclipse共用Anaconda的數據科學環境

ctrl+ 程序 cache height from 環境 nac rip 指定 1.安裝anaconda2 　　安裝好之後，本地python環境就采用anaconda自帶的python2.7的環境。 2.安裝py4j 　　在本地ctrl+r打開控制臺後，直接使用pi

幹貨 | 從菜鳥到老司機_數據科學的 17 個必用數據集推薦

產品整理每天人類標記 blog 影響 lan 零售業原文鏈接摘要： ◆ ◆ ◆ 菜鳥入門 1. Iris 數據集在模式識別文獻中，Iris 數據集恐怕是最通用也是最簡單的數據集了。要學習分類技術，Iris 數據集絕對是最方便的途徑。如果你之前從未接觸過數據科學

使用express， create-react-app， mongodb搭建react模擬數據開發環境

相對依賴 demon es6 技術分享利用卡頓 demo all 提要最近剛剛完成了一個vue的項目，其中涉及的用戶數有6000多個以及其他數據也比較多，為了在前端能夠真實的進行數據模擬，所有把全量數據拷貝下來放到了api.json中。這樣導致整個api.json文

數據科學中R VS Python：獲勝者是...

重要程序告訴 scrip 其余 line ipy 一點開發數據科學中R VS Python：獲勝者是… 在”最佳”數據科學工具的比賽中,R和Python都有自己的優缺點.對二者的選擇取決於使用背景,學習花費和其它經常使用工具的須要 Mart

數據科學研究過程案例

速度空間關於專業知識 mage 工業一個數整合做出導讀：在過去的幾個月裏，很多人要求我寫出一個數據科學項目端到端所需要做的工作，即從業務問題定義階段到建模階段及其最終部署。我仔細考慮過這個需求，而且認為這是有道理的。數據科學文獻充滿了關於具體算法或確定方法的

Spring整合Quartz定時任務在集群、分布式系統中的應用(Mysql數據庫環境)

foreign log ride bigint post 業務設置 ade 營業額 Spring整合Quartz定時任務在集群、分布式系統中的應用(Mysql數據庫環境) 轉載：http://www.cnblogs.com/jiafuwei/p/6145280.

PHP數據庫環境配置

utf password amp 剛才 l數據庫 div 分享圖片字符密碼修改 wamp環境 w是windows系統 a是Apache（服務器管理軟件） m是MySQL（數據庫） p是PHP wamp正常情況下是綠色的可以正常使用黃色

（數據科學學習手劄19）R中基本統計分析技巧總結

misc 總結 4.6 內部 red margin adjust 條件置信區間在獲取數據，並且完成數據的清洗之後，首要的事就是對整個數據集進行探索性的研究，這個過程中會利用到各種描述性統計量和推斷性統計量來初探變量間和變量內部的基本關系，本篇筆者便基於R，對一些常用的數

（數據科學學習手劄20）主成分分析原理推導&Python自編函數實現

encoding 處理 enter png ces pen pos 資料 font 主成分分析（principal component analysis,簡稱PCA）是一種經典且簡單的機器學習算法，其主要目的是用較少的變量去解釋原來資料中的大部分變異，期望能將現有的眾多相關

黑客來勢洶洶，數據科學能拯救社交媒體嗎？

分享圖片避免聲明 ucs 權力 googl 目標防止至少　　不受約束的互聯網通常用於黑客惡意目的，而且往往是不準確的，難以追查的。對於社交媒體，尤其是Facebook在保護用戶隱私和阻止不法分子播種方面失敗了。近日Facebook創始人馬克紮克伯格表示將黑客目標鎖

（數據科學學習手劄32）Python中re模塊的詳細介紹

簡介 print 兩種 clas 就是 HERE 每次 str 通過一、簡介　　關於正則表達式，我在前一篇（數據科學學習手劄31）中已經做了詳細介紹，本篇將對Python中自帶模塊re的常用功能進行總結；　　re作為Python中專為正則表達式相關功能做出支持的模

python3 數據科學基礎

點擊科學選項平臺基礎 all 工作 ron 搜索第一章 1、Anaconda(最著名的python數據科學平臺) 下面小夥伴們咱們來初初識下Anaconda吧 What is Anaconda???? 回答： (1)、科學計算的平臺 (2)、有很多方便的包可供

數據倉庫之數據倉庫環境——讀書筆記

管理人不同的 mage 倉庫 http alt 物理數據集 .com 數據倉庫是一個面向主題的，集成的，非易失的，隨時間變化的用來支持管理人員決策的數據集合。數據倉庫環境中數據存在不同的細節層早期細節層當前細節層輕度綜合數據層高度綜合數據層數據倉庫只能一

sql查看數據庫環境及一些參數

student 文件大小 dbid processes 用戶表鏈接 config neu 實例名 sql查看數據庫環境及一些參數 select parent_obj from sysobjects where name=‘FK_Student_banjiID‘ --

（數據科學學習手劄39）RNN與LSTM基礎內容詳解

連續添加方式定義翻譯下一個 BE img 誤差一、簡介　　循環神經網絡（recurrent neural network，RNN），是一類專門用於處理序列數據（時間序列、文本語句、語音等）的神經網絡，尤其是可以處理可變長度的序列；在與傳統的時間序列分析進行比較

CentOS部署Django----安裝數據庫環境

更改服務報錯 password 查詢技術分享自己 detail django CentOS部署Django----安裝數據庫環境一、MySQL環境：　　此處安裝了MySQL-8.0.11版本，嘗嘗鮮~ 　　原本在網上搜了幾篇簡單的教程，不過安裝完之後，啟動服務器

sybase數據庫環境搭建教程

lang set 增加搭建密碼 local 數據解壓 glibc 本案例為centos6.5操作系統，sybase數據庫版本為15.7。安裝操作系統不做詳解裝完之後在root下配置IP，改為動態獲取，使其能鏈接網絡vi /etc/sysconfig/network-s

Python3數據科學入門與實戰

第7章 python 聚合數學 nac data- notebook 畫圖 das 第1章實驗環境的搭建 1-1 導學視頻 1-2 Anaconda和Jupyter notebook介紹 1-3 Anaconda在Mac上的安裝演示 1-4 Anacon

數據科學：待學習的內容

www. 查看 frame val ats tar 新的圖形 plot plt.subplots()：將 plt.figure 創建的畫板，分割成多個子圖（clos——列、rows——行）； plt.figure(figsize=(15,5))：創建一個圖形實例，俗稱話

2018年排名前20的數據科學Python庫

正是分析工具 ali 情況 nlp csdn 封裝 app 多個 Python 在解決數據科學任務和挑戰方面繼續處於領先地位。業已證明最有幫助的Python庫，我們選擇 20 多個庫，因為其中一些庫是相互替代的，可以解決相同的問題。因此，我們將它們放在同一個分組。核

PyCharm+Eclipse共用Anaconda的數據科學環境

1.安裝anaconda2

2.安裝py4j

3.配置環境變量

4.復制pyspark的包

5.測試代碼

相關推薦