Spark+Jupyter=線上文字資料處理邏輯測試平臺

阿新 • • 發佈：2018-12-25

前言

最近在學習Spark，除了原生的Scala以外，Spark還提供了一個pyspark支援Python。以前曾經搭過一個基於IPython notebook的線上程式碼執行平臺，其中用到的numpy，scipy，matplotlib，pandas等文字/資料處理庫讓我覺得如果能和pyspark結合說不定是個不錯的組合——可以直觀的測試程式碼邏輯，比起shell不知道要高到哪裡去了。

至於這個平臺，你可以搭載在樹莓派，阿里雲ecs，甚至是本機架設，方便快捷簡單易上手。

事實上對於這篇文章，你也可以單純把它看作是單機佈置偽分散式Spark的教程，因為前面步驟一樣一樣的。

前期準備

硬體：

Linux/Mac計算機 x1

Linux用Ubuntu作為示例，Mac預設有HomeBrew或者Macport

軟體：

Java環境，配置過JAVA_HOME
Python環境，預設為Python2

需聯網，沒有網路的請自行下載原始碼包並上傳至機器

下載

Spark:

前往Apache官網下載:
- hadoop2.6.0.tar.gz
- spark-1.6.1-bin-hadoop2.6.tar.gz
- scala-2.10.6.tar.gz

下載並統一使用

tar xvzf XXX.tar.gz

進行解壓，之後執行

$mv hadoop2.6.0 /usr/local/hadoop
$mv spark-1.6.1-bin-hadoop2.6 /usr/local/spark
$mv scala-2.10.6 /usr/lcoal/scala

將資料夾移動到/usr/local備用

IPython：

之前用的Ipython notebook已經獨立出來變成了jupyter，在這個步驟Python首先要安裝setuptools，之後執行

$easy_install pip virtualenv

Virtualenv是Python的一個沙盒環境，適合配置不同版本的庫來適配不同應用。
之後用Virtualenv建立一個IPython ENV

$cd /your/IPython/path/
$virtualenv ipython
$source ipython/bin/activate
(ipython)$

當前綴出現(ipython)的時候，說明這個env已經建立成功並正在使用中，如果需要退出就執行

(ipython)$cd ipython/bin && deactivate
$

之後在ipython環境中執行

(ipython)$pip install ipython jupyter numpy scipy pandas snownlp

安裝matplotlib庫則稍微麻煩些，需要先安裝其依賴的包libpng和freetype
安裝libpng:

$apt-get install libpng-dev

安裝freetype:

$cd ~/Downloads
$wget http://download.savannah.gnu.org/releases/freetype/freetype-2.4.10.tar.gz
$tar zxvf freetype-2.4.10.tar.gz
$cd freetype-2.4.10/
$./congfigure
$make
$make install

之後執行

pip install matplotlib

配置環境變數

在這一步，Ubuntu請執行

$vim ~/.bashrc

Mac執行

$vim ~/.bash_profile

在檔案末尾輸入:

export PATH="$PATH:/usr/local/share/scala/bin"
export HADOOP_INSTALL=/usr/local/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
export SPARK_HOME=/usr/local/spark
export PATH=$PATH:$SPARK_HOME/bin
export PYTHONPATH=$PYTHONPATH:$SPARK_HOME/python
export PYTHONPATH=$PYTHONPATH:$SPARK_HOME/python/lib/py4j-0.9-src.zip
IPYTHON_OPTS="notebook"$SPARK_HOME/bin/pyspark

:wq儲存退出之後可以開始進行最後一步的spark環境配置了

Spark配置：

說是Spark的配置其實是更像是Hadoop的配置，畢竟Spark預設配置就能執行。
首先進入Hadoop的配置資料夾

$cd /usr/local/hadoop/etc/hadoop
$ls

你可以看到以下幾個檔案
- core-site.xml
- yarn-site.xml
- mapred-site.xml
- hdfs-site.xml

別急一個一個來

vim core-site.xml

寫入

<property>
   <name>fs.default.name</name>
   <value>hdfs://localhost:9000</value>
</property>

vim yarn-site.xml

寫入

<property>
  <name>yarn.nodemanager.aux-services</name>
  <value>mapreduce_shuffle</value>
</property>
<property>
  <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
  <value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

如果沒有mapred-site.xml

$ mv mapred-site.xml.template mapred-site.xml && vim mapred-site.xml

寫入

<property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
</property>

vim hdfs-site.xml

寫入

<property>
   <name>dfs.replication</name>
   <value>1</value>
 </property>

呼，長噓一口氣
然後格式化一下namenode

$hdfs namenode -format

啟動hadoop服務

$start-all.sh

輸入數次密碼，如果不想每次都輸密碼就百度一下hadoop的ssh免密配置

$jps

看到如下

17785 SecondaryNameNode 
17436 NameNode 
17591 DataNode 
18096 NodeManager 
17952 ResourceManager 
23635 Jps

很好你成功啟動了hadoop，接下來進入spark資料夾

$cd $SPARK_HOME/sbin
$start-all.sh

輸入一次密碼之後檢視jps是否多了一個worker和一個master，不出意外的話你的spark應該是能運行了

啟動Jupyter

好累啊終於到了這一步了，進入ipython環境的前提下執行

(ipython)$jupyter notebook --generate-config
(ipython)$vim ~/.jupyter/jupyterA_notebook_config.py

寫入

c.NotebookApp.ip='*'
c.NotebookApp.open_browser = False
c.NotebookApp.port =8888

然後執行

jupyter notebook

在瀏覽器輸入http://ip_address:8888就能訪問辣！
然後就愉快的新建notebook開始敲程式碼叭！
oh yeah

Spark+Jupyter=線上文字資料處理邏輯測試平臺

前言最近在學習Spark，除了原生的Scala以外，Spark還提供了一個pyspark支援Python。以前曾經搭過一個基於IPython notebook的線上程式碼執行平臺，其中用到的numpy，scipy，matplotlib，pandas等文字/資

Mysql資料庫大文字資料處理

資料庫大文字資料處理目標：把 mp3檔案儲存到資料庫中！在my.ini中新增如下配置： max_allowed_packet=10485760 1　什麼是大文字資料所謂大文字資料，就是大的位元組資料，或大的字元資料。標準SQL中提供瞭如下型別來

Spark一些常用的資料處理方法-3.MLlib的模型（還沒寫完）

因為mllib屬於基礎庫，且本系列主要作為普及性文章，所以我不打算更新相關原理及其數學關係，有興趣自學的童鞋可以去網上翻，基本原理都是一樣的。 3.1 什麼叫模型我理解的模型，就是對現實業務的一種數字化抽象。它既可以是一套數學公式的各種引數組合，也可以

Spark一些常用的資料處理方法-1.RDD計算

在Spark實際應用中，會用到很多數值處理方法，我將一些比較常用的方法寫在這裡，供新手向的學習參考一下。 1.1 讀取檔案至RDD var rdd = sc.textFile("檔案路徑") var rddfromhdfs = sc.textFil

Spark一些常用的資料處理方法-2.MLlib基礎統計方法

SparkMLlib中會經常對RDD用到統計方法，其用法如下 2.1 基礎載入包 //向量 import org.apache.spark.mllib.linalg.Vector //向量集 import org.apache.spark.ml

Python文字資料處理

1、文字基本操作 text1 = 'Python is a widely used high-level programming language for general-purpose programming, created by Guido van Ro

Python 文字資料處理

1 基本特徵提取 import pandas as pd train=pd.read_csv(".../train_E6oV3lV.csv") print(train.head(10)) 1.1 詞彙數量我們可以簡單地呼叫split函式，將句子切

基於spark streaming的流資料處理和分析

Stream context 相當於spark context 做實時處理就得用到 setup之後如果close你需要重新建立一個，重啟是不行的詞頻統計，stream context ssc.start()執行之後，上面程式碼段才會執行

資料科學和人工智慧技術筆記五、文字預處理

五、文字預處理作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 詞袋 # 載入庫 import numpy as np from sklearn.feature_extraction.text import Coun

mongodb中文文字資料（新聞評論）預處理程式碼（python+java）

中文文字資料預處理 Mongodb資料匯出到txt文件將檔案按行寫入陣列文字批量修改（加字尾等） Mongodb資料匯出到txt文件 #python # coding=utf-8 from pymongo

大資料處理為何選擇Spark，而不是Hadoop

一.基礎知識1.SparkSpark是一個用來實現快速而通用的叢集計算的平臺。在速度方面，Spark擴充套件了廣泛使用的MapReduce計算模型，而且高效地支援更多計算模式，包括互動式查詢和流處理。Spark專案包含多個緊密整合的元件。Spark的核心是一個對由很多計算任務組成的、執行在多個工作機器或者是一

HTTP介面自動化經驗總結（三）Okhttp3 介面測試框架搭建之資料處理

上篇文章寫了怎麼新建POST，GET方法。這篇文章介紹下該如何校驗。因為我們在方法裡面都返回了String型別結果，String型別校驗起來比較麻煩。多數http介面返回的都是json形式。我們可以寫一個通用方法將String型別轉換為Map物件這樣校驗就比較方便準確了。廢話不多說直接上方法。

pandas 處理文字資料

import pandas as pd import numpy as np 常規的字串操作 s = pd.Series(['A',"B","C","AaBa","Baca",np.nan,'dog','cat']) s 0 A 1 B 2 C 3 AaB

spark 大資料搜狗測試資料SogouQ1.txt檔案格式問題說明

為了學習，從網上搞到了SogouQ1.txt,執行到rdd3.count()顯示了一堆亂碼懷疑編碼不對，使用em轉成utf-8ok了結果再執行rdd3.count()，又提示等等 Caused by: java.lang.NumberFormatException: F

Spark SQL大資料處理並寫入Elasticsearch

1 # coding: utf-8 2 import sys 3 import os 4 5 pre_current_dir = os.path.dirname(os.getcwd()) 6 sys.path.append(pre_current_dir) 7 from pyspark.sq

幾種簡單的文字資料預處理方法

　　將開頭和結尾的一些資訊去掉，使得開頭如下：　　One morning, when Gregor Samsa woke from troubled dreams, he found himself transformed in his bed into a horrib

Cassandra 和 Spark 資料處理一窺

　　Apache Cassandra 資料庫近來引起了很多的興趣，這主要源於現代雲端軟體對於可用性及效能方面的要求。　　那麼，Apache Cassandra 是什麼?它是一種為高可用性及線性可擴充套件性優化的分散式的聯機交易處理 (OLTP) 資料庫。具體說到 Cassandra 的用途時，可以想想

Hibernate處理Oracle大文字資料Clob

近日做了一個專案，頁面上有一個textarea框，資料量比較大，剛開始，沒考慮資料量超大的情況，pojo類中textarea框對應的欄位用string，XX.hbm.xml裡對應的欄位也用string，Oracle資料庫對應欄位用Clob，儲存完全沒問題。直到測試人員直接貼上

python手記（五）：requests寫爬蟲（二）：bs4處理文字資料

人生無趣且不易，一起找點樂子吧。歡迎評論，和文章無關的也可以。上篇介紹了requests的基本用法，最後我們獲得了網頁的原始碼，並將其存到了文字中：但是，我們需要的並不是全部的程式碼，我們需要的是文章的那一部分。其實requ

大資料求索(9): log4j + flume + kafka + spark streaming實時日誌流處理實戰

大資料求索(9): log4j + flume + kafka + spark streaming實時日誌流處理實戰一、實時流處理 1.1 實時計算跟實時系統類似（能在嚴格的時間限制內響應請求的系統），例如在股票交易中，市場資料瞬息萬變，決策通常需要秒級甚至毫秒級。通俗來

Spark+Jupyter=線上文字資料處理邏輯測試平臺

前言

前期準備

硬體：

Linux用Ubuntu作為示例，Mac預設有HomeBrew或者Macport

軟體：

需聯網，沒有網路的請自行下載原始碼包並上傳至機器

下載

Spark:

IPython：

配置環境變數

Spark配置：

啟動Jupyter

相關推薦