Spark學習筆記之一

阿新 • • 發佈：2018-11-17

問題1：winnutils 未配置

問題描述

程式執行的過程中，報Failed to locate the winutils binary in the hadoop binary path java.io.IOException: Could not locate executablenull\bin\winutils.exe in the Hadoop binaries.

問題解決 ¹

出錯的原因在於window本地無法獲取hadoop的配置。
解決方法：
去GitHub下載

問題2：shell輸出INFO日誌

問題描述

spark-submit 輸出日誌把INFO級別日誌資訊也輸出，造成輸出內容過多。

問題解決²

解決基本思路：

進入到spark目錄/conf資料夾下，此時有一個log4j.properties.template檔案，拷貝一份為log4j.properties，開啟；

將其中的 log4j.rootCategory=INFO, console中的INFO改為WARN或者ERROR，儲存。

完成！

問題3：將jupyter notebook作為pyspark的預設編輯器³

問題描述

安裝完spark後，通過pyspark開啟spark，預設是直接在cmd中，當然不如在jupyter notebook中開啟來得爽~

問題解決

只需要新增兩個環境變數：

新建系統變數PYSPARK_DRIVER_PYTHON，值設為 jupyter；
新建系統變數PYSPARK_DRIVER_PYTHON_OPTS，值設為 notebook。

好了，重啟電腦（不一定是必須的，可以在一個cmd中修改path，然後重新開啟一個cmd ，就可以重新整理環境變數~~），開啟cmd，輸入pyspark，就是以jupyter開啟的了~

注意，這時候，在jupyter中自動建立了SparkContext物件sc，不需要自己建立了~否則會報錯。

Spark學習筆記之一

目錄問題1：winnutils 未配置問題描述問題解決 [^footnote1] 問題2：shell輸出INFO日誌問題描述問題解決[^footnote2] 問題3：將jupyter

Spark學習筆記——文本處理技術

使用 ken ins main 最小 leg tran sparse rain 1.建立TF-IDF模型 import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.mllib.lin

Mybatis學習筆記之一——牛刀小試

ans ive man 配置 typealias 操作 acc esp 配置文件 1、Mybaits核心對象SqlSession的作用：　　（1）向SQL語句傳入參數；　　（2）執行SQl語句；　　（3）獲取執行SQL語句的結果；　　（4）事務的控制； 2

Hibernate單表映射學習筆記之一——hibernalnate開發環境配置

pass ransac over 構造方法參數會話 signed rate ets 　　1、什麽是ORM？　　Object/Relationship Mapping：對象/關系映射　　2、寫SQL語句不好之處：　　（1）不同數據庫使用的SQL語法不同（PL/

Spark學習筆記——泰坦尼克生還預測

cti build case model 學習筆記 classes gre dict path package kaggle import org.apache.spark.SparkContext import org.apache.spark.SparkConf i

CCNA學習筆記之一---VLAN實驗組網

網絡技術、交換機、vlan VLAN實驗用的是Cisco Packet Tracer模擬器做的實驗，實驗拓撲如下圖1、Switch1配置如下Switch>en 進入特權模式Switch#conf t

Linux運維學習筆記之一：運維的原則和學習方法

linux 運維筆記一直在用Linux，但從未系統學習過，從1月1日開始學習到7月16日結束，近七個月學習，讓自已對Linux有了新的認識，老男孩老師的課真的不錯，實戰性很強。由於只能中午和晚上10點以後才有時間，所以所有的實驗是在不同電腦上完成的，文中IP可能有點問題，但應該不會影響實驗。同時，為了保證

Spark學習筆記(一)

-s 環境從數據多個成了 lib one python ted 概念： Spark是加州大學伯克利分校AMP實驗室，開發的通用內存並行計算框架。支持用scala、java和Python等語言編寫應用程序。相較於Hdoop，往往有更好的運行效率。 Spark包括了Sp

Spark 學習筆記之 MONGODB SPARK CONNECTOR 插入性能測試

log font span 技術 strong mongos str server 學習 MONGODB SPARK CONNECTOR 測試數據量：測試結果： 116萬數據通過4個表的join，從SQL Server查出，耗時1分多。MongoSp

[dotnetCore2.0]學習筆記之一： ASP.NET Core 升級到2.0

玩耍後來 razor ons 引用 net ins install 查找需要升級： 1、SDK2.0 ，需要單獨安裝；https://www.microsoft.com/net/core#windowscmd 　　VS2017 不包含這個SDK；而這個SDK包含了run

Spark學習筆記3：鍵值對操作

對象常用 ava java 參數通過頁面 ascend 處理過程鍵值對RDD通常用來進行聚合計算，Spark為包含鍵值對類型的RDD提供了一些專有的操作。這些RDD被稱為pair RDD。pair RDD提供了並行操作各個鍵或跨節點重新進行數據分組的操作接口。 Sp

Spark學習筆記4：數據讀取與保存

讀取數據 chapter byte hadoop tar .lib 文件中 api sequence Spark對很多種文件格式的讀取和保存方式都很簡單。Spark會根據文件擴展名選擇對應的處理方式。 Spark支持的一些常見文件格式如下：　1、文本文件　　　使用文件

spark 學習筆記-spark2.2.0

submit -- org hdf doc kpi jdk profile apach master:192.168.11.2 s1:192.168.11.3 s2 :192.168.11.4 共三個節點第一步配置(三臺一樣) http://

Spark 學習筆記之 Standalone與Yarn啟動和運行時間測試

span ima 上傳運行 yarn erl 技術分享 word wordcount Standalone與Yarn啟動和運行時間測試：寫一個簡單的wordcount：打包上傳運行： Standalone啟動：運行時間：

人生苦短，我用Python---Python學習筆記之一

http style ... idt logs .py 程序員 tex 環境 Python基礎語法這一篇文章是寶寶自己寫的哦，哼，不經同意，不準轉載，略略略........ The first 寶寶用的版本是Python2.7，環境配置啥的，網上的教程

Spark 學習筆記之 Streaming Window

min .cn spa pan tex def rec mas clas Streaming Window: 上圖意思：每隔2秒統計前3秒的數據 slideDuration: 2 windowDuration: 3 例子: import org.apach

Spark學習筆記

function 調度 mas split each 架構 char ase 一個註意：問題：Failed:execution error: return code 1 from org.apache.hadoop.hive.ql.exec.DDL Task MetaE

Spark學習筆記--Spark在Windows下的環境搭建（轉）

最新版本 https ons console 步驟新版本用戶 ref sudo 一、JDK的安裝 1、1 下載JDK 　　首先需要安裝JDK，並且將環境變量配置好，如果已經安裝了的老司機可以忽略。JDK（全稱是JavaTM Platform Standard Editi

Spring Boot學習筆記之一：傳統maven項目與采用spring boot項目區別

bubuko xml文件分享 lda ring info 插件 eclips web 項目結構區別傳統的maven構建的項目結構如下：用maven構建的采用springboot項目結構如下：二者結構一致，區別如下：傳統項目如果需要打成war包，需要在WEB-IN

Spark學習筆記11面向物件程式設計

面向物件程式設計 11.1 object類 11.1.1定義一個簡單的類 11.1.2 field的getter與setter 定義類包含，定義類的field及方法。其格式如下 class ClassName{ // 其中類名首字母要大寫 private v

Spark學習筆記之一

目錄

問題1：winnutils 未配置

問題描述

問題解決 1

問題2：shell輸出INFO日誌

問題描述

問題解決2

問題3：將jupyter notebook作為pyspark的預設編輯器3

問題描述

問題解決

相關推薦

問題解決 ¹

問題解決²

問題3：將jupyter notebook作為pyspark的預設編輯器³