如何呼叫Spark中的資料標準化庫

阿新 • • 發佈：2018-11-10

在大資料的學習過程中，總有很多小夥伴遇到不知如何呼叫Spark中的資料標準庫，本文的核心這不是在於介紹「資料標準化」，也不是在於實現「Spark呼叫」，畢竟這些概念大家應該耳濡目染了，至於呼叫方法一搜一大堆。今天這個問題也是科多大資料的一名學員提出來的，估計有很多人也遇到類似的問題，一併分享在此，希望可以幫到大家。

首先，我們先看一下Spark要做「標準化」的輸入資料樣式。

// 原始資料

+---+-----------------+

| id| features |

+---+-----------------+

| 0 |[1.0,0.5,-1.0]|

| 1 | [2.0,1.0,1.0]|

| 2 |[4.0,10.0,2.0]|

+---+-----------------+

看到這，我就不想去用了，除了簡單的DataFrame賦值，正常情況下的業務特徵都是一張寬表，或者是其他特徵工程的組合形式。

那有人會無聊去把資料的儲存形式儲存為向量型的呢？雖然也可以這樣做，但是我覺得不太方便去回顧資料。

其次，在無奈之下，我在使用DataFrame和「標準化庫」時，做了一個簡單的優化，具體如下所示：

// 原始資料

Userid，Feature1，Feature2，Feature3

import sqlContext.implicits._

//需要進行資料標準化的特徵(除Userid外)有:

val value = behavData.map(_.split(",")).map(record =>

{

var featureArray:Array[Double] = new Array[Double](3)

val userid = record(0)

val feature = ( for(i <- 1 until 3 ) yield record(i).toDouble ).toArray

val featureVector = Vectors.dense(feature)

(userid,featureVector)

}

).toDF("userid","featureSet")

這樣的話，我就可以直接將「原始資料」轉化為Spark標準化庫所要求的樣式了。

// 轉化資料

Userid，[Feature1，Feature2，Feature3]

提醒一下，其他向量型別還不行，必須是import org.apache.spark.mllib.linalg.Vectors；

令人反感的「資料輸入」解決了一半，我們再著手「資料輸出」，儘量讓後期的建模工作順暢起來。

// 這是其中一種標準化方法的資料輸出。

+------+----------------------+-------------------------------------------------------------------+

| id | features | scaledFeatures |

+------+-----------------------+------------------------------------------------------------------+

| 0 | [1.0,0.5,-1.0] | [0.654653670707,0.09352195,-0.654653670] |

| 1 | [2.0,1.0,1.0] | [1.3093073414159544,0.18704390,0.65465] |

| 2 | [4.0,10.0,2.0] | [2.618614682831909,1.87043905,1.309307] |

+-----+-------------------------+-----------------------------------------------------------------+

可能是我真的看不習慣，要說這結果輸出的靈活性太差也不為過，所以我又做了一個簡單的優化。

//將DataFrame轉換成RDD再儲存於HDFS上

val resultRDD = inputValue.rdd.map(record =>

{

val ouputResult = new StringBuilder()

ouputResult.append(record(0).toString()).append(",")

//呼叫字串StrDealOne函式

StrDealOne(record(1).toString()).split(",").map(records =>

{

ouputResult.append(round(records.toDouble,4)).append(",")

}

)

//呼叫字串StrDealTwo函式

StrDealTwo(ouputResult.toString())

}

)

其中

/**

* 字串處理(替換特殊字元、去掉字串末尾一位)

def StrDealOne(InputValue:String):String = {

InputValue.replaceAll("\$","").replaceAll("\$","").replaceAll("\\[","").replaceAll("\\]","")

}

def StrDealTwo(InputValue:String):String = {

InputValue.substring(0, InputValue.toString().length()-1)

}

簡單來說，就是讓標準化後的資料恢復最初的Userid，Feature1，Feature2，Feature3格式，方便後期使用。

通過對資料「輸入」和「輸出」的簡單操作，我在後期想將數值型的特徵進行標準化時，就能很舒服去呼叫了。

通過以上的方法，就能輕鬆的呼叫Spark中的資料標準化庫了

如何呼叫Spark中的資料標準化庫

mongo-spark-讀取不同的庫資料和寫入不同的庫中

mongo-spark-讀取不同的庫資料和寫入不同的庫中 package com.example.app import com.mongodb.spark.config.{ReadConfig, WriteConfig} import com.mongodb.spark.sql._ object

sklearn機器學習庫中資料的標準化

本篇部落格主要借鑑的是http://www.cnblogs.com/chaosimple/p/4153167.html 這位大牛的部落格，最近在學習sklearn，寫演算法基本上都會用到標準化，資

Spark中ip對映資料應用庫，二分查詢省份，將結果寫入mysql

def main(args: Array[String]): Unit = { val conf = new SparkConf() .setMaster("local") .setAppName(IpLocation3.getClass.getName) val sc =

python資料分析中常用的庫

Python是資料處理常用工具，可以處理數量級從幾K至幾T不等的資料，具有較高的開發效率和可維護性，還具有較強的通用性和跨平臺性，這裡就為大家分享幾個不錯的資料分析工具,需要的朋友可以參考下 Python是資料處理常用工具，可以處理數量級從幾K至幾T不等的資料，具有較高的開發效率和可維

k8s叢集中 spark訪問hbase中資料

首先我們需要對hbase的訪問原理非常清除.可以參考:https://blog.csdn.net/luanpeng825485697/article/details/80319552 我們這裡已經在k8s中部署了hdfs和zookeeper以及hbase.部署可以參考: https:

VS2010 中編寫動態庫和呼叫動態庫

https://www.cnblogs.com/zhengfa-af/p/8108187.html https://blog.csdn.net/qq_22642239/article/details/80451299 VS2010 中編寫動態庫和呼叫動態庫百度查了一下在VS中編寫動態庫

將mysql資料庫中的單個庫的資料同步到redis資料庫中

實際程式碼只有一點，其他的為備忘 # -*- coding:utf-8 -*- import MySQLdb import redis class Config: def __init__(self): self.mysql_host = '192.168.44.60'

零基礎入門大資料之spark中rdd部分運算元詳解

先前文章介紹過一些spark相關知識，本文繼續補充一些細節。我們知道，spark中一個重要的資料結構是rdd，這是一種並行集合的資料格式，大多數操作都是圍繞著rdd來的，rdd裡面擁有眾多的方法可以呼叫從而實現各種各樣的功能，那麼通常情況下我們讀入的資料來源並非rdd格式的，如何轉

零基礎入門大資料之spark中的幾種key-value操作

今天記錄一下spark裡面的一些key-value對的相關運算元。 key-value對可以簡單理解為是一種認為構造的資料結構方式，比如一個字串"hello"，單看"hello"的話，它是一個字串型別，現在假設我想把它在一個文字中出現的次數n作為一個值和"hello"一起操作，那麼可

零基礎入門大資料探勘之spark中的幾種map

今天再來說一下spark裡面的幾種map方法。前面的文章介紹過單純的map，但是spark還有幾種map值得對比一下，主要是下面幾種： map：普通的map flatMap：在普通map的基礎上多了一個操作，扁平化操作； mapPartitions：相對於分割槽P

pandas 中DataFrame使用:資料標準化、資料分組、日期轉換、日期格式化、日期抽取

1資料標準化將資料按比例縮放，使之落入到特定區間，一般我們使用0-1標準化。公式如下： X∗=x−minmax−minX∗=x−minmax−min #導包 import pandas; from pandas import read_csv df=read_c

vue2中元件間傳遞資料時,在monted中呼叫method中的函式提示未定的解決方案

一、最近在使用vue2開發時需要在monted中接收兄弟元件傳遞的事件，然後執行method中的函式。這裡說依稀思路及當時遇到的問題。二、元件之間傳遞可以用$emit和$on來進行操作，具體如下：在A元件中寫一個事件（click，change...）在事

Spark中的資料本地性

分散式資料並行環境下，保持資料的本地性是非常重要的內容，事關分散式系統性能高下。概念： block ： HDFS的物理空間概念，固定大小，最小是64M，可以是128,256 。。也就是說單個檔案大於block的大小，肯定會被切分，被切分的數目大概是：比如檔案是250

大資料----Spark中的決策樹及 SVM 建模

#一、演算法解釋 ~~~~~~~使用決策樹二元分類分析StumbleUpon資料集，預測網頁是暫時性（Ephemeral）或是長青的（Evergreen）， ~~~~~~~並且調校引數找出最佳引數組合，提高預測準確度。決策樹的優點：條例清晰、方法簡單、易於理解、

如何在Spark中使用動態資料轉置

Dynamic Transpose是Spark中的一個關鍵轉換，因為它需要大量的迭代。本文將為您提供有關如何使用記憶體中運算子處理此複雜方案的清晰概念。首先，讓我們看看我們擁有的源資料： idoc_number，訂單ID，idoc_qualifier_org，idoc_org 7738

PyCharm中匯入資料分析庫

雖然安裝完Anaconda後，就可以直接使用資料分析庫進行程式碼編寫以及資料分析，但是有時候我還是習慣用PyCharm開發（畢竟有很多年的Android Studio 和IDEA的使用經驗），如何在PyCharm中匯入常用的資料分析庫呢？（1）開啟PyCharm，選擇左下角的Termina

Spark中元件Mllib的學習11之使用ALS對movieLens中一百萬條（1M）資料集進行訓練，並對輸入的新使用者資料進行電影推薦

1解釋 spark-1.5.2 資料集：http://grouplens.org/datasets/movielens/ 一百萬條（1M）資料劃分：將樣本評分表以key值切分成3個部分，分別用於訓練 (60%，並加入使用者評分), 校驗 (20

Spark中元件Mllib的學習25之線性迴歸2-較大資料集（多元）

對多組資料進行model的training,然後再利用model來predict具體的值。過程中有輸出model的權重公式：f(x)=a1X1+a2X2+a3X3+…… 2.程式碼：

Python中強大的庫，海量Excel資料都不怕

0. 前言從網頁爬下來的大量資料需要清洗？成堆的科學實驗資料需要匯入 Excel 進行分析？有成堆的表格等待統計？作為人生苦短的 Python 程式設計師，該如何優雅地操作 Excel？得益於前人的辛勤勞作，Python 處理

如何呼叫Spark中的資料標準化庫

相關推薦