spark 將DataFrame所有的列型別改為double

阿新 • • 發佈：2019-02-19

前言

由於spark機器學習要求輸入的DataFrame型別為數值型別，所以如果原始資料讀進來的列為string型別，需要一一轉化，而如果列很多的情況下一個轉化很麻煩，所以能不能一個迴圈或者一個函式去解決呢。

1、單列轉化方法

import org.apache.spark.sql.types._
val data = Array(("1", "2", "3", "4", "5"), ("6", "7", "8", "9", "10"))
val df = spark.createDataFrame(data).toDF("col1", "col2", "col3", "col4" 
, "col5")

import org.apache.spark.sql.functions._
df.select(col("col1").cast(DoubleType)).show()

+----+
|col1|
+----+
| 1.0|
| 6.0|
+----+

2、迴圈轉變

然後就想能不能用這個方法迴圈把每一列轉成double，但沒想到怎麼實現，可以用withColumn迴圈實現。

val colNames = df.columns

var df1 = df
for (colName <- colNames) {
  df1 = df1.withColumn(colName, col(colName).cast(DoubleType))
}
df1.show()

+----+----+----+----+----+
|col1|col2|col3|col4|col5|
+----+----+----+----+----+
| 1.0| 2.0| 3.0| 4.0| 5.0|
| 6.0| 7.0| 8.0| 9.0|10.0|
+----+----+----+----+----+

3、通過:_*

但是上面這個方法效率比較低，然後問了一下別人，發現scala 有array:_*這樣傳參這種語法，而df的select方法也支援這樣傳，於是最終可以按下面的這樣寫

val cols = colNames.map(f => col(f).cast(DoubleType))
df.select(cols: _*).show()

+----+----+----+----+----+
|col1|col2|col3|col4|col5|
+----+----+----+----+----+
| 1.0| 2.0| 3.0| 4.0| 5.0|
| 6.0| 7.0| 8.0| 9.0|10.0|
+----+----+----+----+----+

這樣就可以很方便的查詢指定多列和轉變指定列的型別了：

val name = "col1,col3,col5"
df.select(name.split(",").map(name => col(name)): _*).show()
df.select(name.split(",").map(name => col(name).cast(DoubleType)): _*).show()

+----+----+----+
|col1|col3|col5|
+----+----+----+
|   1|   3|   5|
|   6|   8|  10|
+----+----+----+

+----+----+----+
|col1|col3|col5|
+----+----+----+
| 1.0| 3.0| 5.0|
| 6.0| 8.0|10.0|
+----+----+----+

附完整程式碼：

package com.dkl.leanring.spark.test

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.types._
import org.apache.spark.sql.DataFrame
object DfDemo {

  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().appName("DfDemo").master("local").getOrCreate()
    import org.apache.spark.sql.types._
    val data = Array(("1", "2", "3", "4", "5"), ("6", "7", "8", "9", "10"))
    val df = spark.createDataFrame(data).toDF("col1", "col2", "col3", "col4", "col5")

    import org.apache.spark.sql.functions._
    df.select(col("col1").cast(DoubleType)).show()

    val colNames = df.columns

    var df1 = df
    for (colName <- colNames) {
      df1 = df1.withColumn(colName, col(colName).cast(DoubleType))
    }
    df1.show()

    val cols = colNames.map(f => col(f).cast(DoubleType))
    df.select(cols: _*).show()
    val name = "col1,col3,col5"
    df.select(name.split(",").map(name => col(name)): _*).show()
    df.select(name.split(",").map(name => col(name).cast(DoubleType)): _*).show()

  }

Spark將DataFrame所有的列型別改為double

前言由於spark機器學習要求輸入的DataFrame型別為數值型別，所以如果原始資料讀進來的列為string型別，需要一一轉化，而如果列很多的情況下一個轉化很麻煩，所以能不能一個迴圈或者一個函式去解決呢。 1. 單列轉化方法 import org.apa

spark 將DataFrame所有的列型別改為double

前言由於spark機器學習要求輸入的DataFrame型別為數值型別，所以如果原始資料讀進來的列為string型別，需要一一轉化，而如果列很多的情況下一個轉化很麻煩，所以能不能一個迴圈或者一個函式去解決呢。 1、單列轉化方法 import o

Oracle 將普通欄位型別改為Clob型別的方法

第一步：新增一個clob型別的欄位 alter table nlphistory_pat add (answer_bak clob); 第二部：將原來欄位的值拷貝到新建的clob欄位 update nl

excel將列序號改為數字

Excel怎麼將ABC字母表示的列號改成數字列號？我們知道，excel中行號是數字，但是列號確實大寫的ABC字母表示的，該怎麼才能把將ABC字母表示的列號改成數字列號呢？下面我們一起來看看吧在使用Excel的過程中，我們往往需要將字母列轉化為數字列，或者數字列轉化為字母列，那應該怎麼轉呢，今天小編將方法

postgresql將表中的欄位由varchar型別改為int型別

因業務需要，遂將表中sort_num欄位從varchar型別改為int型別，但是在修改中卻發現瞭如下問題：錯誤: 欄位 “sort_num” 不能自動轉換成型別 integer HINT:

CentOS 7將網卡名稱eno16777736改為eth0

OS 執行命令 name div sco net grub2 編輯 sys 　　編輯文件/etc/sysconfig/grub 　　在尾部添加 net.ifnames=0 biosdevname=0 　　執行命令 grub2-mkconfig -o /boot/g

Excel中靈活運用運算（乘）快速將文本格式批量改為數字格式

都是 fff oss blog ado 解決 ext term 數據類型我們在使用excel過程中，在導入數據的時候，很多數據都是以文本形式存在的，可能不方便參與計算或設置數據類型，此時可以靈活運用excel運算（乘）快速將文本格式改為數字格式。【常見問題】如何把一列文本

Spark:將DataFrame寫入Mysql

normal avi sqlt getc height serve saveas ecif access Spark將DataFrame進行一些列處理後，需要將之寫入mysql，下面是實現過程 1.mysql的信息 mysql的信息我保存在了外部的配置文件，這樣方便後續的配

將tomcat的載入目錄改為非webapps的其他專案

直接修改conf\server.xml檔案 host下面增加 <Context path="/Test1" docBase="E:\dev\work\Test" debug="0" reloadable="true" crossContext="true"></Cont

linux系統如何將系統中的檔名改為英文？

由於我們經常在命令列模式下進入檔案，那麼中英文的切換常常會影響我們輸入的效率。那麼如何將原來的中文修改成英文的字幕呢？如下圖所示： -------------------------------------------------------------------------

【Ubuntu】將root許可權的檔案改為使用者許可權

大家在使用ubuntu的時候有沒有遇到下面的情況比如我用VSCode寫html儲存的時候會提示我許可權的問題，讓我用更高的許可權來儲存這個檔案，遇到這個問題的主要原因其實就是因為當前資料夾的許可權為root許可權。而VSCode執行使用的是使用者許可權。要解決這個問題我們可以對vscode

Java將一個基本資料型別轉換為String的方法及效率比較

把一個基本資料型別轉為字串型別，有三種方法。假設a是integer型別的資料方法1：a.toString(); 方法2：String.valueOf(a); 方法3：a+""; 效率比較：方法1效率最快、其次到方法2、最後才是方法3；原因： 1.a

java編碼ABC（一）將cmd視窗報錯改為英文

windows的命令列cmd編譯java檔案報錯是中文，如何切換為英文。當然目的是訓練閱讀英文報錯的能力。因為中文報錯的柺杖絕對會妨礙以後的發展。解決辦法1：在命令列下，進入當前環境的jdk安裝目錄的bin目錄下輸入命令： javac -J-Duser.langua

自留：Osm地圖osmdroid下載離線地圖，並將下載的地圖型別轉換為圖片（.png/.jpg）

需要自定義Writer實現IFilesystemCache public class ImgTileWriter implements IFilesystemCache { private String dir; public ImgTileWriter(St

將一個遞迴演算法改為對應的非遞迴演算法時，通常需要使用（）---騰訊2014研發筆試卷

將一個遞迴演算法改為對應的非遞迴演算法時，通常需要使用（）。正確答案: D 你的答案: B (錯誤) 優先佇列佇列迴圈佇列棧新增筆記收藏糾錯

將eclipse的顯示語言改為英文（有時安裝的外掛顯示為中文的）

有時在安裝eclipse外掛時，外掛會自動的國際化為中文，感覺與eclipse整體顯示為中文不協調，看著很彆扭，怎樣將外掛的顯示語言改為中文呢？只需要將eclipse解壓目錄下的eclipse.ini檔案中加入下面一句話就可以了（注意這句話應該單

將txt的編碼格式改為utf-8

今天我做了一個專案叫TeachWeb 8，要把“實驗大綱.doc”裡文字“I love C/C++程式設計！”複製到“login.jsp”中，發現字元程式設計錯誤。解決辦法： (1)設定字符集：page contentType="text/html; charset=GB

spark 將dataframe資料寫入Hive分割槽表

從spark1.2 到spark1.3，spark SQL中的SchemaRDD變為了DataFrame，DataFrame相對於SchemaRDD有了較大改變，同時提供了更多好用且方便的API。 DataFrame將資料寫入hive中時，預設的是hive預設資料庫，in

win10 檔案檢視中如何讓所有列自動調整為合適大小

在以詳細資訊檢視顯示時，因檔名顯示不全，每次都要手動點選"將所有列自動調整為合適寬度"。可以在“檔案資源管理器”中重新設定一下列寬度：1.“檔案資源管理器”檔案欄右擊，選擇“其他”；2.設定名稱列的寬度為固定值300；3.“檔案資源管理器”選項設定，“檢視”選項卡中將當前設定

jsp將頁面的響應方式改為excel

生成excel 方法  <% response.setContentType("application/vnd.ms-excel"); response.addHeader("Content-D

spark 將DataFrame所有的列型別改為double

前言

1、單列轉化方法

2、迴圈轉變

3、通過:_*

相關推薦