pyspark給dataframe增加新的一列的實現示例

阿新 • • 發佈：2020-04-25

熟悉pandas的pythoner 應該知道給dataframe增加一列很容易，直接以字典形式指定就好了，pyspark中就不同了，摸索了一下，可以使用如下方式增加

from pyspark import SparkContext
from pyspark import SparkConf
from pypsark.sql import SparkSession
from pyspark.sql import functions

spark = SparkSession.builder.config(conf=SparkConf()).getOrCreate()

data =   [['Alice',19,'blue','["Alice","blue"]'],['Jane',20,'green','["Jane","green"]'],['Mary',21,'["Mary",]
frame = spark.createDataFrame(data,schema=["name","age","eye_color","detail"])

frame.cache()
frame.show()

+-----+---+---------+--------------------+
| name|age|eye_color| detail|
+-----+---+---------+--------------------+
|Alice| 19| blue|["Alice","bl...|
| Jane| 20| green|["Jane","gre...|
| Mary| 21| blue|["Mary","blue"]|
+-----+---+---------+--------------------+

1、增加常數項

frame2 = frame.withColumn("contant",functions.lit(10))
frame2.show()

+-----+---+---------+--------------------+-------+
| name|age|eye_color| detail|contant|
+-----+---+---------+--------------------+-------+
|Alice| 19| blue|["Alice","bl...| 10|
| Jane| 20| green|["Jane","gre...| 10|
| Mary| 21| blue|["Mary","blue"]| 10|
+-----+---+---------+--------------------+-------+

2、簡單根據某列進行計算

2.1 使用 withColumn

frame3_1 = frame.withColumn("name_length",functions.length(frame.name))
frame3_1.show()

+-----+---+---------+--------------------+-----------+
| name|age|eye_color| detail|name_length|
+-----+---+---------+--------------------+-----------+
|Alice| 19| blue|["Alice","bl...| 5|
| Jane| 20| green|["Jane","gre...| 4|
| Mary| 21| blue|["Mary","blue"]| 4|
+-----+---+---------+--------------------+-----------+

2.2 使用 select

frame3_2 = frame.select(["name",functions.length(frame.name).alias("name_length")])
frame3_2.show()

+-----+-----------+
| name|name_length|
+-----+-----------+
|Alice| 5|
| Jane| 4|
| Mary| 4|
+-----+-----------+

2.3 使用 selectExpr

frame3_3 = frame.selectExpr(["name","length(name) as name_length"])
frame3_3.show()

+-----+-----------+
| name|name_length|
+-----+-----------+
|Alice| 5|
| Jane| 4|
| Mary| 4|
+-----+-----------+

3、定製化根據某列進行計算

比如我想對某列做指定操作，但是對應的函式沒得咋辦，造，自己造~

frame4 = frame.withColumn("detail_length",functions.UserDefinedFunction(lambda obj: len(json.loads(obj)))(frame.detail))

# or
def length_detail(obj):
 return len(json.loads(obj))
frame4 = frame.withColumn("detail_length",functions.UserDefinedFunction(length_detail)(frame.detail))
frame4.show()

+-----+---+---------+--------------------+-------------+
| name|age|eye_color| detail|detail_length|
+-----+---+---------+--------------------+-------------+
|Alice| 19| blue|["Alice","bl...| 3|
| Jane| 20| green|["Jane","gre...| 3|
| Mary| 21| blue|["Mary","blue"]| 3|
+-----+---+---------+--------------------+-------------+

到此這篇關於pyspark給dataframe增加新的一列的實現示例的文章就介紹到這了,更多相關pyspark dataframe增加列內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們！

pyspark給dataframe增加新的一列的實現示例

熟悉pandas的pythoner 應該知道給dataframe增加一列很容易，直接以字典形式指定就好了，pyspark中就不同了，摸索了一下，可以使用如下方式增加

pandas-DataFrame增加行和列資料、刪除行和列資料（append、drop）

技術標籤：pandasPython基礎知識pandasDataFrameappenddrop 程式碼示例： import pandas as pd

element用指令碼自動化構建新元件的實現示例

目錄背景element-ui的自動化構建是怎麼www.cppcns.com做的makefilenew.file-save引用資原始檔的修改fs.createWriteStream總結背景

python pandas Dataframe增加一列遇到A value is trying to be set on a copy of a slice from a DataFrame.

技術標籤：pythonpython大資料pandasDataframe df2是Dataframe資料，直接在其上面增加一列，使用如下程式碼：

java 給csv增加一列

java 給csv增加一列 /** * 讀取CSV檔案內容 * @param csvFileName * @throws IOException */ public static void readCSVAndWrite(

Pandas 解決dataframe的一列進行向下順移問題

最近做比賽，有時候需要造出新的特徵，而這次遇到的問題是將一列資料往下順移一位。同時將開頭缺失的那一個數據用其他方式填充。

Pandas實現一列資料分隔為兩列

分割成一個包含兩個元素列表的列對於一個已知分隔符的簡單分割（例如，用破折號分割或用空格分割）.str.split() 方法就足夠了。它在字串的列（系列）上執行，並返回列表（系列）。

Python 實現將某一列設定為str型別

方法一：讀取檔案時設定程式碼如下： Data = pd.read_excel(level_path,sheet_name=0,encoding=\'gbk\',dtype={\'時間\': \'str\'})

ElementUI中的el-table怎樣實現每一列顯示的是控制元件並能動態實現雙向資料繫結

場景要實現在ElementUI的表格中每一列展示的不是資料而是控制元件。效果如下

新冠疫情下的世界是怎麼樣的？他給我們帶來了一份答案

本文來自樓+學員 vincentbao 的畢業作品，他用資料分析的方法，為我們展示了一副新冠疫情下的世界全貌。

如何提取多個Excel的指定列（一列或多列）的資訊按列追加到新表的綠色線上工具

有時候往往面臨從多個Excel檔案中提取指定列（一列或多列）的資料，按列的方式追加到新表，不會vba的夥伴怎麼辦呢？不需要編寫vba，給勤勞善良漂漂的你，推薦一個工具，操作如下：

MySQL中將一列以逗號分隔的值行轉列的實現

前言有時會遇到沒有遵守第一正規化設計模式的業務表。即一列中儲存了多個屬性值。如下表

DataFrame在任意處新增一列或者多列的方法

很多時候我們需要在任意處新增一列，而非末尾新增一列，下面就介紹一下幾種方法

Epic給出“喜加一”新關鍵詞網友：難道是《控制》？

之前Epic官方多次暗示本週即將送出的“喜加一”神祕遊戲，給出了幾個關鍵詞。現在官方又給出兩個新的關鍵詞：Joker和Visitor。

vue使用element-ui中el-table實現點選表頭或點選一列選中全列的功能

現在有這麼個需求，點選表格一列的表頭或其中一列，選中全列，ux如下，預設選第一列

linux系統給oracle資料庫增加新的例項

eg: 新建例項名orcl 1、新增例項的目錄 su - oracle cd $ORACLE_BASE/admin mkdir orcl cd orcl mkdir dbdump

Orale實現一列資料拆分成多列

小編之前遇到過這樣一個開發需求，通過報表設計器完成下圖報表設計這個報表的資料獲取中，需要將其中的姓名和患者的住院號進行拆分成多列，

[spark][pyspark]拆分DataFrame中某列Array

getItem()語法 pyspark.sql.Column.getItem 描述 An expression that gets an item at position ordinal out of a list, or gets an item by key out of a dict.

linux中實現將連續的多列資料合併為一列資料

1、測試資料 root@DESKTOP-1N42TVH:/home/test# ls a.txt root@DESKTOP-1N42TVH:/home/test# cat a.txt 01 02 03 04 05 06 07 08 09

linux awk命令實現輸出每一列資料的最大值、最小值

1、測試資料 root@PC1:/home/test# ls test.txt root@PC1:/home/test# cat test.txt 3 4 2 2 1 9 5 7 5 7 8 4

pyspark給dataframe增加新的一列的實現示例

相關推薦