Structured Streaming 簡單資料處理——讀取CSV並提取列關鍵詞

阿新 • • 發佈：2019-09-12

前言

近日想學學Spark 比較新的Structured Streaming ，百度一輪下來，全都是千篇一律的wordcount ，很是無語。只好自己摸索，除了Dataframe的Select和Filter 操作還能做些什麼處理。因為用的Python，用過Pandas，摸索中，想轉Pandas去處理，結果readStream並不支援直接toPandas()這個方法。最後翻來官方API，發現了還有Dataframe還有一個強大的操作，並且能夠在readStream中使用，那就是——UDF。

環境準備

Hadoop 2.8.5
Spark 2.4.3
Python 3.7.3
jieba (jieba分詞工具，提供了TF-IDF關鍵詞提取方法，pip install jieba）

程式下面的程式碼都是在互動式環境下執行，即pyspark下。

資料準備

id	title_zh	content_zh	publish_date

假設CSV資料如上表格所示，分別表示文章id，標題，內容，釋出時間。

有如下需求：提取標題的關鍵詞，並將關鍵詞新增到新列。（本來還有提取文章關鍵詞，原理其實一樣，就不多寫了）

讀取資料

讀取csv檔案有兩步：定義schema，按照schema讀取檔案。

定義schema：

本例中，id為Integer型別，publish_date為TimestampType型別，其餘為StringType。首先引入部分依賴：

from pyspark.sql.functions import udf
from  pyspark.sql.types import StructType,StringType,IntegerType,TimestampType

定義一個StructType：

sdf=StructType().add('id',IntegerType())
sdf.add('title_zh',StringType()).add('content_zh',StringType())
sdf.add('publish_date',TimestampType())

設定監聽資料夾，該資料夾當產生新的CSV檔案時，spark會自動讀取到stream，路徑需要指明是hdfs:///或者file:///

rcsv=spark.readStream.options(header='true',multiline='true',inferSchema='true').schema(sdf).csv("file:///home/moon/文件/test")

通過rcsv.isStreaming判斷是否是Stream

處理資料

處理資料分3步：

定義關鍵詞提取方法，定義方法選取係數最高的詞，剔除純數字
將提取方法構造成Udf
利用Dataframe的“轉換”方法呼叫Udf

最後選擇輸出模式、輸出目地，輸出結果。下面直接上程式碼，具體看註釋：

#引入jieba依賴
import jieba
import jieba.analyse

def getTopWord(words):
    if(words==[]):
        return ""
    wordc=0
    while (words[wordc].isdigit()):
        if(wordc>=len(words)-1):
            return words[wordc]
        wordc+=1
    return words[wordc]

    
def getKeyword(ctx):
    #extract_tags方法有個可選topK=N引數，提取N個詞，但是這裡要剔除純數字要用另外的方法，所以使用它的預設值
    word=getTopWord(jieba.analyse.extract_tags(ctx,withWeight=False))
    return word;

#引數為(方法名，返回型別)，方法可以是lambda，返回型別為必填。呼叫時，逐行呼叫udf
getKeyword_udf=udf(getKeyword,StringType())


#對['title_zh']這一列使用udf方法，並使用select生成新列，alias()定義別名，最後得到新的readStream
ncsv=rcsv.select('id','title_zh',getKeyword_udf(rcsv['title_zh']).alias('title_zh_keyword'),'publish_date')

#設定輸出模式為update，還有complete和Append；輸出到命令列。更詳細我也說不清，建議看官方文件。
query=ncsv.writeStream.outputMode('update').format("console").start()

結果

上面的全部程式碼，在pyspark中，一條條輸入程式碼就行了，路徑根據自己實際替換，資料內容和型別可以根據自己喜好做調整。

本例的CSV檔案如圖：

執行結果圖如下：

PS：小姐姐微博@只是簡言，侵刪～（反正我是不信有人

Structured Streaming 簡單資料處理——讀取CSV並提取列關鍵詞

前言近日想學學Spark 比較新的Structured Streaming ，百度一輪下來，全都是千篇一律的wordcount

opencv 讀取圖片並提取Mat中data資料

uchar* pImageData = (uchar*)malloc(width*height* 3 * sizeof(uchar));Mat MyImage = imread(file_name,IMREAD_COLOR); if(!MyImage

python資料處理（csv->折線圖）

highs_lows.py # -*- coding: utf-8 -*- """ Created on Mon May 29 10:00:16 2017 @author: Administra

MapReduce：超大機群上的簡單資料處理- [Google MapReduce]·中譯本

摘要 MapReduce是一個程式設計模型,和處理,產生大資料集的相關實現.使用者指定一個map函式處理一個key/value對,從而產生中間的key/value對集.然後再指定一個reduce函式合併所有的具有相同中間key的中間value.下面將列舉許多可以用這個模型來表示的現實世界的工作.

MapReduce：大型叢集上的簡單資料處理

MapReduce：大型叢集上的簡單資料處理摘要 MapReduce是一個程式設計模型和一個處理和生成大資料集的相關實現。使用者指定一個map函式處理一個key-value對來生成一組中間key-value對；指定一個reduce函式合併所有和同一中間key值相聯絡的中間

python讀取外部資料之讀取csv格式

20171204更新讀取csv檔案需要先open(如果路徑裡含有中文)：file = open(' csv 檔案完整路徑')df = pd.read_csv(file)如果全英文路徑不需要open最近

使用python讀取csv並轉化成list of list的方法

很多面試題目都需要處理csv檔案，以下是幾種種處理csv檔案的方法：方法一：使用Python基礎語言編寫 def read_csv(file_name): f = open(file_name, 'r') content = f.read()

Python 讀取csv的某列

csv是Comma-Separated Values的縮寫，是用文字檔案形式儲存的表格資料，比如如下的表格：就可以儲存為csv檔案，檔案內容是：No.,Name,Age,Score 1,Apple,12,98 2,Ben,13,97 3,Celia,14,96 4,D

GDAL庫——讀取影象並提取基本資訊

GDAL庫是一個跨平臺的柵格地理資料格式庫，包括讀取、寫入、轉換、處理各種柵格資料格式（有些特定的格式對一些操作如寫入等不支援）。它使用了一個單一的抽象資料模型就支援了大多數的柵格資料。這裡有GDAL庫支援的格式：http://www.gdal.org/formats_l

爬取微博評論並提取主要關鍵詞（一）

接到一個自然語言處理的任務，主要是爬取醫療行業微博評論並提取關鍵詞，順便分類。最終是要對這些評論進行自動回覆，給我的不過是初級任務，那麼我就拆解任務目標，一步一步來實現。一、首先實現的是爬蟲，實際上微博自己有提供api介面供我們查詢，我們只需要找到合適的醫療

Python同時讀取多個csv檔案，進行簡單的資料處理

#匯入相應模組 import re import os import pandas as pd import numpy as np# 讀取 10個csv 檔案 path = 'E:/round1/' files = os.listdir(path) files_csv =

讀取CSV檔案進行簡單的資料處理與視覺化分析

機緣巧合之下，看到了這麼一個題，之前也沒接觸過視覺化這一塊，感覺挺有意思就順手做了做大致意思呢，就是在csv裡有三種資料：一個時間，一個振幅（emmm，有點彆扭），一個頻率。但是在頻率上有問題，有外在頻率干擾，要過濾掉干擾，找出傳遞真正資訊的頻率。並對其傳遞的資訊做出

Java讀取CSV檔案（CSV檔案資料內容包含逗號處理）

文章目錄 0. 前言 1. 解決方案 2. 程式碼片段 0. 前言最近在公司寫專案時，有個匯入csv格式檔案資料的需求。Java讀取csv檔案時預設是按照 ,[英文逗號]分割的

將列表（list）的資料寫到csv 裡面+ 讀取csv檔案裡面的資料並寫到列表（list）裡面

將列表(list)的資料寫到csv 裡面 import pandas as pd file_path = 'file_path' image_id = [397133, 37777, 252219, 87038] name=['imageid'] test=pd.DataFrame(col

C#讀取csv，讀取一行資料的異常問題處理。

多語言檔案這版用csv格式存放，自己用C#寫輔助工具時，發現遇到各種問題。（暫時沒找開源庫，如果有其實直接就行了）。講一講遇到的幾個坑吧： 1.csv 這邊用半形逗號, 間隔單元格，所以如果文字中有半形, " 則這個單元格的資料前後會加上雙引號 ""，

pyspark學習系列（二）讀取CSV檔案為RDD或者DataFrame進行資料處理

一、本地csv檔案讀取：最簡單的方法：import pandas as pd lines = pd.read_csv(file) lines_df = sqlContest.createDataFrame(lines)或者採用spark直接讀為RDD 然後在轉換lines =

python 讀取excel 並將對應生成浮點資料進行處理

1.python 讀取excel 檢簡單 def open_excel(file=u'D:\\python27File\\crmAutoTest\\configFile\\logincase.xlsx'

java讀取excel或者csv時日期格式資料處理

背景：最近寫一個通過excel批量匯入資料的功能，裡面含有時間，但是java讀取之後把時間轉為了距離1990年1月1號的天數，比如excel中時間為2018/9/16 18:30，java讀取之後變成43359.77083就會有問題出現的問題：　SimpleDateFormat startFormat

JAVA讀取資料夾中CSV的URL並下載圖片

package com.ross.httpdownload; import java.io.BufferedInputStream; import java.io.BufferedOutputStream; import java.io.BufferedReader; i

tensorflow：簡單的讀取CSV檔案，並實現分批操作

import numpy as np from tensorflow.contrib.learn.python.learn.datasets import base filename = "SiteBUDP_test_label.csv" test = base.loa

Structured Streaming 簡單資料處理——讀取CSV並提取列關鍵詞

相關推薦