pyspark 針對Elasticsearch的讀寫操作

阿新 • • 發佈：2020-10-27

1.建立spark與Elasticsearch的連線

為了對Elasticsearch進行讀寫操作，需要新增Elasticsearch的依賴包，其中，新增依賴包（org.elasticsearch_elasticsearch-spark-20_2.11-6.8.7.jar）有下面的三種方式：

1）將依賴包直接放在安裝spark目錄下面的jars目錄下，即可；

2) 在提交任務時，利用spark submit --jars 的方式

3）在建立spark物件時，新增依賴，如下圖所示

spark = SparkSession \
    .builder \
    .appName('es connection') \
    .config('spark.jars.packages', "org.elasticsearch_elasticsearch-spark-20_2.11-6.8.7") \
    .getOrCreate()

2.spark 讀取Elasticsearch的資料

df3 = spark.read \
    .format("org.elasticsearch.spark.sql") \
    .option("es.nodes", '節點') \
    .option('es.port', '埠') \
    .option("es.resource", '索引/索引型別') \
    .option('es.query', '?q=*') \
    .option('es.nodes.wan.only','true') \
    .option("es.nodes.discovery", "false") \
    .option("es.index.auto.create", "true") \
    .option("es.write.ignore_exception", "true") \
    .option("es.read.ignore_exception","true") \
    .load()

3.spark 寫入elasticsearch

df.write.format('org.elasticsearch.spark.sql') \
        .option('es.nodes', '節點') \
        .option('es.port', '9200') \
        .option('es.nodes.wan.only', 'true') \
        .option("es.nodes.discovery", "false") \
        .option('es.resource', '索引/索引型別') \
        .save(mode='append')

備註：

當spark讀寫elasticsearch的過程中，elasticsearch包含Array型別的欄位，就會出現下面錯誤：

無法將List型別資料寫入到es, 或者從es讀出list型別資料

解決方案：

在option 中新增一個es.read.field.as.array.include屬性，value為list Schema的欄位名

pyspark 針對Elasticsearch的讀寫操作

1.建立spark與Elasticsearch的連線為了對Elasticsearch進行讀寫操作，需要新增Elasticsearch的依賴包，其中，新增依賴包（org.elasticsearch_elasticsearch-spark-20_2.11-6.8.7.jar）有下面的三種方式：

ElasticSearch讀寫底層原理及效能調優

##一，讀寫底層原理 Elasticsearch寫人資料的過程 1）客戶端選擇一個node傳送請求過去，這個node就是coordinating node（協調節點）

Python開啟檔案、檔案讀寫操作、with方式、檔案常用函式例項分析

本文例項講述了Python開啟檔案、檔案讀寫操作、with方式、檔案常用函式。分享給大家供大家參考，具體如下：

Python實現密碼薄檔案讀寫操作

製作一個\"密碼薄\",其可以儲存一個網址，和一個密碼(如123456)，請編寫程式完成這個“密碼薄”的增刪改查功能，並且實現檔案儲存功能

Python csv檔案的讀寫操作例項詳解

這篇文章主要介紹了Python csv檔案的讀寫操作例項詳解,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

python config檔案的讀寫操作示例

本文例項講述了python config檔案的讀寫操作。分享給大家供大家參考，具體如下：

Android實現TCP客戶端支援讀寫操作

本篇我們便來學習如何通過socket讀寫TCP. 需要注意的是socket必須寫在子執行緒中,不能在ui主執行緒中直接使用,所以我們這裡建立了兩個class:

Python讀寫操作csv和excle檔案程式碼例項

1、python讀寫csv檔案 import csv #讀取csv檔案內容方法1 csv_file = csv.reader(open(\'testdata.csv\',\'r\'))

java檔案的簡單讀寫操作方法例項分析

本文例項講述了java檔案的簡單讀寫操作方法。分享給大家供大家參考，具體如下：

C++ I/O檔案讀寫操作的示例程式碼

IO: 向裝置輸入資料和輸出資料C++的IO流 c++中,必須通過特定的已經定義好的類,來處理IO(輸入輸出)

Win10系統硬碟讀寫操作時卡頓如何解決

最近有win10系統使用者遇到這樣一個情況，就是在進行硬碟讀寫操作的時候，會出現卡頓的情況，遇到這樣的問題該怎麼處理，下文將給大家帶來Win10系統硬碟讀寫操作時卡頓的具體解決步驟。

Python openpyxl模組實現excel讀寫操作

　　在日常的測試工作中，我們的測試用例一般都是儲存在Excel檔案中，當然也有一些公司會使用Xmind來編寫測試用例，那麼為什麼我們在這裡只是講解Excel的讀寫的，因為Excel它是一種更規範、更常用的測試用例格式，對

使用Nibabel庫對nii格式影象的讀寫操作

因為後期主要的研究方向是醫學影象處理，而現有手頭的大部分資料都是nii格式或者是hdr，img格式的資料，所以首先第一步我們需要解決影象的讀寫問題。

Qt5.9--簡單的檔案讀寫操作

2個按鈕，一個用於開啟檔案，另一個用於儲存檔案。只記錄槽函式部分，備忘。

Netty原始碼閱讀之如何將TCP的讀寫操作和指定執行緒繫結

原文連結：http://xueliang.org/article/detail/20200712234015993 前言在Netty的執行緒模型中，對於一個TCP連線的讀寫操作，都是由一個單執行緒完成的，對於剛入門Netty的新手，這完全顛覆我們熟知的多執行緒能夠加

Java IO流的讀寫操作(掌握)

輸入輸出流位元組輸入流 FileInputStream /** * 標準讀取流 */ public static void test2() { File file = new File(\"test.txt\");

Python txt檔案常用讀寫操作程式碼例項

python讀取txt檔案 #方式一： file = r\'D:\\test.txt\' with open(file,\'rb+\') as f: #可讀可寫二進位制，檔案若不存在就建立

PHP檔案開啟關閉及讀寫操作示例解析

前言 PHP支援檔案上傳功能，因此學習PHP檔案的相關操作是必須的，這篇筆記會去記錄PHP檔案系統的相關知識。

IO檔案讀寫操作

如果是操作文字檔案型別推薦使用：StreamReader、StreamWriter 示例：StreamWriter 用於寫入，可以使用 WriteLine(xxx) 函式將內容寫入指定檔案當中

初識yaml語言之yaml讀寫操作

簡介在開發的這種語言時，YAML 的意思其實是：\"Yet Another Markup Language\"（仍是一種標記語言）。

pyspark 針對Elasticsearch的讀寫操作

相關推薦