Spark向Elasticsearch批量導入數據，出現重復的問題定位

阿新 • • 發佈：2018-05-15

spark elasticsearch 超時重傳

看了下es-hadoop插件的源碼：

發現ES導入數據重試情況的發生，除了在es.batch.write.retry.policy參數默認開啟且es-hadoop插件向ES集群發送不bulk寫入請求接受到503響應碼會重試3次室外。

本身執行http請求時，也會存在重試（hadoop/rest/NetworkClient.java）：

   public Response execute(Request request) {
        Response response = null;
        boolean newNode;
        do {
            SimpleRequest routedRequest = new SimpleRequest(request.method(), null, request.path(), request.params(), request.body());

            newNode = false;
            try {
                response = currentTransport.execute(routedRequest);
                ByteSequence body = routedRequest.body();
                if (body != null) {
                    stats.bytesSent += body.length();
                }
            } catch (Exception ex) {
                // configuration error - including SSL/PKI - bail out
                if (ex instanceof EsHadoopIllegalStateException) {
                    throw (EsHadoopException) ex;
                }
                // issues with the SSL handshake, bail out instead of retry, for security reasons
                if (ex instanceof javax.net.ssl.SSLException) {
                    throw new EsHadoopTransportException(ex);
                }
                // check for fatal, non-recoverable network exceptions
                if (ex instanceof BindException) {
                    throw new EsHadoopTransportException(ex);
                }

                if (log.isTraceEnabled()) {
                    log.trace(
                            String.format(
                                    "Caught exception while performing request [%s][%s] - falling back to the next node in line...",
                                    currentNode, request.path()), ex);
                }

                String failed = currentNode;

                failedNodes.put(failed, ex);

                newNode = selectNextNode();

                log.error(String.format("Node [%s] failed (%s); "
                        + (newNode ? "selected next node [" + currentNode + "]" : "no other nodes left - aborting..."),
                        failed, ex.getMessage()));

                if (!newNode) {
                    throw new EsHadoopNoNodesLeftException(failedNodes);
                }
            }
        } while (newNode);

        return response;
    }

    當請求出現超時的情況時，es-hadoop插件會再請求一個ES節點發送寫入請求。即導入插件認為當前插入節點超時了（默認是一分鐘）就視為該節點不可用，就換下一個節點，其實是ES在一分鐘內沒有處理完插入任務。

    將超時時間es.http.timeout參數調大之後，給ES留下充足的入庫時間，就不會再發生這個問題了。

Spark向Elasticsearch批量導入數據，出現重復的問題定位

spark elasticsearch 超時重傳看了下es-hadoop插件的源碼：發現ES導入數據重試情況的發生，除了在es.batch.write.retry.policy參數默認開啟且es-hadoop插件向ES集群發送不bulk寫入請求接受到503響應碼會重試3次室外。本身執行htt

Elasticsearch —— bulk批量導入數據

分段 meta eat 發現 lan 幫助分享 ble 統計 bulk批量導入批量導入可以合並多個操作，比如index,delete,update,create等等。也可以幫助從一個索引導入到另一個索引。語法大致如下； action_and_meta_data\n o

關於通過Excel批量導入數據庫的分析

man cnblogs return oid sel body 專業 mode opened 前臺代碼 1 <body> 2 <form id="form1" runat="server"> 3 <div style=

python之路_excel批量導入數據

chunk stat csrf body inpu res hunk log response 批量導入excel文件中的數據，我們需要借助xlrd模塊，示例如下：　　視圖代碼： import xlrd def multi_view(self,request):

批量導入數據

批量導入數據 file 數組 lod -m share cap 上傳失敗命名空間 public function aeBatchImport(){ $contentType = $this->getParam(‘content_type‘, 1, ‘i

navicat批量導入數據

內容 splay ica color ima 技術分享 navi inf spa 1.excel表導入數據　　根據數據表添加excel表內容　　開始導入數據 navicat批量導入數據

Redis批量導入數據的方法

cat sta 文本文 -c dwr 測試 alt println 輸出有時候，我們需要給redis庫中插入大量的數據，如做性能測試前的準備數據。遇到這種情況時，偶爾可能也會懵逼一下，這裏就給大家介紹一個批量導入數據的方法。先準備一個redis protocol的文件（

導入數據庫出現html lang='zh' dir='ltr' class='ie ie7錯誤代碼解決方法

數據導入今天遇到一個客戶導入數據庫錯誤的問題，導入後出現錯誤代碼如下：<!DOCTYPE HTML><html lang=‘zh‘ dir=‘ltr‘ class=‘ie ie7‘><meta charset="utf-8" /><meta name="r

impdp導入數據時出現BUG

導入 impdp 數據用impdp數據泵工具導入數據出現一個錯誤，導入過程意外中止了。經在網上查資料發現這是11G的一個BUG，導入時需要加入EXCLUDE=STATISTICS參數。錯誤提示：ORA-39126: Worker unexpected fatal error in

JPA hibernate spring repository pgsql java 工程（二）：sql文件導入數據，測試數據

ber tracking evel 主鍵出現一個 OS resources pos 使用jpa保存查詢數據都很方便，除了在代碼中加入數據外，可以使用sql進行導入。目前我只會一種方法，把數據集中在一個sql文件中。而且數據在導入中常常具有先後關系，需要用串行的方式導

MYSQL數據庫導入數據時出現亂碼的解決辦法

col 註意 ref das 同名直接對話對話框粘貼首先在mysql的操作工具中新建同名數據庫，編碼utf-8新建數據庫時一定要註意生成原數據庫相同的編碼形式， ◆方法一: 通過修改mysql安裝文件中my.ini中參數 –default-chara

mysql導入數據庫_僅僅用frm向mysql導入表結構

結構文件內容 spl sso 索引 -a 錯誤 water sof 網上一個連接mysql的jsp代碼段，給了數據庫的備份文件。可是僅僅有frm，mysql的每張表有三個文件。各自是，*.frm是描寫敘述了表的結構。*.MYD保存了表的數據記錄。*.MYI則是表的索引，

批量數據導入數據庫

ceil slice all 需要語句一次 cheng 數據庫 sql語句 1。出現的問題因為一次性導入說太多導致 ①時間長超過30s 必修修改配置解決 ②因為一次性內存太大也需要修改配置本人不想修改配置所以使用如下方法下面是TP

MySQL使用腳本批量創建數據庫並導入數據

load sql命令 sta chan pri RKE .sql eat tar CREATE TABLE IF NOT EXISTS Subscribers ( SubscriberId int NOT NULL primary key, RatePlan varchar

redis-dump導出導入數據

導出導出導入 sta cnblogs 安裝redis load 導入 dump sudo 安裝redis-dump [sudo] npm install redis-dump -g 導出數據 redis-dump -u 192.168.1.28:6379 >d

csv讀入數據，用julia/matplotlib/pyplot 畫矢量圖導入word中

one -m github pos 環境 end mat text lin 這是是用julia來實現畫圖。julia有三個畫圖庫：Winston、Gadfly、PyPlot 這裏用的是pyplot，事實上他是基於matplotlib的 1、首先在juno裏安裝兩個庫 j

[大數據]-Logstash-5.3.1的安裝導入數據到Elasticsearch5.3.1並配置同義詞過濾

cat 3.1 send text 開啟 gui 插件 work message 閱讀此文請先閱讀上文：[大數據]-Elasticsearch5.3.1 IK分詞，同義詞/聯想搜索設置，前面介紹了ES，Kibana5.3.1的安裝配置，以及IK分詞的安裝和同義詞設置，這裏主

關於導入數據到Excel中對數據庫進行去重以及對導入的Excel文件進行去重

導入 hash list() exc 數據 clear arraylist equals 需要插入到數據庫去重： 1.將你循環讀取的List進行遍歷 2.在你即將插入到數據庫的方法之前獲取你需要查詢的數據，執行查詢方法 1 devList=deviceDao.findD

PHPExcel將Excel數據導入數據庫

保存方法 ksh factory spa tao col 導入 div 1 <?php 2 //PHPExcel讀取導入Excel數據到數據庫(2003,2007通用)使用方法: 3 //先用excel2array（）方法將excel表中的數據存儲到數組，在

poi實現excel數據導入數據庫

form images img ges 文件數據處理書寫 Enctype 1.導入相應的jar包 2.創建上傳文件的表單，註意method="post" enctype="multipart/form-data" 3.主要代碼實現　　a.controller層獲得

Spark向Elasticsearch批量導入數據，出現重復的問題定位

相關推薦