[Spark基礎]--Spark-2.3.2釋出說明

阿新 • • 發佈：2018-12-14

2018-09-24 Apache spark又釋出新版本了，看看發行說明：

sub-task

[ SPARK-24976 ] - 允許十進位制型別轉換null（特定於PyArrow 0.9.0）

bug

[ SPARK-23243 ] - 在RDD上隨機廣播+重新分割槽可能導致錯誤答案
[ SPARK-23618 ] - 建立影象時，docker-image-tool.sh失敗
[ SPARK-23731 ] - FileSourceScanExec在子表示式消除中丟擲NullPointerException
[ SPARK-23732 ] - Spark Scala api Scaladoc中scala原始碼的斷開連結

[ SPARK-24216 ] - Spark TypedAggregateExpression使用scala中不安全的getSimpleName
[ SPARK-24385 ] - Tridially -true EqualNullSafe應該像Dataset.join中的EqualTo一樣處理
[ SPARK-24415 ] - 故障時階段頁面聚合執行程式指標錯誤
[ SPARK-24452 ] - long = int * int或long = int + int可能導致記憶體溢位。
[ SPARK-24468 ] - 當比例為負時，DecimalType“adjustPrecisionScale”可能會失敗

[ SPARK-24495 ] - SortMergeJoin，重複鍵錯誤結果
[ SPARK-24506 ] - Spark.ui.filters未應用於/ sqlserver / url
[ SPARK-24530 ] - Sphinx無法正確呈現autodoc_docstring_signature（使用Python 2？）而pyspark.ml文件已被破壞
[ SPARK-24531 ] - 由於缺少2.2.0版本，HiveExternalCatalogVersionsSuite失敗
[ SPARK-24535 ] - 修復Windows上SparkR中的java版本解析
[ SPARK-24536

] - 使用無意義的LIMIT查詢命中AssertionError
[ SPARK-24552 ] - 重試階段時重複使用任務嘗試次數
[ SPARK-24578 ] - 讀取遠端快取塊行為更改並導致超時問題
[ SPARK-24583 ] - InsertIntoDataSourceCommand中的架構型別錯誤
[ SPARK-24588 ] - StreamingSymmetricHashJoinExec應該要求兒童使用HashClusteredPartitioning
[ SPARK-24589 ] - OutputCommitCoordinator可能允許重複提交
[ SPARK-24613 ] - 使用UDF的快取無法與後續的依賴快取匹配
[ SPARK-24704 ] - DAG圖表中的階段順序不正確
[ SPARK-24739 ] - PySpark不適用於Python 3.7.0
[ SPARK-24781 ] - 在過濾/排序中使用資料集中的引用可能不起作用。
[ SPARK- 24809] - 在執行程式中序列化LongHashedRelation可能會導致資料錯誤
[ SPARK-24813 ] - HiveExternalCatalogVersionsSuite仍然片狀; 迴歸Apache檔案
[ SPARK-24867 ] - 將AnalysisBarrier新增到DataFrameWriter
[ SPARK-24879 ] - 用於`partCol IN（NULL，....）的Hive分割槽過濾器下推中的NPE
[ SPARK-24889 ] - dataset.unpersist（）不更新儲存記憶體統計資訊
[ SPARK-24891 ] - 修復HandleNullInputsForUDF規則
[ SPARK-24909 ] - 當獲取失敗，執行程式丟失，丟失執行程式上的任務執行以及多個階段嘗試時，Spark排程程式可能會掛起
[ SPARK-24927 ] - hadoop提供的配置檔案與Snappy壓縮的Parquet檔案不相容
[ SPARK-24934 ] - 由於缺少上/下限情況，記憶體中分割槽修剪中的複雜型別和二進位制型別不起作用
[ SPARK-24948 ] - 由於許可權檢查，SHS錯誤地過濾了某些應用程式
[ SPARK-24950 ] - scala DateTimeUtilsSuite daysToMillis和millisToDays失敗w / java 8 181-b13
[ SPARK-24987 ] - Kafka快取的消費者洩漏檔案描述符
[ SPARK-25028 ] - 如果值為null，則AnalyzePartitionCommand因NPE失敗
[ SPARK-25051 ] - 資料集的where子句給出了AnalysisException
[ SPARK-25076 ] - 不應從已停止的SparkSession中檢索SQLConf
[ SPARK-25084 ] - 在多列上“分發”可能會導致程式碼問題
[ SPARK-25114 ] - 當兩個單詞之間的減法可被Integer.MAX_VALUE整除時，RecordBinaryComparator可能會返回錯誤的結果
[ SPARK-25124 ] - VectorSizeHint.size是錯誤的，打破了流媒體管道
[ SPARK-25144 ] - 由於檢測到託管記憶體洩漏，資料集上的不同導致異常
[ SPARK-25164 ] - Parquet閱讀器為每列構建一次完整的列列表
[ SPARK-25205 ] - spark.network.crypto.keyFactoryIteration中的拼寫錯誤
[ SPARK-25231 ] - 執行大型作業並進行猜測導致執行器心跳超時在驅動程式上
[ SPARK-25313 ] - 修復FileFormatWriter輸出模式中的迴歸
[ SPARK-25330 ] - 將hadoop版本升級到2.7.7後的許可權問題
[ SPARK-25357 ] - 向SparkPlanInfo新增元資料以將更多資訊（如檔案路徑）轉儲到事件日誌
[ SPARK-25368 ] - 不正確的約束推斷返回錯誤的結果
[ SPARK-25371 ] - 沒有輸入列的向量彙編程式導致不透明錯誤
[ SPARK-25402 ] - BooleanSimplification中的空值處理

new feature

[ SPARK-24542 ] - Hive UDF系列UDFXPathXXXX允許使用者通過精心設計的XML來訪問任意檔案

story

[ SPARK-25234 ] - SparkR ::: parallelize不能正確處理整數溢位

improvement

[ SPARK-24455 ] - 修復TaskSchedulerImpl評論中的拼寫錯誤
[ SPARK-24696 ] - ColumnPruning規則無法刪除額外的Project
[ SPARK-25400 ] - 在schedulerIntegrationSuite中增加超時

test

[ SPARK-24502 ] - 片狀測試：UnsafeRowSerializerSuite
[ SPARK-24521 ] - 修復CachedTableSuite中的無效測試
[ SPARK-24564 ] - 為RecordBinaryComparator新增測試套件

doc

[ SPARK-24507 ] - “Spark Streaming Programming Guide”中“資料接收中的並行度級別”部分中的描述與最近的Kafka直接應用程式無關
[ SPARK-25273 ] - 如何安裝testthat v1.0.2

[Spark基礎]--Spark-2.3.2釋出說明

2018-09-24 Apache spark又釋出新版本了，看看發行說明： sub-task [ SPARK-24976 ] - 允許十進位制型別轉換null（特定於PyArrow 0.9.0）

[Spark版本更新]--Spark-2.3.2釋出說明

2018-09-24 Apache spark又釋出新版本了，看看發行說明： sub-task [ SPARK-24976 ] - 允許十進位制型別轉換null（特定於PyArrow 0.9.0） bug [ SPARK-23243&nb

Spark 2.3新版釋出，開始支援原生 Kubernetes_Kubernetes中文社群

開源社群越來越多人使用Kubernetes來進行資料處理、資料分析和處理機器學習計算，Kubernetes也增加了不少擴充功能，資源定製化、控制器定製化，以便對更深度整合這類專屬應用程式。現在熱門的大資料分析平臺Spark在2.3新版中，開始原生支援Kubernetes。可以直接在一個現成K

以yarn client和分散式叢集方式執行spark-2.3.2-bin-hadoop2.6

一以分散式叢集執行修改配置檔案/hadoop_opt/spark-2.3.2-bin-hadoop2.6/conf/spark-env.sh export HADOOP_CONF_DIR=/hadoop_opt/hadoop-2.6.1/etc/hadoop expo

spark-2.3.2-bin-hadoop2.6執行在yarn client上

修改配置檔案/hadoop_opt/spark-2.3.2-bin-hadoop2.6/conf/spark-env.sh export HADOOP_CONF_DIR=/hadoop_opt/hadoop-2.6.1/etc/hadoop export J

Spark專案之環境搭建（單機）三 scala-2.12.7+ spark-2.3.2-bin-hadoop2.7安裝

上傳scala和spark架包解壓然後重新命名 tar -zxf scala-2.12.7.tgz mv scala-2.12.7 scala tar -zxf spark-2.3.2-bin-hadoop2.7.tgz mv spark-2.3.

Spark 2.3.2原始碼編譯，支援hadoop-2.6.0-cdh5.15.0

前置準備&軟體安裝 spark2.3.2原始碼官方Apache下載地址： http://spark.apache.org/downloads.html 編譯spark原始碼的官方Apache參考文件 http://spark.apache.org/docs/2.3.2/b

CentOS 7搭建Spark 2.3.2叢集

一、伺服器叢集伺服器安裝內容 node-i scala-2.12.7; spark-2.3.2 node-ii scala-2.12.7; spark-2.3.2 node-iii scala-2.12.7; spark-2.3.2

Spark Streaming 2.3.2整合Flume

導讀：在Spark Streaming整合Flume文件中，官方提供兩種方式，push和pull Flume是Spark Streaming的高階資料來源之一直達車 Spark Streaming整合Flume官方文件直達車如果你對Flume不熟悉，這裡是我記

JavaScript基礎 substr(2, 3) 2是起始的index的值 3是提出來3個字符

subst bstr 博文 htm bst firefox 傳智播客 src 部分鎮場詩：　　　　清心感悟智慧語，不著世間名與利。學水處下納百川，舍盡貢高我慢意。　　　　學有小成返哺根，願鑄一良心博客。誠心於此寫經驗，願見文者得啟發。——————————————————

QTrace 0.2.3 版本釋出

下載地址: http://www.pc6.com/softview/SoftView_614309.html 主要修改: 1.對話方塊顯示優化 2.本地GNU搜尋優化 3.遠端搜尋，本地搜尋採用列表顯示，結果可讀性更好； 4.遠端搜尋介面優化，當搜尋錯誤時提

Python基礎筆記(2.3-2.5)

2.3 流程控制--for字典dic={'a':1,'b':2}for k in dic: 遍歷字典print k 格式化輸出 iteritems() 方法用法和items()方法一樣它返回的也是一個物件和xrange()異曲同工小例子：通過python寫乘法口訣#!/usr/bin/pytho

Apache Bahir 2.3.2 釋出，分散式分析平臺覆蓋拓展

Apache Bahir 為多個分散式分析平臺（如 Apache Spark 和 Apache Flink ）提供擴充套件，通過各種流聯結器和 SQL 資料來源擴充套件其範圍。 Apache Bahir 2.3.2 為 A

Apache CouchDB 2.3.0 釋出，文件資料庫

Apache CouchDB 2.3.0 已釋出，Apache CouchDB 是一個面向文件的資料庫管理系統。它提供以 JSON 作為資料格式的 REST 介面來對其進行操作，並可以通過檢視來操縱文件的組織和呈現。CouchDB 是 Apache 基金會的頂級開源專案。

PearDownloader 2.3.6 釋出，多協議、多源、混合 P2P-CDN 的下載器

PearDownloader 2.3.6 釋出，更新如下：下載檔案正確性校驗機制加強。降低了資料重複下載率。修復了其他已知bug。點開以下連結體驗PearDownloader的下載加速效果： https://demo.webrtc.win/do

EQueue 2.3.2版本釋出（支援高可用）

前言前段時間針對EQueue的完善終於告一段落了，實在值得慶祝，自己的付出和堅持總算有了成果。這次新版本主要為EQueue實現了叢集功能，基本實現了Broker的高可用。另外還增加了很多實用的功能，對效能也做了很多優化。總之，EQueue越來越成熟了。 EQueue最新版本資訊版本釋出說明

Keras 2.3.0 釋出：支援TensorFlow 2.0

Keras主要關注tf.keras，同時繼續支援Theano/CNTK 此版本附帶了許多API更改，以使多後端Keras API

.NET Core 3.0 ，WTM 2.3.9釋出

.Net Core 3.0已經來了，WTM怎麼可以落後呢。最新發布的WTM2.3.9版本已經支援.Net Core 3.0啦，現在線上生成專案的時候可以選擇2.2和3.0兩個版本。小夥伴們快來體驗吧。 WTM 2.3.9另一個重大變化是增加了對多語言

Magicodes.IE 2.3重磅釋出——.NET Core開源匯入匯出庫

在2.3這一版本的更新中，我們迎來了眾多的使用者、貢獻者，在這個里程碑中我們也新增並修復了一些功能。對於新特點的功能我將在下面進行詳細的描述，當然也歡迎更多的人可以加入進來，再或者也很期待大家來提issues或者PR，您的一個issue或者PR將是我們前進的動力。公式匯出 #88 公式匯出目前已

3.0.2→3.2.12 Sharded Cluster升級(mmapv1引擎不換)

mongodb balancer upgrade前期準備： 1）3.2.12版本準備好 2）升級過程中，保證client不會修改集合元數據。例如：不能執行下列操作：sh.enableSharding()sh.shardCollection()sh.addShard()db.createCollec

[Spark基礎]--Spark-2.3.2釋出說明

sub-task

bug

new feature

story

improvement

test

doc

相關推薦