[Spark基礎]--Spark-2.3.2釋出說明
阿新 • • 發佈:2018-12-14
2018-09-24 Apache spark又釋出新版本了,看看發行說明:
sub-task
- [ SPARK-24976 ] - 允許十進位制型別轉換null(特定於PyArrow 0.9.0)
bug
- [ SPARK-23243 ] - 在RDD上隨機廣播+重新分割槽可能導致錯誤答案
- [ SPARK-23618 ] - 建立影象時,docker-image-tool.sh失敗
- [ SPARK-23731 ] - FileSourceScanExec在子表示式消除中丟擲NullPointerException
- [ SPARK-23732 ] - Spark Scala api Scaladoc中scala原始碼的斷開連結
- [ SPARK-24216 ] - Spark TypedAggregateExpression使用scala中不安全的getSimpleName
- [ SPARK-24385 ] - Tridially -true EqualNullSafe應該像Dataset.join中的EqualTo一樣處理
- [ SPARK-24415 ] - 故障時階段頁面聚合執行程式指標錯誤
- [ SPARK-24452 ] - long = int * int或long = int + int可能導致記憶體溢位。
- [ SPARK-24468 ] - 當比例為負時,DecimalType“adjustPrecisionScale”可能會失敗
- [ SPARK-24495 ] - SortMergeJoin,重複鍵錯誤結果
- [ SPARK-24506 ] - Spark.ui.filters未應用於/ sqlserver / url
- [ SPARK-24530 ] - Sphinx無法正確呈現autodoc_docstring_signature(使用Python 2?)而pyspark.ml文件已被破壞
- [ SPARK-24531 ] - 由於缺少2.2.0版本,HiveExternalCatalogVersionsSuite失敗
- [ SPARK-24535 ] - 修復Windows上SparkR中的java版本解析
- [ SPARK-24536
- [ SPARK-24552 ] - 重試階段時重複使用任務嘗試次數
- [ SPARK-24578 ] - 讀取遠端快取塊行為更改並導致超時問題
- [ SPARK-24583 ] - InsertIntoDataSourceCommand中的架構型別錯誤
- [ SPARK-24588 ] - StreamingSymmetricHashJoinExec應該要求兒童使用HashClusteredPartitioning
- [ SPARK-24589 ] - OutputCommitCoordinator可能允許重複提交
- [ SPARK-24613 ] - 使用UDF的快取無法與後續的依賴快取匹配
- [ SPARK-24704 ] - DAG圖表中的階段順序不正確
- [ SPARK-24739 ] - PySpark不適用於Python 3.7.0
- [ SPARK-24781 ] - 在過濾/排序中使用資料集中的引用可能不起作用。
- [ SPARK- 24809] - 在執行程式中序列化LongHashedRelation可能會導致資料錯誤
- [ SPARK-24813 ] - HiveExternalCatalogVersionsSuite仍然片狀; 迴歸Apache檔案
- [ SPARK-24867 ] - 將AnalysisBarrier新增到DataFrameWriter
- [ SPARK-24879 ] - 用於`partCol IN(NULL,....)的Hive分割槽過濾器下推中的NPE
- [ SPARK-24889 ] - dataset.unpersist()不更新儲存記憶體統計資訊
- [ SPARK-24891 ] - 修復HandleNullInputsForUDF規則
- [ SPARK-24909 ] - 當獲取失敗,執行程式丟失,丟失執行程式上的任務執行以及多個階段嘗試時,Spark排程程式可能會掛起
- [ SPARK-24927 ] - hadoop提供的配置檔案與Snappy壓縮的Parquet檔案不相容
- [ SPARK-24934 ] - 由於缺少上/下限情況,記憶體中分割槽修剪中的複雜型別和二進位制型別不起作用
- [ SPARK-24948 ] - 由於許可權檢查,SHS錯誤地過濾了某些應用程式
- [ SPARK-24950 ] - scala DateTimeUtilsSuite daysToMillis和millisToDays失敗w / java 8 181-b13
- [ SPARK-24987 ] - Kafka快取的消費者洩漏檔案描述符
- [ SPARK-25028 ] - 如果值為null,則AnalyzePartitionCommand因NPE失敗
- [ SPARK-25051 ] - 資料集的where子句給出了AnalysisException
- [ SPARK-25076 ] - 不應從已停止的SparkSession中檢索SQLConf
- [ SPARK-25084 ] - 在多列上“分發”可能會導致程式碼問題
- [ SPARK-25114 ] - 當兩個單詞之間的減法可被Integer.MAX_VALUE整除時,RecordBinaryComparator可能會返回錯誤的結果
- [ SPARK-25124 ] - VectorSizeHint.size是錯誤的,打破了流媒體管道
- [ SPARK-25144 ] - 由於檢測到託管記憶體洩漏,資料集上的不同導致異常
- [ SPARK-25164 ] - Parquet閱讀器為每列構建一次完整的列列表
- [ SPARK-25205 ] - spark.network.crypto.keyFactoryIteration中的拼寫錯誤
- [ SPARK-25231 ] - 執行大型作業並進行猜測導致執行器心跳超時在驅動程式上
- [ SPARK-25313 ] - 修復FileFormatWriter輸出模式中的迴歸
- [ SPARK-25330 ] - 將hadoop版本升級到2.7.7後的許可權問題
- [ SPARK-25357 ] - 向SparkPlanInfo新增元資料以將更多資訊(如檔案路徑)轉儲到事件日誌
- [ SPARK-25368 ] - 不正確的約束推斷返回錯誤的結果
- [ SPARK-25371 ] - 沒有輸入列的向量彙編程式導致不透明錯誤
- [ SPARK-25402 ] - BooleanSimplification中的空值處理
new feature
- [ SPARK-24542 ] - Hive UDF系列UDFXPathXXXX允許使用者通過精心設計的XML來訪問任意檔案
story
- [ SPARK-25234 ] - SparkR ::: parallelize不能正確處理整數溢位
improvement
- [ SPARK-24455 ] - 修復TaskSchedulerImpl評論中的拼寫錯誤
- [ SPARK-24696 ] - ColumnPruning規則無法刪除額外的Project
- [ SPARK-25400 ] - 在schedulerIntegrationSuite中增加超時
test
- [ SPARK-24502 ] - 片狀測試:UnsafeRowSerializerSuite
- [ SPARK-24521 ] - 修復CachedTableSuite中的無效測試
- [ SPARK-24564 ] - 為RecordBinaryComparator新增測試套件
doc
- [ SPARK-24507 ] - “Spark Streaming Programming Guide”中“資料接收中的並行度級別”部分中的描述與最近的Kafka直接應用程式無關
- [ SPARK-25273 ] - 如何安裝testthat v1.0.2