spark 釋出 2.2.0版本

阿新 • • 發佈：2019-02-16

Apache Spark 2.2.0是2.x分支上的第三次主版本釋出，其他兩個版本分別2.0.x,2.1.x兩個主版本以及下屬的分支版本。這次釋出spark移除了Structured Streaming的實驗標籤。也就是說，這次釋出的版本的焦點在於其易用性、穩定性，並完善、解決了超過1100個問題(目前來看，實際上有1146個問題，具體內容可以在spark的 jira上看到)。
這次版本主要對一下幾個模組著做了修改
- Core and Spark SQL
- Structured Streaming
- MLlib
- SparkR
- GraphX
- Deprecations
- Changes of behavior
- Known Issues
- Credits

Core and Spark SQL(核心和spark SQL)

API更新
- SPARK-19107：支援通過DataFrameWriter和catalog來建立hive表
  - DataFrameWriter是spark.sql下的一個介面，主要用於將資料集寫到外部儲存系統中
  - Catalog同樣是spark.sql的一個介面，用於提供標準API訪問spark SQL中的元資料
- SPARK-13721：支援hive的LATERAL VIEW OUTER explode()功能
  - LATERAL VIEW OUTER explode()是hive所提供的一行轉多列的方法(詳情現在這裡挖個坑，找個時間來添一下)
- SPARK-18885:針對資料來源和hive的正/反序列化資料的同一建表語法
- SPARK-16475:對sql查詢中的 BROADCAST, BROADCASTJOIN, and MAPJOIN增加廣播提示功能
- SPARK-18350:支援本地回話時區(為了解決機器處於不同時區、或者不同使用者處於不同時區所產生的時間不同問題)
- SPARK-19261:支援擴充套件的sql語法alter table table_name add cloumns
- SPARK-20420:增加external catalog時間
  - external catalog
- SPARK-18127：增加spark的鉤子和擴充套件點
  - 這是Srinath提出的一個改進點，其本意是希望通過自定義spark會話的方式來來實現以下目標：增加自定義的分析規則，如實現遞迴操作;增加自己的分析檢查，如對資料來源做特殊的檢查，在發現問題的時候可以提前發現；增加自定義優化等
- SPARK-20576：在Dataset/DataFrame中支援通用的提示函式
- SPARK-17203：資料來源操作不應該區分大小寫
- SPARK-19139：為spark增加AES基礎認證機制
效能和穩定
- 代價優化器
  - 針對filter,join,aggregate,project和limit/sample操作的評估基數
  - 對join重排序進行優化
  - 對TPC-DS利用啟發式星型結構進行優化
- 引入一個基於聚合操作的jvm物件
- 部分聚合支援hive UDAF 函式
- 對CSV和JSON的檔案列表/IO進行優化
- 解決不可撤銷/不可殺死的任務耗盡系統資源的問題
- 拓撲結構的塊複製問題
其他值得注意的改變
- 支援解析多行JSON檔案
- 支援解析多行CSV檔案
- 支援分割槽表的表分析命令
- 在完成插入和建立hive表後丟棄階段字典和資料檔案
- 檢視更加文健、標準而不需要大量的SQL擴充套件
- 支援從hive 2.0/2.1的模型倉庫中讀取資料
- 提供提交協議的RDD埠API
- 對定時排程任務增加黑名單列表
- 移除對hadoop 2.5和更早版本的支援
- 移除對java7的支援

Structured Streaming(結構流)

常規應用
- Structured Streaming(結構流)的API現在屬於常規應用，不再具有實驗標籤
kafka 優化
- 支援在流中或者批量從kafka中讀取/寫入資料
- 使用一個快取的kafka生產者通過kafka sink向kafka寫入資料
API更新
- 使用[flat]MapGroupWithState時支援複雜狀態執行和超時
- 支援一次觸發器
其他不重要的改變
- 增加一個測試和基準的rate source(信率源)

MLlib

基於data-frame的新演算法API
- 線性SVC
  - SVC: support vector classification(支援向量聚類演算法)
- 基於data-frame API的卡方檢驗
- 基於data-frame API的相關分析
- 基於特徵轉化的確實值處理
- 廣義線性模型增加Tweedie分佈
- 頻繁項集挖掘中的FPGrowth演算法和關聯規則
已存在的演算法中增加python和R的api
- Gradient Boosted Trees(梯度提升樹)
- 二分k均值
- 區域性敏感雜湊參考
- pySpark的分散式主成分分析和矩陣奇異值分解
主要bug修復
- DistributedLDAModel.logPrior計算準確率修復
- EMLDAOptimizer因型別匹配錯誤失敗(由GraphX checkpointing的bug導致)
- 修復在二項式廣義線性模型中計算資訊準則錯誤問題
  - AIC ：AIC資訊準則即Akaike information criterion，是衡量統計模型擬合優良性的一種標準，由於它為日本統計學家赤池弘次創立和發展的，因此又稱赤池資訊量準則
- 在某些輸入資料中訓練二分K均值模型報"java.util.NoSuchElementException: key not found"錯誤
- pyspark.ml.Pipeline 在多執行緒模式使用時會出問題
- 框約束的邏輯迴歸

SparkR

SparkR在2.2.0版本焦點主要集中在:增加了大量現存Spark SQL特性的支援 *主要特徵
- Structured Streaming API支援R語言
- 完整的catalogAPI可以支援R語言
- to_json,from_json的列函式
- 合併dataFrame 和合併列
- 支援dataFrame的checkpointing
- R中approxQuantile函式支援多列計算

GraphX圖計算

bug修復
- 圖計算接收器從PageRank中獲取到了不準確的結果
- 圖頂點Rdd/邊緣RDD做checkpoint操作時出現ClassCastException異常

不贊成

python
- 放棄對python2.6的支援
MLlib
- spark.ml LDA類不應該在spark.mllib的API中暴露，在spark.ml.LDAModel中，不提倡oldLocalModel 和 getModel
SparkR
- 不提倡建立外部表

方式改變

MLlib
- 開發API ALS.train()使用預設引數0.1代替1.0，為了匹配常規演算法API中的預設引數設定
sparkR:
- 為SparkR的高斯矩陣模型增加對數似然估計，但是引入一個sparkR的模型不會持續相容：高斯矩陣模型在SparkR 2.1中已經被移除，可能不會在sparkR 2.2中重新引入。我們計劃在將來對其保持向後相容。

由於知識侷限，文中可能有些地方翻譯的不準確，歡迎批評指正。更多資訊請多關注ApacheCN

Spark Release 2.3.0 版本釋出新特性和優化

Apache Spark 2.3.0是2.x系列中的第四個版本。此版本增加了對結構化流中的連續處理以及全新的Kubernetes Scheduler後端的支援。其他主要更新包括新的DataSource和結構化Streaming v2 API，以及一些PySpark效能增強。此

PhalApi 2.4.0 版本釋出，PHP 開源介面框架

PhalApi 2.4.0 [主要更新] 1、線上文件，樣式優化，並新增介面搜尋功能，方便查詢 [輔助更新] 1、新增CORS跨域擴充套件，由@吞吞小猴提供 2、2.x文件完善，豐富資料庫操作的說明及示例 [BUG修復] 1、分表策略下預設預設表名再次獲取時，因快取擊中而最終出現表

OWASP ZAP 2.7.0 版本全球釋出|棉花哥的部落格

0x01OWASP ZAP OWASP Zed Attack Proxy （ZAP）工具是世界上最受歡迎的免費安全工具之一。ZAP可以幫助安全測試人員在開發和測試應用程式過程中，自動發現 Web應用程式中的安全漏洞。另外，它也是一款提供給具備豐富經驗的滲透測試人員進行人工安全測試的優秀工具。

es學習-java操作 2.4.0版本

不同 package req twitter imp rep header comm earch package esjava;import org.elasticsearch.action.bulk.*;import org.elasticsearch.action.de

使用Hbase協作器(Coprocessor)同步資料到ElasticSearch（hbase 版本 1.2.0-cdh5.8.0, es 2.4.0 版本）

參考 https://gitee.com/eminem89/Hbase-Observer-ElasticSearch 上面的程式碼，但是由於我的es版本是2.4.0 和作者的版本不對應導致功能無法正常使用，所以特此記錄修改成能參考程式碼如

DBCP連線池引數詳解-2.4.0版本

BasicDataSource 配置引數這些配置均在dbcp原始碼的BasicDataSource類的createPoolableConnectionFactory方法中使用和初始化。具體程式碼如下： protected PoolableConnectionFactory createPo

'com.android.tools.build:gradle:2.3.0' 版本報錯解決Plugin used. Try disabling Instant Run (or updating. ..

今天下載路由框架原始碼進行閱讀的時候，gradle 報錯了，“Plugin used. Try disabling Instant Run (or updating either the IDE or the Gradle plugin to the latest vers

solr-5.4.1 和 mmseg4j-2.3.0版本的配置

配置solr伺服器 1.登入solr的官方網站下載最新版本，目前是5.5.0。http://lucene.apache.org/solr/downloads.html 2.linux下載tgz型別，windows系統下載solr-5.5.0.zip 3.解壓

2.MySQL8.0版本jdbc驅動連線資料庫操作

1.JDBC操作資料庫的步驟： 1.註冊驅動告知JVM使用的是哪一個資料庫的驅動； 2.獲得連結使用JDBC中的類，完成對MySql資料庫的連結； 3.獲得語句執行平臺通過連結物件獲取對SQL語句的執行者物件；

springfox-swagger 升級到2.9.0版本，報預設值的問題

使用 2.9.2 版本後訪問 swagger 提示 java.lang.NumberFormatException: For input string: "" at java.lang.NumberFormatException.forInputString(NumberFormatExcepti

Nginx釋出1.9.0版本，新增支援TCP代理和負載均衡的stream模組

一直以來，Nginx 並不支援tcp協議，所以後臺的一些基於TCP的業務就只能通過其他高可用負載軟體來完成了，比如Haproxy。這算是一個nginx比較明顯的缺憾。不過，在1.90釋出後這個認知將得到改寫： 2015-04-28 nginx-1.9.0 ma

jQuery 釋出 3.4.0 版本

jQuery 團隊的核心開發者 Timmy Willison 今天在官網宣佈了 jQuery 3.4.0，這距離上個版本 3. 3

[Spark版本更新]--Spark-2.4.0 釋出說明

2018-11-02 Apache Spark 官方釋出了 2.4.0版本，以下是 Release Notes，供參考： Sub-task [ SPARK-6236 ] - 支援大於2G的快取塊 [ SPARK-6237 ] -

spark 釋出 2.2.0版本

Apache Spark 2.2.0是2.x分支上的第三次主版本釋出，其他兩個版本分別2.0.x,2.1.x兩個主版本以及下屬的分支版本。這次釋出spark移除了Structured Streaming的實驗標籤。也就是說，這次釋出的版本的焦點在於其易用性、穩定性，並完善、

Spark Release 2.2.0 最新版本釋出，Spark 2.2.0是Spark 2.x中第一個在生產環境可以使用的版本，對於Spark具有里程碑意義

第2章 Spark 2.X技術及原理 Apache官方網站於2017年7月11日釋出了Spark Release 2.2.0版本， Apache Spark 2.2.0版本是Spark 2.x系列上的第三個版本。Spark 2.2.0是Spark 2.x中第一個在生產環境可以

QTrace 0.2.2版本釋出

下載地址: http://www.pc6.com/softview/SoftView_614309.html 主要修改: 1.UML類圖，支援新增comment 2.新增外掛:FavoriteCode,收藏常用的程式碼，並且新增Comment, 這些Comment可

Ruby 2.6.0 的第二個候選版本 RC2 釋出

Ruby 最新版本 Ruby 2.6.0 RC2 已釋出，Ruby 2.6.0 RC2 是 Ruby 2.6.0 的第二個候選版本，RC2 釋出用於測試捆綁的 Bundler 1.17 而不是 2.0。它引入了一些新功能和效能改進，例如： JIT Ruby 2.6 開始引

Docker EE 2.0版本釋出，完美支援Kubernetes容器編排_Kubernetes中文社群

儘管創始人剛離開Docker公司，但Docker仍持續版本更新計劃。Docker最近釋出了Docker企業版的2.0版，主打可以跨OS、跨雲的企業級容器管理平臺，也強調可以通過Kubernetes來管理跨雲容器排程。 Docker去年10月預告，將會再下一個版本支援Kubernetes 2.

Spark-submit原始碼提交流程(spark版本2.2.0)

今天查看了一下spark任務提交任務原始碼，有點感想，來跟大家分享一下，有誤還請指出來，謝謝 1、先來看一下spark-submit的這個類的起使程式碼 // Cluster managers private val YARN = 1 private val STAND

Go 開源閘道器 API-Gateway 2.6.0.RC 釋出，年前最後一個版本

新特性支援API級別的流控（優先順序高於Server的配置）支援API級別的熔斷（優先順序高於Server的配置）優化調整日誌輸出更新文件修復 #115 api的超時設定無效問題快速體驗 docker pull&nb

spark 釋出 2.2.0版本

Core and Spark SQL(核心和spark SQL)

Structured Streaming(結構流)

MLlib

SparkR

GraphX圖計算

不贊成

方式改變

由於知識侷限，文中可能有些地方翻譯的不準確，歡迎批評指正。更多資訊請多關注ApacheCN

相關推薦