如何跟蹤Apache Spark官方社群?
1.StackOverflow技術站
Stack Overflow是一個與程式相關的IT技術問答網站。使用者可以在網站免費提交問題,瀏覽問題,索引相關內容,在建立主頁的時候使用簡單的HTML。在問題頁面,不會彈出任何廣告,銷售資訊,JavaScript 視窗等。使用StackOver注意如下幾點事宜: 1)在Stack Overflow技術站和spark相關的 2) 熟練運用tag標籤,搜尋或者提問的時候都儘量打上tag3) 3)如果碰到問題在國內沒有人解決,可以StackOverflow技術站在註冊一個賬號,嘗試在這裡提問,當然很多都是英文的方式,但是用翻譯軟體也基本上都能進行的下,一來二去就熟練了,最後就擺脫翻譯軟體了。2.Spark郵件列表
2.1 郵件列表清單
如果想要進一步跟蹤問題、獲取最新資源、除錯bug、或者貢獻程式碼給Spark專案組,郵件列表是一個非常好的方式。郵件列表也是有多種方式,需要區分每一個郵件型別,訂閱你關心的郵件。Apache下面的每一個專案都有自己的郵件列表,同時分不同的郵件組,Apache Spark有如下訂閱列表2.2 如何訂閱郵件
舉個栗子, 2)收到一封反饋郵件,要求我們確認是否訂閱,直接回復這封郵件即可 然後回覆確認一下,這樣就訂閱成功了,後面Spark開發者裡面有郵件更新,你都會收到相應的郵件 訂閱之後,你就可以參與Apache Spark開發的討論了,並且裡面的回答都是核心開發人員的交流討論,應該說是比較權威的了,所有的問答都會被存檔,所以在提問之前最好先看看是不是已經有人提問並得到解決,其他的郵件訂閱也大抵如此,不一一展開了。2.3 郵件其他資源
官方也有專門的存檔介面
1)開發交流存檔
2)JIRA更新存檔
3)普通使用者交流存檔
3.線上聊天室
聊天室的方式可以更快的提問和解決問題,但是它不是Spark官方社群的組成部分,僅僅作為參考方式,如Spark with Scala討論房間(討論用scala編寫Spark程式相關的房間)4.meetup和Conferences
4.1 Conferences
如最近要在歐洲召開的技術大會10月24~10月26日,點選進去可以看到會議的相關主題和參會人員,都是一些大師級的人物,如Matei Zaharia,會議上釋出的內容一般都比較權威且前沿,一般最新的權威會議時間都會在官方網站(4.2 meetup
meetup一般都是Spark比較基層的組織機構,主持和發起人都是社群比較有名和活躍的技術大拿,我們可以通過這個網站檢視世界各地的spark meetup,國內也比較多spark的meetup(北京和杭州等地都有,各位可以自己檢視下,感興趣可以積極參與到meetup中去) 舉個北京的meetup例子 這是一個來自北京的Meetup小組, 專注於對Advanced Spark and TensorFlow生態系統的實踐, 研究和探索. 在這裡我們將會討論關於Spark平臺的各種特性, 使用場景以及各種最佳實踐的分享. 並且會重點討論如何更好的將我們的成果貢獻社群.5.參考資料
相關推薦
如何跟蹤Apache Spark官方社群?
Spark用了多年了,是不是還不知道怎麼跟蹤Apache開源社群的資訊,本文根據官方文件和自身實踐總結了如下幾種跟蹤Apache Spark社群的的方法,僅供參考。為了充分利用好開源,Spark提供相應的方式和方法供使用者交流,日常學習的時候也可以充分利用這些資源。
Apache Spark中國社群 有獎投稿通道 啟動啦!
感謝對 Apache Spark 中國社群的關注和支援!如果您有意為 Apache Spark 中國社群投稿請關注如下的內容。 投稿內容要求: 內容要求是 Apache Spark 相關的技術內容,可以是對 Apache Spark 的分析,也可以是 Apache Spark 的實踐。 文章內容
Spark官方文檔: Spark Configuration(Spark配置)
spark官方文檔: spark configuration(spark配置)Spark官方文檔: Spark Configuration(Spark配置)Spark主要提供三種位置配置系統:環境變量:用來啟動Spark workers,可以設置在你的驅動程序或者conf/spark-env.sh 腳本中;j
.net 開發者嘗試Apache Spark?
基本概念 devel pac target 適配器 blank cti msdn 示例 本文編譯自一篇msdn magazine的文章,原文標題和鏈接為: Test Run - Introduction to Spark for .NET Developers http
Apache Spark 內存管理詳解
append 緩存 hashmap slave 完整 developer transform borde 區別 Apache Spark 內存管理詳解 Spark 作為一個基於內存的分布式計算引擎,其內存管理模塊在整個系統中扮演著非常重要的角色。理解 Spark 內存
【轉載】Apache Spark Jobs 性能調優(二)
放棄 instance bar 並行處理 defaults 執行 .exe nag 原則 調試資源分配 Spark 的用戶郵件郵件列表中經常會出現 “我有一個500個節點的集群,為什麽但是我的應用一次只有兩個 task 在執行”,鑒於 Spark 控制資源使用的參數的數
【轉載】Apache Spark Jobs 性能調優(一)
功能 dso brush 數據結構 nsf 必須 char dal 開始 當你開始編寫 Apache Spark 代碼或者瀏覽公開的 API 的時候,你會遇到各種各樣術語,比如 transformation,action,RDD 等等。 了解到這些是編寫 Spark 代碼
Hadoop和Apache Spark的異同
功能 框架 work red 需求 rdd 分布式文件 說道 管理 談到大數據,相信大家對Hadoop和Apache Spark這兩個名字並不陌生。但我們往往對它們的理解只是提留在字面上,並沒有對它們進行深入的思考,下面不妨跟我一塊看下它們究竟有
Apache Spark 2.2.0 中文文檔 - SparkR (R on Spark) | ApacheCN
機器學習 matrix ren mes 網頁 eve growth ear 統計 SparkR (R on Spark) 概述 SparkDataFrame 啟動: SparkSession 從 RStudio 來啟動 創建 SparkDataFrames 從本地
Apache Spark大數據分析入門(一)
做的 項目 persist fig shell命令 tutorial math 提高 welcom 摘要:Apache Spark的出現讓普通人也具備了大數據及實時數據分析能力。鑒於此,本文通過動手實戰操作演示帶領大家快速地入門學習Spark。本文是Apache Spark
Apache Spark 2.0三種API的傳說:RDD、DataFrame和Dataset
sensor json數據 query 答案 內存 table 引擎 library spark Apache Spark吸引廣大社區開發者的一個重要原因是:Apache Spark提供極其簡單、易用的APIs,支持跨多種語言(比如:Scala、Java、Python和R
Apache Spark 2.2中基於成本的優化器(CBO)(轉載)
ons roc art 3.4 post tinc ner sort 重排序 Apache Spark 2.2最近引入了高級的基於成本的優化器框架用於收集並均衡不同的列數據的統計工作 (例如., 基(cardinality)、唯一值的數量、空值、最大最小值、平均/最大長度,
Apache Spark 2.2.0新特性介紹(轉載)
端到端 clas flat ket 性能 保序回歸 rime day 工作 這個版本是 Structured Streaming 的一個重要裏程碑,因為其終於可以正式在生產環境中使用,實驗標簽(experimental tag)已經被移除。在流系統中支持對任意狀態進行操作;
Apache Kafka官方文檔翻譯(原創)
存儲 api 生產 instance rup 根據 distrib pos part Apache Kafka是一個分布式流平臺。準確的說是什麽意思呢?我們認為流平臺具有三種關鍵能力: 1、讓你對數據流進行發布訂閱。因此他很像一個消息隊列和企業級消息系統。 2、讓你以高容錯
What’s new for Spark SQL in Apache Spark 1.3(中英雙語)
block htm park -h apache HA log -a -- 文章標題 What’s new for Spark SQL in Apache Spark 1.3 作者介紹 Michael Armbrust 文章正文 參考文獻
Offset Management For Apache Kafka With Apache Spark Streaming
ould cond eth ref properly fine load them sca An ingest pattern that we commonly see being adopted at Cloudera customers is Apache Spark
Spark官方調優文檔翻譯(轉載)
區域 ng- 完整 好的 java類型 int 單個 rdd 常見 Spark調優 由於大部分Spark計算都是在內存中完成的,所以Spark程序的瓶頸可能由集群中任意一種資源導致,如:CPU、網絡帶寬、或者內存等。最常見的情況是,數據能裝進內存,而瓶頸是網絡帶寬;當
Apache Spark 2.3 重要特性介紹
情況 緩存 panda image author cluster 所有 分析方法 deep 為了繼續實現 Spark 更快,更輕松,更智能的目標,Spark 2 3 在許多模塊都做了重要的更新,比如 Structured Streaming 引入了低延遲的連續處理(cont
Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGSchedul
depend trace pan ssi ram rac .org driver 過大 在寫Spark程序是遇到問題 Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.orgapachea
Spark官方文檔翻譯(一)~Overview
安裝 pre mac os home 翻譯 size ber uri ems Spark官方文檔翻譯,有問題請及時指正,謝謝。 Overview頁 http://spark.apache.org/docs/latest/index.html Spark概述 Apac