微軟雲端大數據宣布投入更多Spark應用開發

2016.06.06 by
紀品志
本週在美國舊金山舉行接連三天的 Spark Summit 高峰會,討論數據科學與機器學習等主題,有微軟、亞馬遜、IBM、百度等公司人員參與,...

本週在美國舊金山舉行接連三天的 Spark Summit 高峰會,討論數據科學與機器學習等主題,有微軟、亞馬遜、IBM、百度等公司人員參與,聚集了 Apache Spark 社群上千名研究者與技術開發人員。微軟公司同時也在部落格上發佈消息,公布多項應用 Spark 的相關服務。

Apache Spark
(Apache Spark)

Apache Spark 是由加州大學柏克萊分校 AMPLab 所開發的開源叢集運算框架,其 in-memory 處理技術,大幅提升運算巨量資料的效能,據稱可比 Hadoop MapReduce 在記憶體內處理快上一百倍、在硬碟內快上十倍。因其在大量數據處理及機器學習方面優異的性能,又支援 Java、Scala、Python、R 多種高度支援數據處理的程式語言開發環境,才正式推出兩年就迅速崛起,是目前大數據市場中的黑馬;借力已在大數據領域中發展十年的 Hadoop 生態系快速崛起(Spark 可與 Hadoop 相容,但效能又更佳),很快就建立起自己的技術社群與生態系統。

微軟公司自去年起,也加入了 Spark 技術生態系,今天更宣佈微軟雲端技術及大數據分析將投入更多 Spark 的應用開發。據微軟部落格發佈的訊息,Spark for Azure HDInsight 昨日已推出了正式(GA)版。雲端 R Server for HDInsight 與 Spark 互相整合,將於今年夏季正式推出。R Server for Hadoop on-premises 則將在六月開始同時支援 Microsoft R 與 Spark。

另外,微軟公司也釋出免費的 R Client 工具,供數據科學家利用 R 進行高效能的分析。此外,微軟雲端企業數據分析工具 Power BI 現在也開始支援 Spark Streaming 即時數據流處理與發佈。

IBM 去年宣布將大規模資助 Spark,微軟、Google 也應用 Spark 建置數據雲端分析服務與機器學習平台,顯示 Spark 現在已成為許多企業與技術人員愛用的大數據資料分析框架。

資料來源:微軟TechCrunchApache Spark

相關閱讀:IBM宣布大規模資助開源大數據項目Spark

文章代表圖來源:Antonio TwizShiz Edward

@@ACTIVITYID:638@@

每日精選科技圈重要消息