有一款數(shù)據(jù)處理軟件,正式版才公開(kāi)1年的時(shí)間,就已經(jīng)被“Uber”、“Airbnb”等備受關(guān)注的新興企業(yè)以及豐田等大型企業(yè)采用,美國(guó)IBM將其稱為“今后10年內(nèi)數(shù)據(jù)領(lǐng)域最重要的開(kāi)源軟件(OSS)”,并開(kāi)始為相關(guān)項(xiàng)目投入3500名研發(fā)人員。這款軟件就是“Spark”。
2015年6月15~17日(美國(guó)時(shí)間),用戶大會(huì)“2015年Spark峰會(huì) ”在舊金山市舉行,參會(huì)用戶達(dá)到了2000名(照片1)。
照片1:“2015年Spark峰會(huì)”吸引了2000人參加
在本屆大會(huì)上,出租車配車服務(wù)商Uber Technologies、將民宅作為賓館出租的Airbnb、豐田的美國(guó)法人、百度以及美國(guó)中央情報(bào)局(CIA)等紛紛介紹了Spark的應(yīng)用實(shí)例。IBM也配合該大會(huì)的舉辦,宣布為Spark相關(guān)項(xiàng)目投入3500名研發(fā)人員。
Spark是美國(guó)加利福尼亞大學(xué)伯克利分校開(kāi)始開(kāi)發(fā)的OSS,目前由該校研究人員創(chuàng)辦的初創(chuàng)企業(yè)Databricks主導(dǎo)開(kāi)發(fā)。其正式版“Spark 1.0”剛剛于1年前,也就是2014年5月公開(kāi)。
盡管如此,Spark仍開(kāi)始被視為繼大數(shù)據(jù)處理常用軟件“Hadoop”之后的大數(shù)據(jù)處理新主角。為何Spark會(huì)受到如此高的關(guān)注呢?下面就根據(jù)用戶在2015年Spark峰會(huì)上公開(kāi)的相關(guān)內(nèi)容,介紹一下Spark的現(xiàn)狀。
Spark是通過(guò)讓數(shù)十~數(shù)百臺(tái)PC服務(wù)器聯(lián)動(dòng)來(lái)實(shí)現(xiàn)大數(shù)據(jù)高速處理的“分布數(shù)據(jù)處理軟件”。只需增加PC服務(wù)器數(shù)量即可提高處理性能,因此無(wú)需使用昂貴的大型服務(wù)器,就能以較低的成本進(jìn)行大數(shù)據(jù)處理。
豐田利用Spark提高“機(jī)器學(xué)習(xí)”速度
照片2:豐田美國(guó)的數(shù)據(jù)科學(xué)家Brian Kursar
Spark與Hadoop同為分布數(shù)據(jù)處理軟件。Spark的不同之處在于能夠高速處理Hadoop不擅長(zhǎng)的“機(jī)器學(xué)習(xí)”。在Spark峰會(huì)上發(fā)表演講的豐田美國(guó)公司(豐田的美國(guó)法人,Toyota USA)數(shù)據(jù)科學(xué)家Brian Kursar表示,“通過(guò)使用Spark,可以使以前需要花費(fèi)36小時(shí)的機(jī)器學(xué)習(xí)處理時(shí)間縮短至9分鐘”(照片2)。