機(jī)器學(xué)習(xí)是一種由計(jì)算機(jī)自動(dòng)從數(shù)據(jù)中獲得知識(shí)或規(guī)則的技術(shù)。豐田美國(guó)于2015年4月采用機(jī)器學(xué)習(xí)技術(shù)開發(fā)出了一種系統(tǒng),可由計(jì)算機(jī)根據(jù)內(nèi)容,對(duì)“推特

機(jī)器學(xué)習(xí)是一種由計(jì)算機(jī)自動(dòng)從數(shù)據(jù)中獲得知識(shí)或規(guī)則的技術(shù)。豐田美國(guó)于2015年4月采用機(jī)器學(xué)習(xí)技術(shù)開發(fā)出了一種系統(tǒng),可由計(jì)算機(jī)根據(jù)內(nèi)容,對(duì)“推特”(Twitter)等SNS(社交網(wǎng)絡(luò)服務(wù))上用戶寫下的留言進(jìn)行自動(dòng)分類。

用戶在SNS上針對(duì)豐田寫下的留言是關(guān)于“豐田車性能”的,還是關(guān)于“豐田專賣店(經(jīng)銷商)服務(wù)”的,亦或是關(guān)于“豐田CM”的呢?計(jì)算機(jī)通過對(duì)大數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),自動(dòng)找出了用來進(jìn)行這種判斷的“規(guī)則”。并利用Spark進(jìn)行了這方面的相關(guān)處理。

Kursar稱,“SNS上的留言數(shù)據(jù)非常龐大,由人來查看這些內(nèi)容是不可能的。通過開發(fā)出這種可自動(dòng)判斷出用戶留言內(nèi)容的系統(tǒng),可以從龐大的數(shù)據(jù)中找出有助于改善產(chǎn)品和服務(wù)的有益留言”。

利用存儲(chǔ)器進(jìn)行高速處理

為什么Spark能夠高速進(jìn)行機(jī)器學(xué)習(xí)處理呢?下面就介紹一下其工作原理。

機(jī)器學(xué)習(xí)可根據(jù)相關(guān)數(shù)據(jù),采用統(tǒng)計(jì)方法,針對(duì)計(jì)算機(jī)制定的“規(guī)則”與現(xiàn)實(shí)規(guī)則的相符程度進(jìn)行多次驗(yàn)證。Hadoop在每次進(jìn)行這種驗(yàn)證處理時(shí),都會(huì)從硬盤(HDD)中讀取數(shù)據(jù),或者將數(shù)據(jù)寫入硬盤。因此,需要花費(fèi)較長(zhǎng)時(shí)間來處理。

而Spark通過將所需數(shù)據(jù)保存在存儲(chǔ)器上來進(jìn)行這種驗(yàn)證處理。由于不使用低速硬盤,因此與Hadoop相比,可以縮短處理時(shí)間。

而且,Spark還可以與Hadoop共存。原因是Spark可以對(duì)Hadoop的標(biāo)準(zhǔn)存儲(chǔ)器“HDFS”保存的數(shù)據(jù)進(jìn)行處理。Spark的主要開發(fā)者之一、NTT DATA基礎(chǔ)系統(tǒng)業(yè)務(wù)本部的猿田浩輔表示,“Spark可對(duì)Hadoop起到補(bǔ)充作用”。對(duì)于現(xiàn)有Hadoop用戶而言,Spark能夠輕松導(dǎo)入,因此該軟件在短短1年內(nèi)就迅速普及開來。

在Spark峰會(huì)上,Databricks首席技術(shù)官(CTO)Matei Zaharia介紹了Spark的用戶等情況。

最大用戶為騰訊,服務(wù)器數(shù)量達(dá)到8000臺(tái)

Zaharia稱,目前Spark使用規(guī)模最大的企業(yè)是中國(guó)SNS運(yùn)營(yíng)商騰訊(Tencent),該公司在8000臺(tái)服務(wù)器上使用了Spark。中國(guó)EC(電商)阿里巴巴集團(tuán)則使用Spark一次處理高達(dá)1PB(Peta Byte)的數(shù)據(jù)。

中國(guó)企業(yè)對(duì)使用Spark非常積極。在中國(guó)大型搜索網(wǎng)站百度的美國(guó)法人百度美國(guó)擔(dān)任資深架構(gòu)師的James Peng在2015年Spark 峰會(huì)上登臺(tái)發(fā)表主題演講,介紹了百度使用Spark的情況(照片3)。Peng表示,百度目前使用1000多臺(tái)服務(wù)器來運(yùn)行Spark。在互聯(lián)網(wǎng)廣告、搜索、地圖服務(wù)、EC等業(yè)務(wù)領(lǐng)域均使用了Spark。

Peng介紹說,“對(duì)于百度的機(jī)器學(xué)習(xí)來說,Spark是不可缺少的平臺(tái)”。該公司目前正在考慮擴(kuò)展Spark,使其能夠用于以人腦為模型的機(jī)器學(xué)習(xí)方法“深度學(xué)習(xí)(Deep Learning)”的處理。

Airbnb通過機(jī)器學(xué)習(xí)技術(shù)制作需求預(yù)測(cè)模型

此外,Airbnb及Uber等公司也在Spark峰會(huì)上發(fā)表演講,介紹了Spark的導(dǎo)入實(shí)例。據(jù)Airbnb介紹,該公司使用Spark開發(fā)出了一種系統(tǒng),該系統(tǒng)能以天為單位預(yù)測(cè)全世界不同城市的住宿需求,為房主確定房間價(jià)格提供幫助。

在Airbnb網(wǎng)站上,出租房間的價(jià)格每天都在發(fā)生變化。這些房間的價(jià)格是根據(jù)Airbnb向房主提供的“定價(jià)輔助系統(tǒng)”來確定的。定價(jià)輔助系統(tǒng)根據(jù)計(jì)算機(jī)對(duì)50億個(gè)住宿相關(guān)數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)之后制作出來的需求預(yù)測(cè)模型,向房主建議合理的房間價(jià)格。

雖然Uber并未透露在什么業(yè)務(wù)中使用了Spark,但表示多個(gè)業(yè)務(wù)部門都在使用Spark,同時(shí)該公司還介紹了多個(gè)部門共同使用Spark時(shí)的技術(shù)訣竅。

在Spark峰會(huì)上大放異彩的是CIA首席信息官(CIO)道格·沃爾夫(Doug Wolfe)的主題演講(照片4)。CIA從2014年開始使用Spark,目前已有200臺(tái)服務(wù)器使用Spark。沃爾夫認(rèn)為,“CIA必須從龐大的數(shù)據(jù)中及時(shí)抓住一些征兆。因此,數(shù)據(jù)分析速度非常重要”。他表示,要提高數(shù)據(jù)分析速度,必須使用Spark。

CIA需要OSS

沃爾夫還介紹了CIA積極使用Spark等OSS的情況。CIA于2014年委托Amazon Web Services(AWS)在CIA數(shù)據(jù)中心內(nèi)構(gòu)建規(guī)格與AWS的公有云完全相同的云環(huán)境。沃爾夫表示,“AWS的吸引力是可以使用包括OSS在內(nèi)的多種軟件,AWS本身已形成OSS的‘生態(tài)系統(tǒng)’。我們也需要在CIA的云中建立與AWS相同的生態(tài)系統(tǒng)”。

在此次的Spark峰會(huì)上,除了豐田的美國(guó)法人之外,并沒有其他日本企業(yè)發(fā)表演講。不過,在2014年Spark峰會(huì)上,NTT DATA發(fā)表了演講,而且在本屆Spark峰會(huì)舉行期間,NTT DATA的猿田就任Spark核心開發(fā)者“Comitta”。Spark的星星之火也已開始燃燒到日本。

[責(zé)任編輯:中國(guó)電池網(wǎng)]

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與電池網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本網(wǎng)證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性,本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。涉及資本市場(chǎng)或上市公司內(nèi)容也不構(gòu)成任何投資建議,投資者據(jù)此操作,風(fēng)險(xiǎn)自擔(dān)!

凡本網(wǎng)注明?“來源:XXX(非電池網(wǎng))”的作品,凡屬媒體采訪本網(wǎng)或本網(wǎng)協(xié)調(diào)的專家、企業(yè)家等資源的稿件,轉(zhuǎn)載目的在于傳遞行業(yè)更多的信息或觀點(diǎn),并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。

如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的,請(qǐng)?jiān)谝恢軆?nèi)進(jìn)行,以便我們及時(shí)處理、刪除。電話:400-6197-660-2?郵箱:119@itdcw.com

電池網(wǎng)微信
豐田
中國(guó)電池網(wǎng)
大數(shù)據(jù)
Spark
CIA

CIA