機(jī)器學(xué)習(xí)是一種由計(jì)算機(jī)自動(dòng)從數(shù)據(jù)中獲得知識(shí)或規(guī)則的技術(shù)。豐田美國(guó)于2015年4月采用機(jī)器學(xué)習(xí)技術(shù)開發(fā)出了一種系統(tǒng)，可由計(jì)算機(jī)根據(jù)內(nèi)容，對(duì)“推特

用戶在SNS上針對(duì)豐田寫下的留言是關(guān)于“豐田車性能”的，還是關(guān)于“豐田專賣店（經(jīng)銷商）服務(wù)”的，亦或是關(guān)于“豐田CM”的呢？計(jì)算機(jī)通過對(duì)大數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)，自動(dòng)找出了用來進(jìn)行這種判斷的“規(guī)則”。并利用Spark進(jìn)行了這方面的相關(guān)處理。

Kursar稱，“SNS上的留言數(shù)據(jù)非常龐大，由人來查看這些內(nèi)容是不可能的。通過開發(fā)出這種可自動(dòng)判斷出用戶留言內(nèi)容的系統(tǒng)，可以從龐大的數(shù)據(jù)中找出有助于改善產(chǎn)品和服務(wù)的有益留言”。

利用存儲(chǔ)器進(jìn)行高速處理

為什么Spark能夠高速進(jìn)行機(jī)器學(xué)習(xí)處理呢？下面就介紹一下其工作原理。

機(jī)器學(xué)習(xí)可根據(jù)相關(guān)數(shù)據(jù)，采用統(tǒng)計(jì)方法，針對(duì)計(jì)算機(jī)制定的“規(guī)則”與現(xiàn)實(shí)規(guī)則的相符程度進(jìn)行多次驗(yàn)證。Hadoop在每次進(jìn)行這種驗(yàn)證處理時(shí)，都會(huì)從硬盤（HDD）中讀取數(shù)據(jù)，或者將數(shù)據(jù)寫入硬盤。因此，需要花費(fèi)較長(zhǎng)時(shí)間來處理。

而Spark通過將所需數(shù)據(jù)保存在存儲(chǔ)器上來進(jìn)行這種驗(yàn)證處理。由于不使用低速硬盤，因此與Hadoop相比，可以縮短處理時(shí)間。

而且，Spark還可以與Hadoop共存。原因是Spark可以對(duì)Hadoop的標(biāo)準(zhǔn)存儲(chǔ)器“HDFS”保存的數(shù)據(jù)進(jìn)行處理。Spark的主要開發(fā)者之一、NTT DATA基礎(chǔ)系統(tǒng)業(yè)務(wù)本部的猿田浩輔表示，“Spark可對(duì)Hadoop起到補(bǔ)充作用”。對(duì)于現(xiàn)有Hadoop用戶而言，Spark能夠輕松導(dǎo)入，因此該軟件在短短1年內(nèi)就迅速普及開來。

在Spark峰會(huì)上，Databricks首席技術(shù)官（CTO）Matei Zaharia介紹了Spark的用戶等情況。

最大用戶為騰訊，服務(wù)器數(shù)量達(dá)到8000臺(tái)

Zaharia稱，目前Spark使用規(guī)模最大的企業(yè)是中國(guó)SNS運(yùn)營(yíng)商騰訊（Tencent），該公司在8000臺(tái)服務(wù)器上使用了Spark。中國(guó)EC（電商）阿里巴巴集團(tuán)則使用Spark一次處理高達(dá)1PB（Peta Byte）的數(shù)據(jù)。

中國(guó)企業(yè)對(duì)使用Spark非常積極。在中國(guó)大型搜索網(wǎng)站百度的美國(guó)法人百度美國(guó)擔(dān)任資深架構(gòu)師的James Peng在2015年Spark 峰會(huì)上登臺(tái)發(fā)表主題演講，介紹了百度使用Spark的情況（照片3）。Peng表示，百度目前使用1000多臺(tái)服務(wù)器來運(yùn)行Spark。在互聯(lián)網(wǎng)廣告、搜索、地圖服務(wù)、EC等業(yè)務(wù)領(lǐng)域均使用了Spark。

Peng介紹說，“對(duì)于百度的機(jī)器學(xué)習(xí)來說，Spark是不可缺少的平臺(tái)”。該公司目前正在考慮擴(kuò)展Spark，使其能夠用于以人腦為模型的機(jī)器學(xué)習(xí)方法“深度學(xué)習(xí)（Deep Learning）”的處理。

Airbnb通過機(jī)器學(xué)習(xí)技術(shù)制作需求預(yù)測(cè)模型

此外，Airbnb及Uber等公司也在Spark峰會(huì)上發(fā)表演講，介紹了Spark的導(dǎo)入實(shí)例。據(jù)Airbnb介紹，該公司使用Spark開發(fā)出了一種系統(tǒng)，該系統(tǒng)能以天為單位預(yù)測(cè)全世界不同城市的住宿需求，為房主確定房間價(jià)格提供幫助。

在Airbnb網(wǎng)站上，出租房間的價(jià)格每天都在發(fā)生變化。這些房間的價(jià)格是根據(jù)Airbnb向房主提供的“定價(jià)輔助系統(tǒng)”來確定的。定價(jià)輔助系統(tǒng)根據(jù)計(jì)算機(jī)對(duì)50億個(gè)住宿相關(guān)數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)之后制作出來的需求預(yù)測(cè)模型，向房主建議合理的房間價(jià)格。

雖然Uber并未透露在什么業(yè)務(wù)中使用了Spark，但表示多個(gè)業(yè)務(wù)部門都在使用Spark，同時(shí)該公司還介紹了多個(gè)部門共同使用Spark時(shí)的技術(shù)訣竅。

在Spark峰會(huì)上大放異彩的是CIA首席信息官（CIO）道格·沃爾夫（Doug Wolfe）的主題演講（照片4）。CIA從2014年開始使用Spark，目前已有200臺(tái)服務(wù)器使用Spark。沃爾夫認(rèn)為，“CIA必須從龐大的數(shù)據(jù)中及時(shí)抓住一些征兆。因此，數(shù)據(jù)分析速度非常重要”。他表示，要提高數(shù)據(jù)分析速度，必須使用Spark。

CIA需要OSS

沃爾夫還介紹了CIA積極使用Spark等OSS的情況。CIA于2014年委托Amazon Web Services（AWS）在CIA數(shù)據(jù)中心內(nèi)構(gòu)建規(guī)格與AWS的公有云完全相同的云環(huán)境。沃爾夫表示，“AWS的吸引力是可以使用包括OSS在內(nèi)的多種軟件，AWS本身已形成OSS的‘生態(tài)系統(tǒng)’。我們也需要在CIA的云中建立與AWS相同的生態(tài)系統(tǒng)”。

在此次的Spark峰會(huì)上，除了豐田的美國(guó)法人之外，并沒有其他日本企業(yè)發(fā)表演講。不過，在2014年Spark峰會(huì)上，NTT DATA發(fā)表了演講，而且在本屆Spark峰會(huì)舉行期間，NTT DATA的猿田就任Spark核心開發(fā)者“Comitta”。Spark的星星之火也已開始燃燒到日本。

[責(zé)任編輯：中國(guó)電池網(wǎng)]

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與電池網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本網(wǎng)證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性，本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。涉及資本市場(chǎng)或上市公司內(nèi)容也不構(gòu)成任何投資建議，投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)！

凡本網(wǎng)注明?“來源：XXX（非電池網(wǎng)）”的作品，凡屬媒體采訪本網(wǎng)或本網(wǎng)協(xié)調(diào)的專家、企業(yè)家等資源的稿件，轉(zhuǎn)載目的在于傳遞行業(yè)更多的信息或觀點(diǎn)，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。

如因作品內(nèi)容、版權(quán)和其它問題需要同本網(wǎng)聯(lián)系的，請(qǐng)?jiān)谝恢軆?nèi)進(jìn)行，以便我們及時(shí)處理、刪除。電話：400-6197-660-2?郵箱：119@itdcw.com

豐田

中國(guó)電池網(wǎng)

大數(shù)據(jù)

Spark

CIA

一级137片内射偷拍|爱爱视频一区二区三区|亚洲中文自拍另类av片|亚洲人成日韩中文字幕不|欧美午夜一区在线欧美亚洲|亚洲一级高清在线中文字幕|国产精品一线二线三线精华液|5388国产亚洲欧美在线观看

大數(shù)據(jù)的下一個(gè)主角是“Spark” 豐田及CIA等紛紛采用(2)

導(dǎo)航