新聞資訊
公司新聞

網[Wǎng]站首◈頁◈ > 公司[Sī]新聞

百度為[Wéi]何開源深度機器學(Xué)習平台?

5月20日,百度在github上[Shàng]開源了其深度⋄機⋄器學習平(Píng)台。此[Cǐ]番發布的深[Shēn]度機器學習開源◆平◆台屬于“深盟”的[De]◈開◈源組織,其核心開發者來自百度深度學習研究院[Yuàn](IDL),微軟[Ruǎn]亞洲研究院、華盛▿頓▿(Dùn)大學、紐約大學、香港科技大學,卡耐[Nài]基·梅隴大(Dà)學等知名公司[Sī]和高校。

通過這一開源平台,世(Shì)界各地的開發者們可以免◆費◆[Fèi]獲得(Dé)更優質◇和◇更容易使用的(De)分布式機[Jī]器學習算法[Fǎ]源碼,從[Cóng]而大幅降▽低▽開發和[Hé]部署分布式機器學習▿系▿[Xì]統及相關應(Yīng)用(Yòng)的門檻。包括今(Jīn)日◇頭◇條、汽車之(Zhī)家等(Děng)在内的[De]多家公司已經通(Tōng)過該開放平台受益。

作為在人工●智●能(Néng)布局較早的玩家,百度[Dù]擁有領先業界(Jiè)的實(Shí)力(Lì)。從2013年百度深(Shēn)度學習研究院(IDL)的創建及[Jí]2014年Andrew Ng的(De)加盟至今,百度DMLC分布式深度機器▿學▿習▾開▾源項目(簡稱“深盟”)已在深度學[Xué]習的[De]多個應用領域做[Zuò]過探索(Suǒ),上線了如xgboost(速度快效果好的Boosting模型)、CXXNET(極緻的C++深度學習庫)、Minerva(高效靈(Líng)活[Huó]的并行深◊度◊學習引擎)以及Parameter Server(一小時訓練600T數據)等産◆品◆[Pǐn],在語音識别、OCR識别、人[Rén]臉識●别●以及計[Jì]算效率提升上發布[Bù]了多個成熟産品。

◈而◈具◆有◆(Yǒu)一系列領先優勢的百(Bǎi)度卻∇選∇擇開源其深度(Dù)機器學習[Xí]平(Píng)台,為何交底自己的核心技術?

深思之下,卻是在(Zài)面對業界無奈[Nài]時的遠○見○之舉(Jǔ)。

擁抱世界:開源的魅力

開源,顧名思義,就是開放自己的源代碼給别人查閱和使用,盡管(Guǎn)看起來(Lái)▾很▾傻,然而諸多曆史事實(Shí)卻∆告∆訴我們擁(Yōng)抱世界也[Yě]能讓世界▲擁▲抱你。

Android的逆襲就是明▽證▽,在iOS侵占絕大多數智能▲手▲[Shǒu]機操作系統的時代誕生,Google選擇開源[Yuán],讓早已在蘋果面(Miàn)前沒有機會(Huì)的業界見(Jiàn)到▿了▿希望,至(Zhì)今Android已擁有過半的市場份額(é),以至于在移動互聯網◆大◆[Dà]行其道的今天,Google可[Kě]以憑∆借∆它與(Yǔ)旗下産品的整合打造屬于自己的強大生(Shēng)态系統。相比之下,生而嬌貴的Windows mobile的故事夠令人發醒的,終于微軟也不得不寄◆人◆(Rén)籬下地去兼容Android和iOS平台應[Yīng]用。此外(Wài),作為微軟最主要的應用○程○序框架,微軟對[Duì].net寄予厚望,希望(Wàng)它的開源[Yuán]可以來到所有平台,進而重現JAVA的光輝曆史。這也證明了即使強大如微軟也[Yě]無法憑借一己(Jǐ)之力讓其産品得到世界的擁抱。

衆(Zhōng)人拾材火焰高:用平台籠[Lóng]絡世界的力量

要◊實◊[Shí]現人工智能,機器必須具備自主學習能力,深度學習作為機器學習(Xí)領▲域▲的重▲大▲突破,可以(Yǐ)完成具有高∇度∇[Dù]抽象特征的◈人◈工智能任務,如自然語言理解(Jiě)等複◊雜◊場(Chǎng)景,因而備受業界追(Zhuī)捧。當然,機器(Qì)學習領域[Yù]并[Bìng]不隻是有深度學習這一種算法的存在,然而深度學習卻有着顯著的優勢[Shì]:在數據集足夠大的情況下,深度學習擁有最好的預測能力。盡管在算法∆的∆選●擇●上仍然存在“殺雞焉[Yān]用[Yòng]宰牛刀”的争(Zhēng)論,但深[Shēn]度學習算法為人工(Gōng)◆智◆能領(Lǐng)域注入(Rù)的強大能力卻是其他算法無以比拟的[De];同時,随着深度學習技術的成熟,諸多傳統(Tǒng)機器學習算法的淘汰幾乎是必然(Rán)的。然[Rán]而正如前述,深度學習對大量數據的需求及其本身(Shēn)的複雜[Zá]性◆仍◆然是[Shì]其發展壯大路上的最(Zuì)大阻礙,◆也◆是[Shì]業○界○的無奈◊所◊◊在◊(Zài)。

百度在此領域發(Fā)力較早,且在諸多方向上進行了深入的研究,利用深入◈學◈⋄習⋄結合(Hé)自身搜索引擎[Qíng]的大數據讓機器翻譯及自然[Rán]語▲言▲等技術實現了新的飛躍。然而在面向更廣大(Dà)更具體的應用場景時,任何一個公司◆都◆[Dōu]難以滿足所有需▲求▲(Qiú)。借鑒曆史,開放共赢不僅(Jǐn)可以把事[Shì]情做的,也讓業界[Jiè]和生态系統得到健康發[Fā]展。

百度此次開源也是完全奔着建(Jiàn)平(Píng)台去的。完全采(Cǎi)用C++語(Yǔ)言[Yán]搭建核心,為平台的穩定高效運行奠定了基礎;覆蓋了三類最常▽用▽的機(Jī)器學習(Xí)算(Suàn)法,包括用于點擊預測的◊稀◊疏線性模型(Xíng)、用于排序的決策樹模型以及深入(Rù)學習[Xí],滿足了最廣大的需求;重點開發的“蟲◊洞◊[Dòng]”項目将自動構(Gòu)建深盟所有項目,為所有組[Zǔ]▿件▿(Jiàn)提供一緻的數(Shù)據流支持且提供包括Amazon EC2,Microsoft Azure, Google Compute Engine在内的雲計算平台兼(Jiān)容支持,降低平台的準◈入◈門檻。

開源[Yuán]并入駐Github也進一步(Bù)強調了其開放的心▿态▿(Tài)和對平台的信心。一系列的▿動▿作都是◊希◊望讓開發者可以獲[Huò]得更優質更容易使用的深▿入▿學習算法源碼,降低開發和∇部∇署深入學習系(Xì)統及相關應用的門檻,●進●而利用世[Shì]界的力量壯大自身。

面對可預料的爆發(Fā),技術一定程(Chéng)度上漸發成熟,但也因為(Wéi)各自的技術基因和路(Lù)線差異,面臨着極●大●的分裂傾向。開放的心▽态▽(Tài)擁抱世界,打造機器學(Xué)習領域的國際标準,▾百▾度的此舉既是對前期研究●投●(Tóu)入的回收保障,更∆是∆攜手籠絡[Luò]友商,确保自[Zì]身的◊話◊[Huà]語權所在[Zài]。