應(yīng)用

技術(shù)

物聯(lián)網(wǎng)世界 >> 物聯(lián)網(wǎng)新聞 >> 物聯(lián)網(wǎng)熱點(diǎn)新聞
企業(yè)注冊(cè)個(gè)人注冊(cè)登錄

未來(lái)深度學(xué)習(xí)的關(guān)鍵是光子計(jì)算

2021-08-11 10:23 阿淺

導(dǎo)讀:光計(jì)算可以削減神經(jīng)網(wǎng)絡(luò)的能源需求。

在當(dāng)下,帶有人類直覺(jué)的計(jì)算機(jī)被應(yīng)用到很多案例中,比如計(jì)算機(jī)日常識(shí)別圖像中的物體、轉(zhuǎn)錄語(yǔ)音、外語(yǔ)翻譯、診斷醫(yī)療狀況、玩復(fù)雜的游戲和駕駛汽車等等。

促成這些驚人發(fā)展的技術(shù)稱為深度學(xué)習(xí),這個(gè)術(shù)語(yǔ)指的是被稱為人工神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個(gè)子領(lǐng)域,是基于將復(fù)雜模型與數(shù)據(jù)擬合的計(jì)算機(jī)科學(xué)的一個(gè)分支。

雖然機(jī)器學(xué)習(xí)已經(jīng)存在了很長(zhǎng)時(shí)間,但深度學(xué)習(xí)近些年才開(kāi)始嶄露頭角。因?yàn)樵絹?lái)越多的計(jì)算能力被廣泛應(yīng)用在各個(gè)領(lǐng)域——可以輕松收集并用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)的大量數(shù)據(jù)。

千禧年左右,計(jì)算能力開(kāi)始突飛猛進(jìn),當(dāng)時(shí)圖形處理單元 (GPU) 開(kāi)始被 用于非圖形計(jì)算領(lǐng)域,并且在過(guò)去十年的發(fā)展里這種趨勢(shì)逐漸普及。但深度學(xué)習(xí)的計(jì)算需求增長(zhǎng)得更快,這種動(dòng)態(tài)促使工程師開(kāi)發(fā)專門針對(duì)深度學(xué)習(xí)的電子硬件加速器,谷歌的TPU就是一個(gè)很好的例子。

本文筆者將介紹解決這個(gè)問(wèn)題的一種不同以往的方法——使用光學(xué)處理器用光子而不是電子來(lái)執(zhí)行神經(jīng)網(wǎng)絡(luò)計(jì)算

人工神經(jīng)元是使用在某種數(shù)字電子計(jì)算機(jī)上運(yùn)行的特殊軟件構(gòu)建的。該軟件為給定的神經(jīng)元提供多個(gè)輸入和一個(gè)輸出。每個(gè)神經(jīng)元的狀態(tài)取決于其輸入的加權(quán)和,非線性函數(shù)(稱為激活函數(shù))應(yīng)用于該輸入。最后,這個(gè)神經(jīng)元的輸出就成為各種其他神經(jīng)元的輸入。

| 這張計(jì)算機(jī)渲染圖描繪了作者和他的同事為使用光執(zhí)行神經(jīng)網(wǎng)絡(luò)計(jì)算而設(shè)計(jì)的光子芯片上的圖案。

減少神經(jīng)網(wǎng)絡(luò)的能源需求可能需要使用光計(jì)算加持

為了保證計(jì)算效率,我們會(huì)給神經(jīng)元進(jìn)行分組,數(shù)據(jù)在相鄰的組之間傳輸。通過(guò)線性計(jì)算方式進(jìn)行科學(xué)計(jì)算,但隨著網(wǎng)絡(luò)規(guī)模的增長(zhǎng),神經(jīng)元和組越來(lái)越多,線性計(jì)算越來(lái)越復(fù)雜?,F(xiàn)代計(jì)算機(jī)硬件已經(jīng)針對(duì)矩陣運(yùn)算進(jìn)行了很好的優(yōu)化,線性計(jì)算也已經(jīng)是高性能計(jì)算的基礎(chǔ)。

深度學(xué)習(xí)需要越來(lái)越多的乘法累加運(yùn)算。以 LeNet 為例,這是一種開(kāi)創(chuàng)性的深度神經(jīng)網(wǎng)絡(luò),旨在進(jìn)行圖像分類。1998 年,它被證明在識(shí)別手寫字母和數(shù)字方面優(yōu)于其他機(jī)器技術(shù)。但到 2012 年,神經(jīng)網(wǎng)絡(luò)AlexNet的乘法累加運(yùn)算次數(shù)是 LeNet 的 1600 倍,能夠識(shí)別圖像中數(shù)千種不同類型的對(duì)象。

從 LeNet 最初的成功發(fā)展到 AlexNet,需要將計(jì)算性能提高近 11 倍。在這 14 年的時(shí)間里,摩爾定律提供了大部分增長(zhǎng)條件?,F(xiàn)在的挑戰(zhàn)是保持這種趨勢(shì),因?yàn)槟柖梢呀?jīng)到達(dá)一個(gè)瓶頸了,通常的解決方案是在問(wèn)題上投入更多的計(jì)算資源以及時(shí)間、金錢和精力。

訓(xùn)練眼下一個(gè)大型的神經(jīng)網(wǎng)絡(luò)通常會(huì)反應(yīng)出顯著的環(huán)境因素。例如,一個(gè)2019年的案例發(fā)現(xiàn),訓(xùn)練某個(gè)深度神經(jīng)網(wǎng)絡(luò)進(jìn)行自然語(yǔ)言處理所產(chǎn)生的二氧化碳排放量是汽車在其整個(gè)生命周期中通常與駕駛相關(guān)的二氧化碳排放量的五倍。

不可否認(rèn),數(shù)字電子計(jì)算機(jī)的改進(jìn)使深度學(xué)習(xí)得以蓬勃發(fā)展。但這并不意味著進(jìn)行神經(jīng)網(wǎng)絡(luò)計(jì)算的唯一方法就是使用此類機(jī)器。幾十年前,當(dāng)數(shù)字計(jì)算機(jī)還相對(duì)原始時(shí),一些工程師使用模擬計(jì)算機(jī)來(lái)解決困難的計(jì)算。隨著數(shù)字電子技術(shù)的改進(jìn),那些模擬計(jì)算機(jī)被淘汰了?,F(xiàn)在可能是再次采用該策略的時(shí)候了,特別是當(dāng)模擬計(jì)算可以通過(guò)光學(xué)方式完成時(shí)。

光纖可以支持比電線更高的數(shù)據(jù)速率。這就是為什么從 1970 年代后期開(kāi)始,所有長(zhǎng)途通信線路都采用光纖的原因。從那時(shí)起,光數(shù)據(jù)鏈路取代了銅線,跨度越來(lái)越短,一直到數(shù)據(jù)中心的端到端通信。光數(shù)據(jù)通信速度更快,功耗更低。光學(xué)計(jì)算也具有同樣的優(yōu)勢(shì)。

但是通信數(shù)據(jù)和用它計(jì)算之間有很大的區(qū)別。這就是模擬光學(xué)方法遇到障礙的地方。傳統(tǒng)計(jì)算機(jī)基于晶體管,晶體管是高度非線性的電路元件——這意味著它們的輸出不僅僅與其輸入成正比。非線性算法對(duì)晶體管執(zhí)行開(kāi)關(guān)命令,執(zhí)行邏輯命令通常是電子設(shè)備來(lái)完成。但是光子遵循麥克斯韋方程,這意味著光學(xué)設(shè)備的輸出通常與其輸入成正比。

為了說(shuō)明如何做到這一點(diǎn),我將在這里描述一個(gè)光子設(shè)備,當(dāng)它與一些簡(jiǎn)單的模擬電子設(shè)備耦合時(shí),可以將兩個(gè)矩陣相乘。這種乘法將一個(gè)矩陣的行與另一個(gè)矩陣的列組合在一起。

光學(xué)計(jì)算速度更快,功耗更低

該設(shè)備中的基本計(jì)算單元是一個(gè)稱為分束器的光學(xué)元件,可以把它想象成一個(gè) 45 度角的半鍍銀鏡子。從側(cè)面向其中發(fā)送一束光,分束器將允許一半光直接穿過(guò)它,而另一半則從成角度的鏡子反射,使其與入射光束成 90 度反彈。

現(xiàn)在將第二束光垂直于第一束光照射到該分束器中,使其照射到成角度的鏡子的另一側(cè)。該第二光束的一半將類似地以 90 度角透射和反射。兩個(gè)輸出光束將與第一個(gè)光束的兩個(gè)輸出組合。所以這個(gè)分束器有兩個(gè)輸入和兩個(gè)輸出。

要使用此設(shè)備進(jìn)行矩陣乘法,需要生成兩個(gè)光束,其電場(chǎng)強(qiáng)度與要相乘的兩個(gè)數(shù)字成正比。我們稱這些場(chǎng)強(qiáng)為 x和y。將這兩束光照射到分束器中,分束器將合并這兩束光。這種特殊的分束器會(huì)產(chǎn)生兩個(gè)輸出,其電場(chǎng)值為 ( x + y )/√2 和 ( x ? y )/√2。

除了分束器之外,這種模擬倍增器還需要兩個(gè)簡(jiǎn)單的電子元件——光電探測(cè)器——來(lái)測(cè)量?jī)蓚€(gè)輸出光束。這里不測(cè)量這些光束的電場(chǎng)強(qiáng)度,測(cè)量光束的功率,該功率與其電場(chǎng)強(qiáng)度的平方成正比。

這意味著如果將一個(gè)數(shù)字編碼為具有一定強(qiáng)度的光束,將另一個(gè)數(shù)字編碼為另一種強(qiáng)度的光束,將它們發(fā)送通過(guò)這樣的分束器,用光電探測(cè)器測(cè)量?jī)蓚€(gè)輸出,并在將它們相加之前抵消產(chǎn)生的部分電信號(hào),就得到一個(gè)與兩個(gè)數(shù)字的乘積成正比的信號(hào)。

| Mach-Zehnder 干涉儀的模擬圖像。Lightmatter 的神經(jīng)網(wǎng)絡(luò)加速器中集成的 Mach-Zehnder 干涉儀的模擬顯示了三種不同的條件,即在干涉儀的兩個(gè)分支中傳播的光經(jīng)歷不同的相對(duì)相移(a 為 0 度,b 為 45 度,c 為 90 度)。

將輸出信號(hào)饋送到電容器中,然后只要脈沖持續(xù),它就會(huì)積累電荷。然后在相同的持續(xù)時(shí)間內(nèi)再次脈沖輸入,這次編碼兩個(gè)要相乘的新數(shù)字。需要多次重復(fù)此過(guò)程,每次執(zhí)行一個(gè)乘法累加運(yùn)算。

其中最耗能的部分是讀取該電容器上的電壓,這需要一個(gè)模數(shù)轉(zhuǎn)換器。但是不必在每個(gè)脈沖之后都這樣做——可以等到一系列的結(jié)束,比如 N 個(gè)脈沖。這意味著該設(shè)備可以使用相同的能量執(zhí)行N 次乘法累加運(yùn)算,以讀取N是小還是大的答案。這里,N對(duì)應(yīng)于神經(jīng)網(wǎng)絡(luò)中每層的神經(jīng)元數(shù)量。

因?yàn)橄嗤闹低ǔS米鞫鄠€(gè)神經(jīng)元的輸入。與其將這個(gè)數(shù)字多次轉(zhuǎn)換為光——每次都消耗能量——它可以只轉(zhuǎn)換一次,產(chǎn)生的光束可以分成許多通道。通過(guò)這種方式,輸入轉(zhuǎn)換的能源成本可以在許多操作中分?jǐn)偂?/p>

將一束光束分成多個(gè)通道不會(huì)比光透鏡更復(fù)雜,但將透鏡放在芯片上就很棘手。因此,這種正在開(kāi)發(fā)的以光學(xué)方式執(zhí)行神經(jīng)網(wǎng)絡(luò)計(jì)算的設(shè)備很可能最終成為一種混合體,它將高度集成的光子芯片與單獨(dú)的光學(xué)元件結(jié)合在一起。

光子學(xué)具有將深度學(xué)習(xí)加速幾個(gè)數(shù)量級(jí)的潛力

目前光學(xué)計(jì)算技術(shù)還有許多挑戰(zhàn)需要克服。一是提高模擬光學(xué)計(jì)算的精度和動(dòng)態(tài)范圍,達(dá)到電子設(shè)備所需要的效果。這些光學(xué)處理器會(huì)受到各種噪聲源的影響,而且用于輸入和輸出數(shù)據(jù)的數(shù)模轉(zhuǎn)換器和模數(shù)轉(zhuǎn)換器精度有限。這需要更高的精度,尤其是神經(jīng)網(wǎng)絡(luò)訓(xùn)練。

將光學(xué)元件集成到芯片上也存在困難。由于這些組件的尺寸為幾十微米,它們無(wú)法像晶體管一樣緊密地封裝,因此所需的芯片面積會(huì)迅速增加。麻省理工學(xué)院研究人員在2017 年對(duì)這種方法的演示涉及一個(gè)邊長(zhǎng)為 1.5 毫米的芯片,即使是最大的芯片也不大于幾平方厘米,這限制了可以通過(guò)這種方式并行處理的矩陣的大小。

在理論上,光子學(xué)有可能將深度學(xué)習(xí)加速幾個(gè)數(shù)量級(jí)?;诋?dāng)前可用于各種組件(光調(diào)制器、檢測(cè)器、放大器、模數(shù)轉(zhuǎn)換器)的技術(shù),可以合理地認(rèn)為神經(jīng)網(wǎng)絡(luò)計(jì)算的能源效率可以比當(dāng)今的電子處理器高 1,000 倍。

模擬光學(xué)計(jì)算中的許多概念已有數(shù)十年歷史。有些甚至早于硅計(jì)算機(jī)。光學(xué)矩陣乘法的方案, 甚至是光學(xué)神經(jīng)網(wǎng)絡(luò)的方案,在 1970 年代首次得到證明。但這種方法并沒(méi)有流行起來(lái)。這次會(huì)有所不同嗎?可能,出于三個(gè)原因。

首先,深度學(xué)習(xí)已經(jīng)不僅僅是學(xué)術(shù)上的理論知識(shí),現(xiàn)在已經(jīng)在生活中被真正使用。其次, 我們不能僅僅依靠摩爾定律來(lái)繼續(xù)改進(jìn)電子產(chǎn)品。最后,我們有了新技術(shù):集成光子學(xué)。這些因素表明,光學(xué)神經(jīng)網(wǎng)絡(luò)會(huì)是深度學(xué)習(xí)的計(jì)算關(guān)鍵技術(shù)。

來(lái)源:IEEE Spectrum