技術(shù)
導(dǎo)讀:VSR領(lǐng)域主要是訓(xùn)練人工智能在沒有任何音頻輸入的情況下讀懂唇語。
據(jù)加拿大媒體VICE報(bào)道,近日,視覺語音識(shí)別(VSR)領(lǐng)域又迎來重大突破,愛爾蘭初創(chuàng)公司Liopa開發(fā)出一種名為SRAVI的針對(duì)語音障礙情況下語言識(shí)別app。并且SRAVI有望成為首款可供公眾購(gòu)買的唇語識(shí)別工具。
唇語識(shí)別是一項(xiàng)集機(jī)器視覺與自然語言處理于一體的技術(shù),通過分析說話人唇部運(yùn)動(dòng),結(jié)合大數(shù)據(jù)匹配出有最大可能性自然語句。英特爾、谷歌和我國(guó)的搜狗等公司都訓(xùn)練人工智能(AI)讀懂唇語。并且唇語識(shí)別AI也開始實(shí)驗(yàn)性的應(yīng)用于醫(yī)院、電力公司、公共交通等領(lǐng)域。
一、SRAVI可識(shí)別短語,準(zhǔn)確率達(dá)90%
一位患者坐在病床上,他脖子上纏有帶開口的繃帶,供氧氣管套管通過并固定住。由于最近接受手術(shù),這位患者無法發(fā)聲。醫(yī)生拿起智能手機(jī),記錄下病人說的短語。這款名為SRAVI的app會(huì)分析唇部運(yùn)動(dòng),并在兩分鐘內(nèi)返回其識(shí)別結(jié)果——“我需要吸引器”。
這似乎只是一個(gè)簡(jiǎn)單的互動(dòng),在某些方面,SRAVI非常簡(jiǎn)單。它能準(zhǔn)確識(shí)別幾十個(gè)短語,準(zhǔn)確率約為90%。
VSR領(lǐng)域主要是訓(xùn)練人工智能在沒有任何音頻輸入的情況下讀懂唇語。幾十年來,研究人員一直致力于此類技術(shù),但事實(shí)證明,即使深度學(xué)習(xí)系統(tǒng)的進(jìn)步,幫助解決了其他具有里程碑意義問題,AI讀懂唇語仍是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。這項(xiàng)研究受到廣闊商業(yè)應(yīng)用前景預(yù)期推動(dòng)——從應(yīng)用于監(jiān)控工具到靜音通信app,以及改進(jìn)虛擬助手性能。
Liopa公司正在為SRAVI申請(qǐng)歐洲I類醫(yī)療器械認(rèn)證,并希望能在8月之前完成。這樣公司就可以向醫(yī)療服務(wù)商銷售該產(chǎn)品了。
二、唇語識(shí)別AI商業(yè)化不僅面臨隱私問題
唇語識(shí)別并不是一個(gè)全新的人工智能方向,許多科技巨頭也一直在研究唇語識(shí)別AI,早在2003年,英特爾公司就開發(fā)出了唇語識(shí)別軟件Audio Visual Speech Recognition(AVSR),2016年谷歌子公司DeepMind唇語識(shí)別技術(shù)已經(jīng)可以支持17500個(gè)詞,新聞測(cè)試集上識(shí)別準(zhǔn)確率首次達(dá)到50%以上,2017年搜狗推出中文唇語識(shí)別系統(tǒng)。
隨著唇語識(shí)別AI成為一種可行的商業(yè)工具,技術(shù)人員和隱私監(jiān)管機(jī)構(gòu)越來越擔(dān)心,它未來會(huì)被開發(fā)成什么樣以及會(huì)部署在哪些領(lǐng)域。
例如,SRAVI并不是Liopa正在研究的唯一一款唇語識(shí)別AI。該公司還和英國(guó)一家國(guó)防研究機(jī)構(gòu)合作開發(fā)另一種工具,使執(zhí)法機(jī)構(gòu)能夠通過無聲閉路電視錄像進(jìn)行搜索,并識(shí)別人們何時(shí)說出過某些特定關(guān)鍵詞。
美國(guó)摩托羅拉公司(Motorola Solutions)有一項(xiàng)旨在幫助警察的唇語系統(tǒng)專利。
美國(guó)無人機(jī)初創(chuàng)企業(yè)Skylark Labs創(chuàng)始人告訴Motherboard(VICE旗下科技版塊),其唇語系統(tǒng)目前已部署在印度的一些私人住宅和一家國(guó)有電力公司中,以檢測(cè)粗俗語言。
英國(guó)生物識(shí)別和監(jiān)控?cái)z像機(jī)專員弗雷澤桑普森(Fraser Sampson)接受Motherboard采訪時(shí)說:“從我的角度來看,這是唇語識(shí)別可應(yīng)用的其中一個(gè)領(lǐng)域,這是關(guān)于‘我們可以做到,并不意味我們應(yīng)該這樣做’一個(gè)很好的例子。我在這個(gè)領(lǐng)域的主要關(guān)注點(diǎn)不在技術(shù)可以和不可以做什么,而是人們相信它可以做到其所說的,這會(huì)產(chǎn)生寒蟬效應(yīng)。如果這項(xiàng)技術(shù)限制大眾在公共場(chǎng)合發(fā)言,那么我們將面臨的不僅僅是隱私問題了?!?/p>
唇語識(shí)別AI的出現(xiàn)讓人想起了人臉識(shí)別技術(shù)。幾十年來,人臉識(shí)別技術(shù)一直是個(gè)小眾研究領(lǐng)域,然后它從2000年代初開始作為監(jiān)視工具悄然迅速商業(yè)化。
人臉識(shí)別技術(shù)的許多問題直到最近才被公之于眾,很大程度上還要?dú)w功于人臉識(shí)別受害者積極研究和行動(dòng)。具體來說,麻省理工計(jì)算機(jī)科學(xué)家喬伊·博拉姆維尼(Joy Buolamwini)和前谷歌AI倫理學(xué)家提姆尼特·格布魯(Timnit Gebru)在2018年發(fā)表了一篇具有重要意義的論文,論文中首次揭示了人臉識(shí)別用于女性和有色人種識(shí)別準(zhǔn)確性較低。當(dāng)這些擔(dān)憂進(jìn)入主流話語體系時(shí),電話、私人企業(yè)中人臉識(shí)別的應(yīng)用已經(jīng)無處不在。
監(jiān)控?cái)z像頭遍布美國(guó)許多城市的街頭巷角。至少有三名黑人男子因?yàn)槿四樧R(shí)別不準(zhǔn)而被錯(cuò)誤逮捕,實(shí)際數(shù)字幾乎肯定更高,而且該技術(shù)還被用于追蹤美國(guó)“Black Lives Matter”運(yùn)動(dòng)的抗議者,以及其他各種可疑人員。在過去兩年中,也就是在該技術(shù)首次大規(guī)模公開部署近20年后,美國(guó)草根運(yùn)動(dòng)導(dǎo)致十多個(gè)城市和州的警察和個(gè)人開始禁止使用人臉識(shí)別技術(shù)。
大眾對(duì)人臉識(shí)別技術(shù)的強(qiáng)烈反對(duì)推動(dòng)了AI研究人員思維轉(zhuǎn)變,即他們?cè)撊绾慰紤]其研究發(fā)現(xiàn)的未來應(yīng)用。例如,神經(jīng)信息處理系統(tǒng)進(jìn)展大會(huì)(NeurIPS)去年首次要求研究人員在提交論文時(shí),加上關(guān)于新研究可能會(huì)對(duì)社會(huì)產(chǎn)生哪些影響的論述。
《人工智能:計(jì)算機(jī)如何誤解世界(Artificial Unintelligence: How Computers Misunderstand the World)》一書作者梅雷迪思·布魯薩德(Meredith Broussard)告訴Motherboard:“研究很棒,但是當(dāng)我們發(fā)現(xiàn)某一特定知識(shí)或者研究路線具有毀滅性后果時(shí),作為研究人員,我們有責(zé)任停止它并實(shí)施相應(yīng)措施?!?/p>
三、監(jiān)控領(lǐng)域應(yīng)用唇語識(shí)別需受管控
唇語識(shí)別AI作為一項(xiàng)商業(yè)技術(shù)仍處于起步階段,但技術(shù)早期關(guān)注于在監(jiān)控方面應(yīng)用引發(fā)了人們的擔(dān)憂,科學(xué)發(fā)展如此之快,當(dāng)后果再次顯現(xiàn),可能為時(shí)已晚。
“這項(xiàng)技術(shù)剛開始發(fā)展的確太快了,不過在去年,開始有論文圍繞VSR技術(shù)倫理問題進(jìn)行討論?!彼顾蛄_斯·佩特里迪斯(Stavros Petridis)說,他最近在Facebook工作,但與Motherboard談到了他之前在英國(guó)帝國(guó)理工學(xué)院(Imperial College London)的研究?!拌b于目前還沒有可商用的唇語識(shí)別app,這次很有可能在唇語識(shí)別AI技術(shù)完全商業(yè)化之前才考慮倫理問題。”
帝國(guó)理工學(xué)院博士生羅德里戈·米拉(Rodrigo Mira)告訴Motherboard,他和他的同事知道自己研究的領(lǐng)域是有爭(zhēng)議的。他將該研究工作和滲透測(cè)試進(jìn)行了比較——滲透測(cè)試是一種在計(jì)算機(jī)系統(tǒng)中尋找漏洞以修復(fù)它們的網(wǎng)絡(luò)安全實(shí)踐。換句話說,這項(xiàng)研究是允許受道德規(guī)范約束的學(xué)術(shù)機(jī)構(gòu)在新技術(shù)被犯罪分子利用之前發(fā)現(xiàn)它。
米拉表示:“唇語識(shí)別AI的主要問題是人們總是會(huì)談?wù)撜?。這不是我們是否應(yīng)該停止研究,而是我們有能力通過觀察人們來了解他們?cè)谡f什么時(shí),我們應(yīng)該用它做什么?阻止不道德地使用該技術(shù)的方法,不是關(guān)閉帝國(guó)理工學(xué)院,解決這個(gè)問題的方法是把它作為一個(gè)政治問題來處理。”
人工智能倫理學(xué)家同意,政府對(duì)人臉識(shí)別和唇語識(shí)別AI等生物識(shí)別監(jiān)控技術(shù)應(yīng)盡早和大力度監(jiān)管,這對(duì)于防止歧視和傷害是必要的,但到目前為止,許多政府未能制定相應(yīng)法律。這就是為什么研究人員不僅有責(zé)任考慮技術(shù)應(yīng)用的潛在后果,而且要主動(dòng)將最可能受到該技術(shù)傷害人群納入研究決策過程的原因。不過專家表示,現(xiàn)有VSR系統(tǒng)并未考慮這些因素。
美國(guó)AI Now Institute研究員莎拉·邁爾斯·韋斯特(Sarah Myers West)告訴Motherboard:“這是為了積極創(chuàng)造一種技術(shù),或許會(huì)有有害用途,而不僅停留在識(shí)別和減輕現(xiàn)有技術(shù)中的漏洞。研究人員并不是總能夠自己進(jìn)行這些倫理性評(píng)估。這就是為什么在整個(gè)過程中讓可能受影響的群體參與進(jìn)來,以預(yù)測(cè)和避免潛在有害的其他用途,是如此重要?!?/p>
四、唇語識(shí)別技術(shù)不斷優(yōu)化,完整對(duì)話識(shí)別仍需時(shí)間
Liopa的CEO利亞姆·麥奎倫(Liam McQuillan)告訴Motherboard,該公司至少需要一年的時(shí)間才能擁有滿意的從閉路電視錄像中讀出關(guān)鍵詞的系統(tǒng),公司已經(jīng)考慮過隱私問題?!斑@里可能會(huì)有人擔(dān)心實(shí)際最終會(huì)禁止使用該技術(shù)……我們當(dāng)然不會(huì)這樣把Liopa押在這個(gè)項(xiàng)目上面,即使有充足研究資金——該項(xiàng)目由英國(guó)國(guó)防部國(guó)防與安保加速器(British Defense and Security Accelerator)資助?!?/p>
麥奎倫還表示,該公司正在積極尋求解決潛在的種族或性別偏見,方法是通過收集多種數(shù)據(jù)來訓(xùn)練其算法。數(shù)據(jù)收集來源包括一組多樣化的YouTube剪輯視頻,通過收藏應(yīng)用程序提供視頻的志愿者,以及一家專門管理包含不同種族和民族數(shù)據(jù)集的公司。不過目前Liopa公司尚未發(fā)表任何關(guān)于其系統(tǒng)在不同人口群體中表現(xiàn)相關(guān)的研究。
Motherboard找到了一家聲稱正在積極銷售唇語識(shí)別AI系統(tǒng)的公司Skylark Labs。Skylark Labs已經(jīng)將唇語識(shí)別技術(shù)融入監(jiān)控市場(chǎng)。
Skylark Labs創(chuàng)始人兼CEO阿瑪喬特·辛格(Amarjot Singh)告訴Motherboard,該公司最初向印度的警察局推銷其包含唇語識(shí)別、人臉識(shí)別、暴力和武器檢測(cè)算法的技術(shù)套件。該公司發(fā)現(xiàn),鑒于在擁擠公共場(chǎng)所使用唇語識(shí)別功能面臨的挑戰(zhàn),用戶對(duì)此功能興趣不大。
Skylark Labs已經(jīng)轉(zhuǎn)向研究其他唇語識(shí)別在其他場(chǎng)合的用途。辛格表示,公司的唇語識(shí)別AI技術(shù)目前正在印度旁遮普邦電力公司有限公司進(jìn)行試點(diǎn),以檢測(cè)員工互相打擾的情況。他說,有幾個(gè)人還購(gòu)買了這項(xiàng)技術(shù)來監(jiān)控他們的保姆。Skylark Labs指出,它的唇語識(shí)別AI可以檢測(cè)大約50個(gè)與詛咒、虐待和暴力相關(guān)的不同詞語。不過根據(jù)當(dāng)?shù)孛襟w報(bào)道,辛格發(fā)表過關(guān)于暴力檢測(cè)和人臉識(shí)別的研究,印度警方確實(shí)使用Skylark的無人機(jī)來增加社交距離,不過辛格和公司都沒有發(fā)表任何關(guān)于唇語識(shí)別AI的研究。
Motherboard聯(lián)系了旁遮普邦電力公司有限公司,有人表示家里使用過唇語識(shí)別技術(shù),但沒有收到更多回復(fù)。
辛格說:“我們正在自然場(chǎng)景中進(jìn)行研究,并試圖解決對(duì)人身安全有直接影響的用例。我認(rèn)為這有好處,因?yàn)樵O(shè)計(jì)師能夠控制系統(tǒng)應(yīng)該標(biāo)記的詞,所以我認(rèn)為它還可以。這里風(fēng)險(xiǎn)是,一旦你開始校準(zhǔn)系統(tǒng)在自然場(chǎng)景中獲取日常語言,詞語在是否符合道德規(guī)范方面可能會(huì)有瑕疵?!?/p>
接受采訪的研究人員和公司高管告訴Motherboard,實(shí)現(xiàn)唇語識(shí)別AI能解釋完整對(duì)話,還需要數(shù)年時(shí)間。
這項(xiàng)任務(wù)非常具有挑戰(zhàn)性——即使是專業(yè)的人類唇語讀者,實(shí)際上在逐字解釋方面也很差。2018年,DeepMind發(fā)表了一項(xiàng)研究,揭示了其最新的全句唇讀系統(tǒng),并使用大型的、定制數(shù)據(jù)集進(jìn)行測(cè)試。AI在包含完整句子的視頻上實(shí)現(xiàn)了41%的單詞錯(cuò)誤率。在沒有提供上下文主題相關(guān)信息情況下,觀看類似純視頻剪輯樣本的人類唇語讀者單詞錯(cuò)誤率為93%,而在給定視頻標(biāo)題、主題類別和句子中的幾個(gè)單詞時(shí),錯(cuò)誤率也有86%。
帝國(guó)理工學(xué)院研究小組本月發(fā)表論文,描述了一個(gè)完整句子唇語識(shí)別系統(tǒng),該系統(tǒng)在較小的、公開可用的400小時(shí)視頻數(shù)據(jù)集上進(jìn)行訓(xùn)練,可以實(shí)現(xiàn)低至37.9%的單詞錯(cuò)誤率。
當(dāng)涉及到單個(gè)關(guān)鍵字唇讀領(lǐng)域,Liopa和Skylark Labs同樣正在追求的目標(biāo),唇語識(shí)別技術(shù)準(zhǔn)確度要高得多,并且僅在去年就有顯著提高。2017年,在Wild數(shù)據(jù)集中唇語閱讀基準(zhǔn)準(zhǔn)確率最高是83%。2020年之前,這一最高紀(jì)錄保持不變,根據(jù)帝國(guó)理工學(xué)院與三星合作發(fā)表的這篇論文,準(zhǔn)確率現(xiàn)在突破到88.5%。
但是,很難知道真正的頂峰是什么。DeepMind在2018年之后沒有發(fā)表任何關(guān)于唇語項(xiàng)目的進(jìn)一步研究,并且拒絕討論。與Motherboard溝通的許多研究人員都不愿隨意推測(cè)大型科技公司打算用這種新興技術(shù)做什么,或者它何時(shí)何地開始對(duì)公眾產(chǎn)生明顯影響。
米拉說,人工智能和機(jī)器學(xué)習(xí)過去10年向大家展示的一件事是,未來難以預(yù)測(cè)。但低估技術(shù)發(fā)展確實(shí)是不明智的。
結(jié)語:AI唇語識(shí)別超人類,隱私保護(hù)引擔(dān)憂
目前,唇語識(shí)別技術(shù)的準(zhǔn)確率已經(jīng)超過人類,普通人的唇語識(shí)別率在10%,受過訓(xùn)練的殘障人士可能會(huì)達(dá)到40%。唇語識(shí)別工具大都已經(jīng)超過50%,例如搜狗唇語識(shí)別技術(shù)在口語測(cè)試集上準(zhǔn)確率為60%以上,在車載、智能家居等垂直場(chǎng)景下會(huì)有90%以上的準(zhǔn)確率。
唇語識(shí)別技術(shù)應(yīng)用場(chǎng)景多元,不僅可以幫助言語障礙人士進(jìn)行溝通,還可以應(yīng)用于遠(yuǎn)場(chǎng)環(huán)境下溝通,以及安防、驗(yàn)證等領(lǐng)域。同人臉識(shí)別技術(shù)一樣,唇語識(shí)別技術(shù)的應(yīng)用需要受到監(jiān)督。未來在私人安全領(lǐng)域,唇語識(shí)別可能應(yīng)用為一種新生物認(rèn)證方式,在公共安全領(lǐng)域,唇語識(shí)別或會(huì)結(jié)合公共攝像頭無聲視頻數(shù)據(jù)庫來輔助案情分析。這就涉及到隱私保護(hù)問題,唇語識(shí)別應(yīng)用中將涉及到大量隱私相關(guān)數(shù)據(jù),其安全性需要得到保證。
來源:VICE