微軟發(fā)布HoloLens MR+AI 任務(wù)輔助的開源平臺(tái)SIGMA

想象一下,如果每次你需要完成一項(xiàng)復(fù)雜的體力任務(wù)時(shí)都有一個(gè)世界級的專家來指導(dǎo)你完成整個(gè)過程,告訴你關(guān)鍵的步驟和注意事項(xiàng),并且能夠根據(jù)你的技能組合調(diào)整說明,在正確的時(shí)間提供指導(dǎo),并適應(yīng)過程中可能出現(xiàn)的任何錯(cuò)誤、困惑或干擾。

構(gòu)建一個(gè)可以幫助你完成現(xiàn)實(shí)世界中任何任務(wù)的交互式人工智能系統(tǒng)需要什么?為了開始探索這樣一個(gè)系統(tǒng)所需要的核心能力,微軟開發(fā)并發(fā)布了一個(gè)用于研究混合現(xiàn)實(shí)任務(wù)輔助的開源研究平臺(tái)和試驗(yàn)臺(tái)原型:情境交互式指導(dǎo)、監(jiān)測和輔助系統(tǒng)SIGMA。

微軟表示,SIGMA為研究人員探索、理解和開發(fā)在物理世界中實(shí)現(xiàn)步驟式任務(wù)輔助所需的能力提供了基礎(chǔ)。

團(tuán)隊(duì)指出,生成式人工智能和大型語言、視覺和多模態(tài)模型的最新進(jìn)展可以為開放領(lǐng)域知識、推理和生成能力提供基礎(chǔ),以幫助實(shí)現(xiàn)這種開放式任務(wù)輔助場景。然而,構(gòu)建與現(xiàn)實(shí)世界中的人協(xié)作的人工智能系統(tǒng)需要的不僅僅是生成相關(guān)指令和內(nèi)容的能力。為了發(fā)揮作用,相關(guān)系統(tǒng)同時(shí)需要物理智能(physical intelligence)和社交智能(social intelligence)。

物理智能和社交智能

為了幫助人工智能系統(tǒng)與現(xiàn)實(shí)世界中的人們流暢地合作,它們必須不斷地以多模態(tài)的方式感知和推理周圍的環(huán)境。這個(gè)要求不僅僅是檢測和追蹤對象。物理世界中的有效協(xié)作需要理解哪些對象與手頭的任務(wù)相關(guān),它們的可能用途是什么,它們?nèi)绾蜗嗷リP(guān)聯(lián),哪些空間約束在起作用,以及所有這些方面如何隨著時(shí)間的推移而演變。

和對物理環(huán)境進(jìn)行推理一樣重要的是,系統(tǒng)同時(shí)需要對人進(jìn)行推理。這種推理不僅應(yīng)該包括關(guān)于身體姿勢、言語和動(dòng)作的low level推理,同時(shí)應(yīng)該包括關(guān)于認(rèn)知狀態(tài)和實(shí)時(shí)協(xié)作行為的社會(huì)規(guī)范的high level推理。例如,上面設(shè)想的人工智能助手需要考慮以下問題:用戶是否感到困惑或沮喪?他們會(huì)犯錯(cuò)誤嗎?他們的專業(yè)水平如何?他們是否仍在執(zhí)行當(dāng)前的任務(wù),還是已經(jīng)開始并行地做其他事情?現(xiàn)在是打斷他們或提供下一個(gè)指令的好時(shí)機(jī)嗎?……

情境交互式指導(dǎo)、監(jiān)測和輔助系統(tǒng)SIGMA

所以,微軟開發(fā)了SIGMA,并將其作為一個(gè)平臺(tái)來調(diào)查相關(guān)挑戰(zhàn)并評估開發(fā)新解決方案的進(jìn)展。

SIGMA是一個(gè)交互式應(yīng)用程序,支持HoloLens 2設(shè)備。它結(jié)合了各種混合現(xiàn)實(shí)和人工智能技術(shù),包括大型語言和視覺模型以指導(dǎo)用戶完成程序任務(wù)。任務(wù)結(jié)構(gòu)化為一系列步驟。其中,相關(guān)步驟既可以在任務(wù)庫中手動(dòng)預(yù)定義,又可以使用GPT-4等大型語言模型動(dòng)態(tài)生成。

在整個(gè)交互過程中,SIGMA可以利用大型語言模型來回答用戶在過程中可能遇到的開放式問題。另外,SIGMA可以使用像Detic和SEEM這樣的視覺模型來檢測和追蹤環(huán)境中與任務(wù)相關(guān)的對象,并在適當(dāng)?shù)臅r(shí)候向用戶指出它們。

在人工智能和混合現(xiàn)實(shí)的交叉點(diǎn)進(jìn)行研究

SIGMA設(shè)計(jì)為一個(gè)研究平臺(tái)。微軟將系統(tǒng)開源的目的是幫助其他研究人員跳過將全棧交互式應(yīng)用程序組合在一起的基本工程挑戰(zhàn),并允許他們直接關(guān)注未來有趣的研究挑戰(zhàn)。

相關(guān)設(shè)計(jì)選擇旨在支持構(gòu)思的研究目標(biāo)。例如,系統(tǒng)實(shí)現(xiàn)為一個(gè)客戶端-服務(wù)器架構(gòu):一個(gè)輕量級的客戶端應(yīng)用程序運(yùn)行在HoloLens 2設(shè)備。它捕獲各種多模式數(shù)據(jù)流,并將其實(shí)時(shí)發(fā)送到一個(gè)更強(qiáng)大的桌面服務(wù)器。

桌面服務(wù)器實(shí)現(xiàn)應(yīng)用程序的核心功能,并向客戶端應(yīng)用程序傳輸信息和命令,以便在設(shè)備渲染。這種架構(gòu)使得研究人員能夠繞過當(dāng)前頭顯的計(jì)算限制,并為將應(yīng)用程序移植到其他混合現(xiàn)實(shí)設(shè)備創(chuàng)造了機(jī)會(huì)。

SIGMA以Platform for Situated Intelligence作為基礎(chǔ)。其中, Platform for Situated Intelligence(PSI)這個(gè)開源框架為開發(fā)和研究多模態(tài)集成人工智能系統(tǒng)提供了結(jié)構(gòu)、工具和組件。底層PSI框架支持快速原型設(shè)計(jì),并提供高性能的流媒體和日志基礎(chǔ)架構(gòu)。這個(gè)框架為數(shù)據(jù)重播提供了基礎(chǔ)設(shè)施,支持在應(yīng)用級別進(jìn)行數(shù)據(jù)驅(qū)動(dòng)的開發(fā)和調(diào)優(yōu)。最后,平臺(tái)的定位智能工作室提供了廣泛的支持可視化,調(diào)試,調(diào)優(yōu)和維護(hù)。

SIGMA目前的功能相對簡單,但系統(tǒng)為發(fā)現(xiàn)和探索混合現(xiàn)實(shí)和人工智能交叉領(lǐng)域的研究挑戰(zhàn)提供了一個(gè)重要的起點(diǎn)。從計(jì)算機(jī)視覺到語音識別,一系列的研究問題,特別是當(dāng)涉及到感知時(shí),都可以基于收集的數(shù)據(jù)集進(jìn)行研究。最近行業(yè)對以自中心數(shù)據(jù)和相關(guān)挑戰(zhàn)的興趣增加,這為推進(jìn)所述技術(shù)的發(fā)展提供了重要的動(dòng)力。然而,眾多與交互和實(shí)時(shí)協(xié)作有關(guān)的問題只有在實(shí)時(shí)端到端系統(tǒng)中才會(huì)出現(xiàn),并且最好在與實(shí)際用戶的交互情景中進(jìn)行研究和理解。

微軟指出,SIGMA是公司對探索人工智能和混合現(xiàn)實(shí)持續(xù)承諾的證明。微軟同時(shí)為一線員工提供了一個(gè)企業(yè)級的混合現(xiàn)實(shí)解決方案Dynamics 365 Guides,并已經(jīng)集成結(jié)合Copilot。對于Copilot in Dynamics 365 Guides,人工智能和混合現(xiàn)實(shí)正共同為一線工作人員提供逐步的程序指導(dǎo)和工作流程中的相關(guān)信息。Dynamics 365 Guides是面向企業(yè)客戶的功能豐富的產(chǎn)品,面向執(zhí)行復(fù)雜任務(wù)的一線工作人員。相比之下,SIGMA是一個(gè)僅用于探索性研究目的的開源測試平臺(tái)。

如果你有興趣在自己的研究中學(xué)習(xí)更多和使用SIGMA,請?jiān)L問這個(gè)頁面。微軟表示:“我們非常高興與開源研究社區(qū)合作,在這個(gè)令人興奮和充滿挑戰(zhàn)的領(lǐng)域取得更快的進(jìn)展?!?/p>