作者:陳政曄 / 臺灣大學計算機及資訊網路中心資訊網路組計畫研究專員
智慧型手機問世至今十五年,人們對於行動裝置的使用與依賴無所不在,也越來越習慣透過一塊手掌大的螢幕接收訊息。然而,隨著擴增實境(Augmented Reality)相關技術越來越進步,提供的應用越來越多元,人們對於手機的依賴可能開始逐漸轉變成對智慧眼鏡這類專門提供擴增實境體驗的依賴。本文將詳細介紹擴增實境的相關應用,並深入解析擴增實境所需之各項技術。
擴增實境應用現況
相較於虛擬實境(Virtual Reality),擴增實境(Augmented Reality)目前的應用相對少見。已經走入大眾視野的應用包括於2016年爆紅的Pokémon GO,讓使用者透過手機相機體驗彷彿於現實世界中捕捉與飼養寶可夢的互動;此外,於2017年底推出的IKEA Place則讓使用者不用出門也能看家具,將虛擬的家具影像呈現於真實居家環境中。隨著越來越多應用推陳出新,擴增實境將以更多元的方式呈現在使用者眼前。
目前發展較為迅速的擴增實境應用如圖1所示,包含旅遊與導航、教育與職能培訓、娛樂與廣告、工廠組裝與維護等。
- 旅遊與導航:這類應用主要應用場域為街景,試圖將一條街道或景點一切有用的資訊即時呈現在使用者視野中,辨認出畫面中的每個招牌並額外呈現營業時間、評價、價位等等資訊,或將使用者的導航路線直接呈現於路面,提供最直接的導航互動。
- 教育與職能培訓;透過擴增實境改善書本的限制、增加學生對學習的興趣一直是擴增實境的重點應用。國高中的科目中不乏需要空間觀念的知識,像是心臟結構、幾何、地理分布等等,這類知識若能透過擴增實境以逼真且靈活的方式呈現於學生眼前,將能大幅降低學習難度並提升學習意願。
- 娛樂與廣告:這類應用是目前較為普及的應用,如前述之Pokémon GO與IKEA Place,將特定遊戲或商品與真實世界結合,創造出原本手機或電腦無法呈現的虛實整合效果。
- 醫療與健康;擴增實境能夠為醫療行為提供各方面的協助,如內臟器官的建模與成像,協助手術進行或診斷,也能為復建提供全新模式,讓患者能夠以更多元的方式進行復健練習。在遠端看診部分,擴增實境也能為醫生與患者之間提供更多互動,改善看診體驗,也降低診療時的疏失。
圖1:擴增實境相關應用(圖片來源:作者自製)
常見擴增實境裝置
目前最廣泛使用的擴增實境裝置是智慧型手機與平板,然而手機與平板並非最適合呈現擴增實境效果的裝置,受限於螢幕邊框與大小,手機與平板僅能呈現較小的視角,無法提供沉浸式的視覺效果,也無法創造景深。智慧眼鏡(smart glass)則是目前市場上專門設計來提供擴增實境體驗的裝置,智慧眼鏡允許使用者直接透過鏡片觀看現實世界,也能在鏡片上呈現高解析度、高彩度、具備景深之影像,為使用者眼中的真實世界提供擴增資訊。此外,頭戴式顯示器(head-mounted display)雖然是專門用來提供虛擬實境的裝置,還是能支援擴增實境所需的大部分成像。其他擴增實境顯示器還包括抬頭顯示器(heads-up display),這類顯示器常見於軍用飛機或民航機上,讓飛行員不須低頭看儀表板便能於視野中看到所需資訊,抬頭顯示器若能安裝於汽車前擋風玻璃上,將會是重要的消費型擴增實境應用。
圖2:擴增實境終端裝置(圖片來源:作者自製)
擴增實境基本功能
為了支援完整的擴增實境效果,必須包含以下基本功能:追蹤(tracking)、映射(mapping)、辨識(recognition or detection)與渲染(rendering)。以下一一介紹各項基本功能,並說明這些功能如何構成一個完整的擴增實境系統。
- 追蹤(tracking):追蹤是指終端裝置即時記錄使用者當前的姿態,須包含六個自由度(如圖3所示):三軸座標中的位移(前後、左右、上下)與旋轉角度(俯仰、偏擺、翻滾)。終端裝置必須即時掌握使用者當前姿態,才能將擴增資訊準確地呈現於使用者的視野中。追蹤技術一般可分為感測器追蹤(sensor-based)與影像追蹤(vision-based)。
圖3:六自由度(圖片來源:[1])
常見的追蹤感測器包含加速度計、陀螺儀、磁力計、全球定位系統(Global Positioning System, GPS)等一般智慧型手機也經常裝配的感測器,到目前業界還較少見的Wifi追蹤、藍牙追蹤、紅外線追蹤、超聲波追蹤等。不同類型的追蹤方式具備不同的準確度,最精準的如加速度計與超聲波追蹤可以精細到公分等級,紅外線準確度則為0.03~0.1公尺、藍牙為0.1~10公尺、Wifi為2.5公尺、GPS為10~15公尺。由於陀螺儀與加速度計這類安裝在終端裝置本身的感測器無法判別絕對位置,GPS與磁力計則有準確度太低的限制,為了支援高精度的AR應用,達成即時且準確的姿態追蹤,開始有越來越多研究嘗試用藍芽與Wifi等技術進行追蹤。
影像追蹤則可分為標記追蹤(marker-based)與自然特徵追蹤(natural-feature-based)。標記追蹤是指在實際場域中佈署特定圖案,透過計算影像中的圖案轉角與大小,來反推終端裝置目前的實際姿態。這項技術需要的影像處理技術較簡單,運算量較小,是過去幾年較為常見的影像追蹤技術。使用者須在特定區域張貼QR code等(如圖4所示)。自然特徵則是直接分析使用者觀看的原始影像,標示影像中各類特徵點,如顏色、形狀、景深等等,透過比較前後不同時間之視角差異,還原出使用者的姿態變化,該方法不須於環境張貼特定標示,但需耗費較大影像處理資源,也容易受到光影變化影響。
圖4:標記追蹤範例(圖片來源:[2])
- 映射(mapping):映射是指將使用者所處的真實環境建模,並配對到特定模擬環境中。以旅遊與導航應用為例,當使用者透過終端裝置觀看街道時,終端裝置必須將目前的使用者位置與畫面透過地理資訊系統(Geographic Information System, GIS)映射到虛擬空間中,並由當前視野判斷虛擬空間中哪些物件的資訊需要被呈現出來,像是視野中出現的店家、路標、方位等等。映射技術會根據應用場景不同而有很大的差異,例如大範圍的室外定位可以用GIS等系統將街道、景點定位並呈現出來,但如果應用場景是商場內部的商店與樓層構造,則需要客製化地建模,才能成功完成映射。
- 辨識(recognition or detection):在完成映射後,需針對使用者視野內的畫面進行物件辨識,匡列需要互動的物件,以圖5(a)為例,該範例將街道上需要注意的人車匡列出來,並將警告資訊呈現於物件周圍。除了物件辨識,物件姿態辨識也是常見且重要的技術,如圖5(b)為例,為了將皮卡丘呈現於畫面人物的肩膀上,需準確地辨識將人物的肩膀位置,如果畫面中的人物改變姿態,也需即時辨識並改變皮卡丘的位置。
圖5:影像辨識與渲染範例(圖片來源:[3])
- 渲染(rendering):完成以上各功能後,渲染是各類擴增實境應用的最後一道處理程序,須根據應用類型,將擴增資訊正確且即時地呈現在使用者眼前,即使使用者快速移動或轉頭改變視野角度,也需即時校正渲染物件位置,避免使用者出現頭暈不適等症狀。
擴增實境系統架構
綜合以上描述之基本功能,實作完整擴增實境系統所需之各功能互動關係如下圖所示:
圖6:擴增實境系統架構(圖片來源:[4])
首先,終端裝置上的相機會記錄目前使用者周圍環境影像(video source),並對影像內容進行追蹤(tracker)與映射(mapper),將當前影像建模,與模擬環境配對,並對影像內容進行物件辨識(object recognizer)。完成以上步驟後,再將需要渲染(renderer)的擴增影像呈現在使用者眼前。這套過程是完成擴增實境影像所需之必要功能,必須做到即時成像,否則使用者會有暈眩或使用者體驗不佳的問題。然而過程中的影像處理會耗費大量運算效能,不太可能在輕量型的終端裝置(如智慧眼鏡)即時完成所有運算,且部分應用牽涉到相對複雜的查詢與計算,可能需要連網,即使未來終端裝置會有更高的運算效能與更高的續航力,仍舊無法讓該裝置執行所有運算。因此,目前學業界較為常見的佈署方式如圖7,一般會將影像處理相關的運算單元,如映射與辨識,遷移到雲端的運算伺服器上,透過伺服器強大的運算效能,以較低的延遲完成相對複雜的影像處理,再將需要渲染的畫面或擴增資訊回傳到終端裝置上。基於以上原因,遠端渲染或遠端運算將成為消費性擴增實境產品未來的重要方向。
圖7:擴增實境常見部署方式(圖片來源:[2])
參考文獻
[1] Six degrees of freedom
https://en.wikipedia.org/wiki/Six_degrees_of_freedom
[2] Mobile Augmented Reality Survey: From Where We Are to Where We Go
https://ieeexplore.ieee.org/abstract/document/7912316
[3] Edge Assisted Real-time Object Detection for Mobile Augmented Reality
https://dl.acm.org/doi/abs/10.1145/3300061.3300116
[4] Energy-Efficient Resource Allocation for Mobile Edge Computing-Based Augmented Reality Applications
https://ieeexplore.ieee.org/abstract/document/7906521