摘要:毫無疑問,人工智能產(chǎn)品會慢慢滲入人們的工作、生活、娛樂當中,為各行各業(yè)帶來革命性的變化。未來,產(chǎn)品與產(chǎn)品之間、產(chǎn)品與環(huán)境之間、產(chǎn)品與用戶之間的邊界會非常模糊,人們會在多設(shè)備中無縫跳轉(zhuǎn)和緊密連接,形成一個“你中有我,我中有你”的整體。在人工智能時代里,「原生硬件」,「AI 引擎」和「智能 App」是構(gòu)成完整智能體驗和服務(wù)閉環(huán)的三要素。
圖 1 人工智能三元理論
關(guān)鍵詞:人工智能,人機交互,交互體驗,原生硬件,AI 引擎
從 1956 年在達特茅斯正式提出 Artificial Intelligence,如今已經(jīng)過去了 60 幾個年頭,但直到 AlphaGo 大勝李世石和柯潔三負 AlphaGo 后,“人工智能”才成為一個熱詞進入大眾視線。而事實上,最近的一兩年,各大科技巨頭早已深入布局人工智能領(lǐng)域。從虛擬助手 Siri、微軟小冰到各家巨頭的智能音箱、智能駕駛,人工智能產(chǎn)品正逐漸融入我們的生活。在這個被視為會顛覆一切的人工智能時代,究竟產(chǎn)品存在什么樣的痛點?交互會有如何的改變?什么樣的交互設(shè)計才能讓用戶在使用人工能智能產(chǎn)品時獲得一個極致體驗?
通過對市面一些人工智能產(chǎn)品體驗和“AI 導(dǎo)覽機”項目(網(wǎng)龍為首屆數(shù)字中國建設(shè)峰會量身定制的智能導(dǎo)覽機,可為來賓提供室內(nèi)尋路、會務(wù)信息查詢、百科知識解答、拍照合影等智能服務(wù))實現(xiàn)過程的分析得出的一些痛點:
1. 對原生硬件的依賴非常大
智能交互可以理解為是感知->計算處理->執(zhí)行反饋的一個過程,與圖形用戶界面(Graphical User Interface, GUI)交互中的輸入(鼠標或觸摸)不同的是,感知是人工智能交互最大的一個特色。受限于權(quán)限、進程、設(shè)備能力等因素,無論是 App 還是 AI 引擎都難以隨時無縫的去訪問底層的傳感器和計算單元,缺少硬件層面的傳感器去感知人與周圍壞境,作為信息輸入,就無法讓體驗達到最佳。
2. 沒有主動性、自發(fā)性
目前,智能家居硬件是人工智能最廣為運用的領(lǐng)域,比如各大巨頭廠商推出的智能音箱。在與機器人開啟對話時,用戶需要點擊機器人身上的按鈕,并且每下發(fā)一個指令都必須要喚起一次,然后進行一對一單線程對話。不難發(fā)現(xiàn),這是一種”不自然的語音交互”,其本質(zhì)也只是更換了一種人工控制的方式。針對現(xiàn)有幾款智能音箱(小米小愛、天貓精靈、喜馬拉雅小雅、百度小度、叮咚二代),整理了產(chǎn)品在天貓和京東消費用戶關(guān)于語音交互上反饋,可以明顯看到用戶對于需要頻繁喚醒感到不滿意:
圖 2 智能音箱痛點
而在”AI 導(dǎo)覽機”項目前期,也存在技術(shù)上和體驗上的困惑:
- 技術(shù):由于會場嘈雜,語音喚起導(dǎo)覽機產(chǎn)生交互的成功率會大大降低;
- 體驗:為什么需要等到用戶開口要求才給與反饋幫助,作為會場服務(wù)方,是否能主動去發(fā)現(xiàn)理解每一位需要幫助的用戶?
再重新梳理情景后,導(dǎo)覽機取消語音喚起的方案,而是通過獲取人物影像,根據(jù)深度距離判斷用戶是否進入近場交互觸發(fā)區(qū),根據(jù)人臉識別判斷用戶是否有互動意向(面向時間,且過濾側(cè)面經(jīng)過的人群),進而主動詢問用戶:親愛的來賓,請問有什么可以幫到您?
理解用戶和主動服務(wù)是人工智能產(chǎn)品具備的優(yōu)勢,也是設(shè)計需要翻越的一道鴻溝。從被動接受的指令模式升級為一種主動服務(wù)式的智能產(chǎn)品模式,從用戶主導(dǎo)變?yōu)橹鲃臃⻊?wù)的模式,這才是更符合未來人工智能的”自然交互”。
3. 信息獲取的準確率與效率
語音用戶交互(Voice User Interface, VUI)是人通過自然語言與計算機進行交互,也是目前人工智能產(chǎn)品主流的交互方式。
從人類自身感官的角度來看,視覺接收的信息量遠比聽覺高。從內(nèi)容信息的形態(tài)區(qū)分,圖形用戶界面 (Graphical User Interface, GUI)主要為圖片和文字,依賴視覺,而語音用戶交互(Voice User Interface, VUI)主要為聲音文字,依賴聽覺。
大腦每秒通過眼睛接收的信息上限為 100Mbps,通過耳蝸接收的信息上限為 1Mbps。[1]
如果將圖像作為信息載體,視覺閱讀的信息遠超聽覺的 5 倍。眼睛還有一個特別之處,通過掃視的方式一秒內(nèi)可以看到三個不同的地方。[2]
另一方面,由于缺乏情境感知(Context Awareness)能力,即人的認知,人工智能還無法很好的理解上下文,根據(jù)用戶是誰、用戶情感、當前環(huán)境、之前的記憶給出精確下一步的預(yù)測。
單純的語音交互對于用戶體驗來說是有缺陷的,在信息獲取的效率和準確率上都有待進一步提高。
從 PC 互聯(lián)網(wǎng)時代到移動互聯(lián)網(wǎng)時代,產(chǎn)品的交互主要還是基于圖形用戶界面 (Graphical User Interface, GUI),但是到了人工智能時代,人與產(chǎn)品(智能 App、穿戴設(shè)備、智能硬件)的關(guān)聯(lián)愈加緊密和深入。人機交互將從簡單的人與屏幕的單線程,拓展為語音交互、手勢交互、增強現(xiàn)實交互等多線程模式,進入一個“自然交互”的時代。自然用戶界面是人機交互界面的新興范式轉(zhuǎn)變,通過研究現(xiàn)實世界環(huán)境和情況,利用新興的技術(shù)能力和感知解決方案實現(xiàn)物理和數(shù)字對象之間更準確和最優(yōu)化的交互,從而達到用戶界面不可見或者交互的學(xué)習(xí)過程不可見的目的,其核心關(guān)注是傳統(tǒng)的人類能力 (如觸摸、視覺、言語、手寫、動作)和更重要、更高層次的過程 (如認知、創(chuàng)造力和探索)[3];诋斍叭斯ぶ悄荏w驗的痛點和未來人機交互的核心,提出人工智能交互的三元:「原生硬件」,「AI 引擎」和「智能 App」,三元一體,環(huán)環(huán)相扣,會讓體驗更趨于自然。
1. 原生硬件
在“AI 導(dǎo)覽機”項目 PRD 文檔里有兩個關(guān)于影像捕獲的需求:
- 識別人臉并與虛擬人物合照,且能判斷用戶性別,在裝飾做一些附加處理;
- 捕捉用戶動作,與虛擬導(dǎo)覽員產(chǎn)生互動;
基于這兩個需求,發(fā)現(xiàn)導(dǎo)覽機常規(guī)的前置攝像頭并不能滿足功能的實現(xiàn):
- 獲取呈像的范圍有限;
- 無法獲取深度相機的深度值;
- 無法捕捉用戶動作;
因此,開發(fā)人員在導(dǎo)覽機中配置入與 Kinect2 同等配置的 RGB Camera Depth/IR Cameear,形成一個滿足大空間中的 RGB 視場(FOV):
圖 3 Camera FOV 透視圖
芯片、傳感器、計算單元、執(zhí)行單元可以非常好的處理智能交互中的感知、處理、反饋。目前,各種感應(yīng)設(shè)備已經(jīng)可以精確檢測距離、光線、音量、人臉、動作、溫度、濕度等等各種環(huán)境信息,通過感應(yīng)器采集過的信息形成信息空間,信息空間便是連接人和物理空間的虛擬空間。國務(wù)院下發(fā)的《新一代人工智能發(fā)展規(guī)劃》[4]中也強調(diào)了這一空間的建設(shè)和使用。
通過原生自動記錄用戶使用數(shù)據(jù),自動分析用戶使用習(xí)慣,自動給與用戶最佳推薦,這一切都依賴于原生硬件。正如高粘度、貼近生活場景的硬件成為巨頭公司布局智能產(chǎn)品的最佳入口,如手機、手表、車載、音箱、耳機、電視、冰箱等等。
當然未來的硬件也急需一次升級,僅靠單純的圖形界面或是語音作為輸入輸出,都會讓信息獲取的準確率和效率打折扣。硬件需要支持聽覺、視覺、觸覺、影像等多維的信息輸入或展示。圖形用戶界面結(jié)合語音,甚至混合現(xiàn)實(Mixed Reality)、全息投影等,才能讓人工智能交互更趨向于立體和本能,而這一切離不開原生硬件更有執(zhí)行效率、處理的終端芯片、更多維的傳感器。
2. AI 引擎
這里 AI 引擎特指人工智能的核心算法(深度學(xué)習(xí)算法、記憶預(yù)測模型算法等)在各領(lǐng)域的運用:語音識別、圖像識別、自然語言處理和用戶畫像。
語音識別:人類自然發(fā)出的聲音轉(zhuǎn)換成響應(yīng)的文本或命令和把文字轉(zhuǎn)成語音并根據(jù)需求定制念出來。
圖像識別:我們常說的計算機視覺,常用在印刷文字識別、人臉識別、五官定位、人臉對比與驗證、人臉檢索身份證光學(xué)字符識別(OCR)、名片 OCR 識別等領(lǐng)域。
自然語言處理:由于理解自然語言,需要關(guān)于外在世界的廣泛知識以及運用操作這些知識的能力,自然語言認知,同時也被視為一個人工智能完備(AI-complete)的問題。自然語言處理(NLP)是人工智能中最為困難的問題之一。
用戶畫像:用戶畫像是根據(jù)用戶社會屬性、生活習(xí)慣和消費行為等信息/數(shù)據(jù)而抽象出的一個標簽化的用戶模型。這也是內(nèi)容、大數(shù)據(jù)的結(jié)晶。
AI 引擎為人工智能產(chǎn)品提供核心運算技術(shù),是不可或缺的“一元”。在“AI 導(dǎo)覽機”的智能對話中就運用到語音識別和自然語言處理:
圖 4 語音對話框架
語音識別技術(shù)已經(jīng)趨于成熟,多個第三方平臺均有提供 SDK,而自然語言理解是人工智能的 AI-Hard 問題[5],也是目前智能對話交互的核心難題。機器要理解自然語言,主要面臨如下的 5 個挑戰(zhàn)。
- 語言的多樣性
- 語言的多義性
- 語言的表達錯誤
- 語言的知識依賴
- 語言的上下文
得益于深度學(xué)習(xí)算法,以上各個問題領(lǐng)域的技術(shù)都得到飛速的發(fā)展,相信在認知計算(交流、決策、發(fā)現(xiàn))得到更大的突破之后,AI 引擎會從更多領(lǐng)域幫助人類。
3. 智能 App
智能 APP 代表著人機界面,人是交互的最終感知者,因此通過什么樣的介質(zhì)讓用戶獲得智能體驗和服務(wù)在交互中舉足輕重。傳統(tǒng)的 APP 界面局限在移動設(shè)備屏幕中,新興的智能音箱直接去掉圖形交互界面,兩者都有局限性。
“AI 導(dǎo)覽機”在落地過程中,為了讓用戶體會到絲綢之路的特色,在導(dǎo)覽機中置入多個應(yīng)用服務(wù)(智能 APP),讓用戶可以從視、聽、觸上感受到峰會的魅力。
圖 5 導(dǎo)覽機 AI 虛擬合影
智能時代的 APP,一定是能多維度的數(shù)據(jù)輸入,如識別語音、識別手勢、識別圖像、感知物理環(huán)境等等,也一定會是多維的信息展示,聽覺、視覺、觸覺,全息影像等等,讓交互形式更具感性的色彩,“像人一樣”。
未來,人工智能一定會為人機交互帶來突破,傳統(tǒng)的人機交互技術(shù)(鼠標鍵盤、觸屏等)難以使人與計算機實現(xiàn)如同人與人之間那樣高效自然的交互。伴隨著原生硬件能力的提升和語音識別、圖像分析、手勢識別、語義理解、大數(shù)據(jù)分析等人工智能技術(shù)的發(fā)展,人工智能產(chǎn)品將更好地感知人類意圖,驅(qū)動人機交互的發(fā)展。人工智能三元「原生硬件」,「AI 引擎」和「智能 App」三者的結(jié)合運用也會在未來人工智能產(chǎn)品交互的發(fā)展中將具有一定指導(dǎo)意義。
圖 6 人工智能三元理論框架
也許在未來有這樣的場景:
圣誕節(jié)的晚上,你開車回家。到了地下室,車載設(shè)備問你:天氣有點冷,到家后,要不要喝杯咖啡? 你告訴它想要的口味,然后停車上樓。開門進屋后,智能音箱自動播放《Jingle Bells》,并告知咖啡還有 2 分鐘煮好。
承擔因您的行為而導(dǎo)致的法律責任,
本站有權(quán)保留或刪除有爭議評論。
參與本評論即表明您已經(jīng)閱讀并接受
上述條款。