123,123,123

文章分類選擇

電腦辦公平面設(shè)計室內(nèi)設(shè)計室外設(shè)計機械設(shè)計工業(yè)自動化影視動畫程序開發(fā) 網(wǎng)頁設(shè)計會計課程興趣成長 AIGC

相關(guān)推薦

您可能對下面課程感興趣

如何提升人工智能交互體驗？

發(fā)布時間:2022-01-12 09:26 [ 我要自學(xué)網(wǎng)原創(chuàng) ] 發(fā)布人: hh71427-2 閱讀: 4674

摘要：毫無疑問，人工智能產(chǎn)品會慢慢滲入人們的工作、生活、娛樂當中，為各行各業(yè)帶來革命性的變化。未來，產(chǎn)品與產(chǎn)品之間、產(chǎn)品與環(huán)境之間、產(chǎn)品與用戶之間的邊界會非常模糊，人們會在多設(shè)備中無縫跳轉(zhuǎn)和緊密連接，形成一個“你中有我，我中有你”的整體。在人工智能時代里，「原生硬件」，「AI 引擎」和「智能 App」是構(gòu)成完整智能體驗和服務(wù)閉環(huán)的三要素。

如何提高人工智能交互體驗？先來了解這個三元理論

圖 1 人工智能三元理論

關(guān)鍵詞：人工智能，人機交互，交互體驗，原生硬件，AI 引擎

引言

從 1956 年在達特茅斯正式提出 Artificial Intelligence，如今已經(jīng)過去了 60 幾個年頭，但直到 AlphaGo 大勝李世石和柯潔三負 AlphaGo 后，“人工智能”才成為一個熱詞進入大眾視線。而事實上，最近的一兩年，各大科技巨頭早已深入布局人工智能領(lǐng)域。從虛擬助手 Siri、微軟小冰到各家巨頭的智能音箱、智能駕駛，人工智能產(chǎn)品正逐漸融入我們的生活。在這個被視為會顛覆一切的人工智能時代，究竟產(chǎn)品存在什么樣的痛點？交互會有如何的改變？什么樣的交互設(shè)計才能讓用戶在使用人工能智能產(chǎn)品時獲得一個極致體驗？

通過對市面一些人工智能產(chǎn)品體驗和“AI 導(dǎo)覽機”項目（網(wǎng)龍為首屆數(shù)字中國建設(shè)峰會量身定制的智能導(dǎo)覽機，可為來賓提供室內(nèi)尋路、會務(wù)信息查詢、百科知識解答、拍照合影等智能服務(wù)）實現(xiàn)過程的分析得出的一些痛點：

當前人工智能產(chǎn)品體驗的痛點

1. 對原生硬件的依賴非常大

智能交互可以理解為是感知->計算處理->執(zhí)行反饋的一個過程，與圖形用戶界面（Graphical User Interface, GUI）交互中的輸入（鼠標或觸摸）不同的是，感知是人工智能交互最大的一個特色。受限于權(quán)限、進程、設(shè)備能力等因素，無論是 App 還是 AI 引擎都難以隨時無縫的去訪問底層的傳感器和計算單元，缺少硬件層面的傳感器去感知人與周圍壞境，作為信息輸入，就無法讓體驗達到最佳。

2. 沒有主動性、自發(fā)性

目前，智能家居硬件是人工智能最廣為運用的領(lǐng)域，比如各大巨頭廠商推出的智能音箱。在與機器人開啟對話時，用戶需要點擊機器人身上的按鈕，并且每下發(fā)一個指令都必須要喚起一次，然后進行一對一單線程對話。不難發(fā)現(xiàn)，這是一種”不自然的語音交互”，其本質(zhì)也只是更換了一種人工控制的方式。針對現(xiàn)有幾款智能音箱（小米小愛、天貓精靈、喜馬拉雅小雅、百度小度、叮咚二代），整理了產(chǎn)品在天貓和京東消費用戶關(guān)于語音交互上反饋，可以明顯看到用戶對于需要頻繁喚醒感到不滿意：

如何提高人工智能交互體驗？先來了解這個三元理論

圖 2 智能音箱痛點

而在”AI 導(dǎo)覽機”項目前期，也存在技術(shù)上和體驗上的困惑：

技術(shù)：由于會場嘈雜，語音喚起導(dǎo)覽機產(chǎn)生交互的成功率會大大降低；
體驗：為什么需要等到用戶開口要求才給與反饋幫助，作為會場服務(wù)方，是否能主動去發(fā)現(xiàn)理解每一位需要幫助的用戶？

再重新梳理情景后，導(dǎo)覽機取消語音喚起的方案，而是通過獲取人物影像，根據(jù)深度距離判斷用戶是否進入近場交互觸發(fā)區(qū)，根據(jù)人臉識別判斷用戶是否有互動意向（面向時間，且過濾側(cè)面經(jīng)過的人群），進而主動詢問用戶：親愛的來賓，請問有什么可以幫到您？

理解用戶和主動服務(wù)是人工智能產(chǎn)品具備的優(yōu)勢，也是設(shè)計需要翻越的一道鴻溝。從被動接受的指令模式升級為一種主動服務(wù)式的智能產(chǎn)品模式，從用戶主導(dǎo)變?yōu)橹鲃臃⻊?wù)的模式，這才是更符合未來人工智能的”自然交互”。

3. 信息獲取的準確率與效率

語音用戶交互（Voice User Interface, VUI）是人通過自然語言與計算機進行交互，也是目前人工智能產(chǎn)品主流的交互方式。

從人類自身感官的角度來看，視覺接收的信息量遠比聽覺高。從內(nèi)容信息的形態(tài)區(qū)分，圖形用戶界面（Graphical User Interface, GUI）主要為圖片和文字，依賴視覺，而語音用戶交互（Voice User Interface, VUI）主要為聲音文字，依賴聽覺。

大腦每秒通過眼睛接收的信息上限為 100Mbps，通過耳蝸接收的信息上限為 1Mbps。[1]

如果將圖像作為信息載體，視覺閱讀的信息遠超聽覺的 5 倍。眼睛還有一個特別之處，通過掃視的方式一秒內(nèi)可以看到三個不同的地方。[2]

另一方面，由于缺乏情境感知（Context Awareness）能力，即人的認知，人工智能還無法很好的理解上下文，根據(jù)用戶是誰、用戶情感、當前環(huán)境、之前的記憶給出精確下一步的預(yù)測。

單純的語音交互對于用戶體驗來說是有缺陷的，在信息獲取的效率和準確率上都有待進一步提高。

人工智能產(chǎn)品交互的核心

從 PC 互聯(lián)網(wǎng)時代到移動互聯(lián)網(wǎng)時代，產(chǎn)品的交互主要還是基于圖形用戶界面（Graphical User Interface, GUI），但是到了人工智能時代，人與產(chǎn)品（智能 App、穿戴設(shè)備、智能硬件）的關(guān)聯(lián)愈加緊密和深入。人機交互將從簡單的人與屏幕的單線程，拓展為語音交互、手勢交互、增強現(xiàn)實交互等多線程模式，進入一個“自然交互”的時代。自然用戶界面是人機交互界面的新興范式轉(zhuǎn)變，通過研究現(xiàn)實世界環(huán)境和情況，利用新興的技術(shù)能力和感知解決方案實現(xiàn)物理和數(shù)字對象之間更準確和最優(yōu)化的交互，從而達到用戶界面不可見或者交互的學(xué)習(xí)過程不可見的目的，其核心關(guān)注是傳統(tǒng)的人類能力（如觸摸、視覺、言語、手寫、動作）和更重要、更高層次的過程（如認知、創(chuàng)造力和探索）[3]�；诋斍叭斯ぶ悄荏w驗的痛點和未來人機交互的核心，提出人工智能交互的三元：「原生硬件」，「AI 引擎」和「智能 App」，三元一體，環(huán)環(huán)相扣，會讓體驗更趨于自然。

人工智能交互的三元理論

1. 原生硬件

在“AI 導(dǎo)覽機”項目 PRD 文檔里有兩個關(guān)于影像捕獲的需求：

識別人臉并與虛擬人物合照，且能判斷用戶性別，在裝飾做一些附加處理；
捕捉用戶動作，與虛擬導(dǎo)覽員產(chǎn)生互動；

基于這兩個需求，發(fā)現(xiàn)導(dǎo)覽機常規(guī)的前置攝像頭并不能滿足功能的實現(xiàn)：

獲取呈像的范圍有限；
無法獲取深度相機的深度值；
無法捕捉用戶動作；

因此，開發(fā)人員在導(dǎo)覽機中配置入與 Kinect2 同等配置的 RGB Camera Depth/IR Cameear，形成一個滿足大空間中的 RGB 視場（FOV）:

如何提高人工智能交互體驗？先來了解這個三元理論

圖 3 Camera FOV 透視圖

芯片、傳感器、計算單元、執(zhí)行單元可以非常好的處理智能交互中的感知、處理、反饋。目前，各種感應(yīng)設(shè)備已經(jīng)可以精確檢測距離、光線、音量、人臉、動作、溫度、濕度等等各種環(huán)境信息，通過感應(yīng)器采集過的信息形成信息空間，信息空間便是連接人和物理空間的虛擬空間。國務(wù)院下發(fā)的《新一代人工智能發(fā)展規(guī)劃》[4]中也強調(diào)了這一空間的建設(shè)和使用。

通過原生自動記錄用戶使用數(shù)據(jù)，自動分析用戶使用習(xí)慣，自動給與用戶最佳推薦，這一切都依賴于原生硬件。正如高粘度、貼近生活場景的硬件成為巨頭公司布局智能產(chǎn)品的最佳入口，如手機、手表、車載、音箱、耳機、電視、冰箱等等。

當然未來的硬件也急需一次升級，僅靠單純的圖形界面或是語音作為輸入輸出，都會讓信息獲取的準確率和效率打折扣。硬件需要支持聽覺、視覺、觸覺、影像等多維的信息輸入或展示。圖形用戶界面結(jié)合語音，甚至混合現(xiàn)實（Mixed Reality）、全息投影等，才能讓人工智能交互更趨向于立體和本能，而這一切離不開原生硬件更有執(zhí)行效率、處理的終端芯片、更多維的傳感器。

2. AI 引擎

這里 AI 引擎特指人工智能的核心算法（深度學(xué)習(xí)算法、記憶預(yù)測模型算法等）在各領(lǐng)域的運用：語音識別、圖像識別、自然語言處理和用戶畫像。

語音識別：人類自然發(fā)出的聲音轉(zhuǎn)換成響應(yīng)的文本或命令和把文字轉(zhuǎn)成語音并根據(jù)需求定制念出來。

圖像識別：我們常說的計算機視覺，常用在印刷文字識別、人臉識別、五官定位、人臉對比與驗證、人臉檢索身份證光學(xué)字符識別（OCR）、名片 OCR 識別等領(lǐng)域。

自然語言處理：由于理解自然語言，需要關(guān)于外在世界的廣泛知識以及運用操作這些知識的能力，自然語言認知，同時也被視為一個人工智能完備（AI-complete）的問題。自然語言處理（NLP）是人工智能中最為困難的問題之一。

用戶畫像：用戶畫像是根據(jù)用戶社會屬性、生活習(xí)慣和消費行為等信息/數(shù)據(jù)而抽象出的一個標簽化的用戶模型。這也是內(nèi)容、大數(shù)據(jù)的結(jié)晶。

AI 引擎為人工智能產(chǎn)品提供核心運算技術(shù)，是不可或缺的“一元”。在“AI 導(dǎo)覽機”的智能對話中就運用到語音識別和自然語言處理：

如何提高人工智能交互體驗？先來了解這個三元理論

圖 4 語音對話框架

語音識別技術(shù)已經(jīng)趨于成熟，多個第三方平臺均有提供 SDK，而自然語言理解是人工智能的 AI-Hard 問題[5]，也是目前智能對話交互的核心難題。機器要理解自然語言，主要面臨如下的 5 個挑戰(zhàn)。

語言的多樣性
語言的多義性
語言的表達錯誤
語言的知識依賴
語言的上下文

得益于深度學(xué)習(xí)算法，以上各個問題領(lǐng)域的技術(shù)都得到飛速的發(fā)展，相信在認知計算（交流、決策、發(fā)現(xiàn)）得到更大的突破之后，AI 引擎會從更多領(lǐng)域幫助人類。

3. 智能 App

智能 APP 代表著人機界面，人是交互的最終感知者，因此通過什么樣的介質(zhì)讓用戶獲得智能體驗和服務(wù)在交互中舉足輕重。傳統(tǒng)的 APP 界面局限在移動設(shè)備屏幕中，新興的智能音箱直接去掉圖形交互界面，兩者都有局限性。

“AI 導(dǎo)覽機”在落地過程中，為了讓用戶體會到絲綢之路的特色，在導(dǎo)覽機中置入多個應(yīng)用服務(wù)（智能 APP），讓用戶可以從視、聽、觸上感受到峰會的魅力。

如何提高人工智能交互體驗？先來了解這個三元理論

圖 5 導(dǎo)覽機 AI 虛擬合影

智能時代的 APP，一定是能多維度的數(shù)據(jù)輸入，如識別語音、識別手勢、識別圖像、感知物理環(huán)境等等，也一定會是多維的信息展示，聽覺、視覺、觸覺，全息影像等等，讓交互形式更具感性的色彩，“像人一樣”。

未來，人工智能一定會為人機交互帶來突破，傳統(tǒng)的人機交互技術(shù)（鼠標鍵盤、觸屏等）難以使人與計算機實現(xiàn)如同人與人之間那樣高效自然的交互。伴隨著原生硬件能力的提升和語音識別、圖像分析、手勢識別、語義理解、大數(shù)據(jù)分析等人工智能技術(shù)的發(fā)展，人工智能產(chǎn)品將更好地感知人類意圖，驅(qū)動人機交互的發(fā)展。人工智能三元「原生硬件」，「AI 引擎」和「智能 App」三者的結(jié)合運用也會在未來人工智能產(chǎn)品交互的發(fā)展中將具有一定指導(dǎo)意義。

如何提高人工智能交互體驗？先來了解這個三元理論

圖 6 人工智能三元理論框架

也許在未來有這樣的場景：

圣誕節(jié)的晚上，你開車回家。到了地下室，車載設(shè)備問你：天氣有點冷，到家后，要不要喝杯咖啡？你告訴它想要的口味，然后停車上樓。開門進屋后，智能音箱自動播放《Jingle Bells》，并告知咖啡還有 2 分鐘煮好。

上一篇: 無處不在的「米勒定律」

下一篇: 熟悉大廠體驗設(shè)計的搭建流程

文章評論

0 條評論按熱度排序按時間排序 0/350

遵守中華人民共和國的各項道德法規(guī)，
承擔因您的行為而導(dǎo)致的法律責任，
本站有權(quán)保留或刪除有爭議評論。
參與本評論即表明您已經(jīng)閱讀并接受
上述條款。