人机交互的进展及面临的挑战

人机交互的进展及面临的挑战 董士海北京大学计算机科学技术系人机交互与多媒体研究室 dong@pku.edu.cn

人机交互的进展及面临的挑战 一引言二回顾三进展四挑战五结论

一引言 人机交互与多媒体研究室

人机交互与用户界面 • 人机交互（Human-Computer Interaction, HCI): 是研究人、计算机以及它们间相互影响的技术 • 用户界面: 是人与计算机之间传递、交换信息的媒介和对话接口，是计算机系统的重要组成部分 • 人机交互与用户界面是两个有着紧密联系而又不尽相同的概念 • 人机交互强调的是技术和模型，用户界面是计算机的关键组成部分人机交互与多媒体研究室

人机交互技术与计算机始终相伴发展 • 计算机的发展历史，不仅是处理器速度、存储器容量飞速提高的历史，也是不断改善人机交互技术的历史。 • 人机交互技术, 如鼠标器、窗口系统、超文本、浏览器等等，已对计算机的发展产生了了巨大的影响，而且还将继续影响整个人类的生活。 • 人机交互技术是当前信息产业竞争的一个焦点，世界各国都将人机交互技术作为重点研究的一项关键技术。人机交互与多媒体研究室

人机交互技术的目标 • 美国总统信息技术顾问委员会的“21世纪的信息技术报告”中列出了新世纪四项重点发展的信息技术 • 研制能听、能说、能理解人类语言的计算机 • 使计算机更易于使用，操作起来更愉快，从而提高使用者的生产率 • 人机交互和信息管理 • 软件 • 可伸缩信息基础设施 • 高端计算人机交互与多媒体研究室

计算机的三个作用 ACM图灵奖1992年获得者、微软研究院软件总工程师Butler Lampson在题为“二十一世纪的计算研究”报告中指出“计算机有三个作用：模拟; 帮助人们进行通信; 互动：与实际世界的交流” “人们希望计算机能够看、听、讲，甚至比人做得更好，并能够进行实时处理。” 人机交互与多媒体研究室

两个重要的应用趋势 • 计算机系统的拟人化　以虚拟现实为代表 • 计算机的微型化、随身化和嵌入化　以手持电脑、智能手机为代表人机交互技术是面临这种趋势的瓶颈技术。以人为中心、自然、高效将是新一代人机交互的主要目标。人机交互与多媒体研究室

VR & Embodied Virtuality 人机交互与多媒体研究室

二回顾 人机交互与多媒体研究室

人机交互的发展历史 • 人机交互的发展历史，是从人适应计算机到计算机不断地适应人的发展史 • 人机交互的发展经历了几个阶段： • 早期的手工作业阶段 • 作业控制语言及交互命令语言阶段 • 图形用户界面（GUI）阶段 • 网络用户界面的出现 • 多通道、多媒体的智能人机交互阶段人机交互与多媒体研究室

人机交互与多媒体研究室

最有影响的事件和成果 • 1945年美国V. Bush提出了应采用设备或技术来帮助科学家检索、记录、分析及传输各种信息的新思路和名为“Memex”的一种工作站构想。 • 1963年美国麻省理工学院I.Sutherland开创了计算机图形学的新领域，而获1988年ACM图灵奖。他还在1968年开发了头盔式立体显示器，成为现代虚拟现实技术的重要基础。人机交互与多媒体研究室

最有影响的事件和成果 • 1963年发明鼠标器的美国斯坦福研究所的 D.Engelbart，他预言鼠标器比其他输入设备都好，并在超文本系统、导航工具方面做了杰出的成果(Augmented Human Intellect project )，而获1997年ACM图灵奖。10年后鼠标器经不断改进，成为影响当代计算机使用的最重要成果。人机交互与多媒体研究室

最有影响的事件和成果 • 70年代Xerox研究中心的Alan Kay提出了Smalltalk面向对象程序设计等思想，并发明了重叠式多窗口系统。 • 1989年Tim Berners-Lee在日内瓦的CERN用HTML及HTTP开发了WWW网，随后出现了各种浏览器（网络用户界面），使互联网飞速发展起来。人机交互与多媒体研究室

最有影响的事件和成果 • 90年代美国麻省理工学院N.Negroponte领导的媒体实验室在新一代多通道用户界面方面（包括语音、手势、智能体等），做了大量开创性的工作。 • 90年代美国Xerox公司PARC的首席科学家Mark Weiser首先提出“无所不在计算（Ubiquitous Computing）”思想。人机交互与多媒体研究室

三进展 人机交互与多媒体研究室

人机交互技术的进展 • 自然、高效的多通道交互 • 人机交互模型和设计方法 • 虚拟现实和三维交互 • 可穿戴计算机和移动手持设备的人机交互 • 智能空间及智能用户界面 • 标准化及其它人机交互与多媒体研究室

1。自然、高效的多通道交互 人机交互与多媒体研究室

通道与多通道交互 • 多通道交互(Multi-Modal Interaction)：一种使用多种通道与计算机通信的人机交互方式。采用这种方式的计算机用户界面称为“多通道用户界面”。 • 通道(Modality)：源于心理学的概念，涵盖了用户表达意图、执行动作或感知反馈信息的各种通信方法，如言语、眼神、脸部表情、唇动、手动、手势、头动、肢体姿势、触觉、嗅觉或味觉等。人机交互与多媒体研究室

多通道交互 • 多通道交互是近年来迅速发展的一种人机交互技术，它既适应了“以人为中心”的自然交互准则，也推动了互联网时代信息产业（包括移动计算，移动通信、网络服务器等）的快速发展。 • 多通道交互的各类通道（界面）技术中，有不少已经实用化、产品化、商品化。其中我国科技人员做出了不少优异的工作。人机交互与多媒体研究室

手写汉字识别 • 中科院自动化所开发的“汉王笔”手写汉字识别系统，经过近20年的研究和开发，已能识别27000汉字，当用非草写汉字、以每分钟12个汉字的速度书写时，识别率可达99.8%。我国现在已约有300万手写汉字识别系统的用户。人机交互与多媒体研究室

数字墨水技术 • 微软亚洲研究院多通道用户界面组发明的数字墨水技术，采用全新易操纵的笔交互设备、高质量的墨水绘制技术、智慧的墨迹分析技术等，使它不仅可用作为文字识别、图形绘制的输入，而且作为一种全新的“Ink”数据模型，使手写笔记更易阅读、获取、组织和使用。数字墨水技术已作为产品，结合在微软的Tablet PC 操作系统中，产生了巨大的社会影响。它还将继续发展，有可能成为新一代优秀的自然交互设备。人机交互与多媒体研究室

笔式交互技术 • 在笔式交互技术研究中，中国科学院软件所人机交互技术与智能信息处理实验室在笔式交互软件开发平台、面向教学的笔式办公套件（包括课件制作、笔式授课、笔式数学公式计算器、笔式简谱制作等）、面向儿童的神笔马良系统的开发应用方面均有出色的工作，其中不少已经实用化、产品化。人机交互与多媒体研究室

基于笔的字处理 EasyEditor 人机交互与多媒体研究室

手写数学公式 人机交互与多媒体研究室

中文语音识别 • IBM/Via Voice连续中文语音识别系统经过不断改进，已广泛应用于Office/XP的中文版等办公软件和应用软件中，在中文语音识别领域有重要影响。 • 中国科学院自动化所“汉语连续语音听写系统”的特点是建立了基于决策树的上下文相关模型；针对连续语音中声调之间的协同发音问题，建立了相应的变调模型；建立了与识别系统配套的自适应平台，降低35%左右音节误识率；提出了领域自适应方法，通过较少的领域语料，可得到较好的领域自适应模型和字典人机交互与多媒体研究室

语音合成技术 • 1990年提出的基音同步叠加（PSOLA）方法使合成语音的音色和自然度明显提高。 • 在国家支持下，汉语语音合成取得了显著进展，多家国内研究单位都成功开发了自己的语音合成系统。 • 1999年在国家智能计算机研究开发中心、中国科技大学人机语音通信实验室的基础上组建的科大讯飞公司在汉语语音合成技术领域已达到了国际先进水平。人机交互与多媒体研究室

语音和笔 • 上述成果表明，作为人类最重要的自然通道——语音和笔的交互技术，包括手写识别、数字墨水、笔交互、语音识别、语音合成等通道技术，近年来已有显著的进步，我国的不少成果已具有国际先进水平，并达到了一定的产业规模。 • 虽然语音和笔（手势）通道因其自身的特点，在抗干扰、准确度等方面仍嫌不足，但它们在多通道整合、领域受限应用等配合下，最有希望成为新一代实用的自然交互技术。人机交互与多媒体研究室

手语识别和合成 中国科学院计算所研制成功了基于多功能感知的中国手语识别与合成系统，它采用数据手套可识别大词汇量（5177个）的手语词。该系统建立了中国手语词库。对于给定文本句子(可由正常人话语转换而成)，自动合成相应的人体运动数据。最后用计算机人体动画技术，将运动数据应用于虚拟人，由虚拟人完成合成的手语运动。它可输出大词汇量的手语词，为中国聋哑人的教育、生活提供了有用的辅助工具，使他们用手语与正常人的交流成为可能。人机交互与多媒体研究室

视线跟踪（眼动）技术 • 视线跟踪（眼动）技术由于其可能代替键盘输入、鼠标移动的功能，可能达到“所视即所得”(What You Look at is What You Get),因而对残疾人和飞行员等使用有极大的吸引力。 • 视线跟踪技术，一是研究高质量的眼动跟踪设备，二是如何构造易于操作的用户界面。 • 眼动跟踪设备有强迫式与非强迫式、穿戴式与非穿戴式、接触式与非接触式之分。 • 眼动跟踪设备的精度和对用户的限制和干扰是一对尖锐的矛盾。人机交互与多媒体研究室

视线跟踪（眼动）技术 目前一类产品是采用头戴微型摄像头的设备，它用来获取两眼瞳孔（或角膜）中视点。其采样率、精度高，可靠。另一类是在PC机前装了两个微型摄像头的设备，精度不高，适合残疾人操作计算机使用。人机交互与多媒体研究室

“注视用户界面(Attentive User Interfaces, AUI) ” 人机交互与多媒体研究室

触觉通道的力反馈装置 • 新一代力反馈感应技术主要有TouchSense触觉感应技术和G-Force Tilte动作感应技术两种。TouchSense触觉感应技术主要用在鼠标/轨迹球等产品中，而动作感应技术(G-Force Tilte)则主要用在动感游戏控制器中。 • 用在非游戏的高精度触觉反馈装置中，最著名的是由MIT人工智能实验室Massie and Salisbury开发、美国SensAble Technologies 公司生产的Phantom触觉反馈（6自由度）设备和 Ghost软件开发包。由于高精度，它已广泛用于军事、医学、机器人、教学、虚拟现实等各类应用中。人机交互与多媒体研究室

触觉通道的力反馈装置 人机交互与多媒体研究室

生物特征识别技术 • 生物特征识别技术(Biometrics)是受到广泛关注的一类新兴识别技术。 • 早期通过对人的指纹识别来确定人的身份，因而指纹识别被广泛应用于安全、公安等部门。 • 随着反恐斗争的日显重要，各国正在对其他人体特征进行广泛研究，希望尽快找到快速、准确、方便、廉价的身份识别方法。眼睛虹膜、掌纹、笔迹、步态、语音、人脸、DNA等的人类特征研究和开发正引起政府、企业、研究单位的广泛注意。人机交互与多媒体研究室

唇读、人脸表情识别 • 唇读、人脸表情识别是又一个人机交互技术的热点。 • 唇读将人们说话的语音和嘴唇变化的形态结合起来，以便更准确地获取人们表达的意图、感情和愿望等。 • 人脸表情识别的模型和方法也在不断改进。人机交互与多媒体研究室

自然语言理解 • 自然语言理解始终是自然人机交互的最重要目标，虽然目前在语言模型、语料库、受限领域应用等方面均有进展外，由于它的难度（自然语言的不规范性等），自然语言理解仍是计算机科学家和语言学家的一个长项研究目标。人机交互与多媒体研究室

多通道的整合问题 • 多通道的整合问题是多通道交互的一个核心研究内容。 • 1995年由北京大学、杭州大学、中科院软件所承担的自然基金重点项目“多通道用户界面研究”是当时我国最大的HCI项目，探索了多通道用户界面的模型、设计、实现、评估和应用，取得了重要的成果。人机交互与多媒体研究室

多通道交互的标准工作 • 2002年2月W3C国际组织成立了“多通道交互”工作小组（Multimodal Interaction Working Group），它开发W3C新的一类支持移动设备多通道交互的协议标准。 • 目前它已开展了五项标准的制订，并已在互联网上发布不同阶段的正式草稿，供补充、完善。 • 多通道交互框架（Multimodal Interaction Framework） • 多通道交互需求（Multimodal Interaction Requirements） • 多通道交互用例（Multimodal Interaction Use Cases） • 可扩展多通道注释语言需求（EMMA--Extensible MultiModal Annotation language Requirements） • 数字墨水需求（Ink Requirements）人机交互与多媒体研究室

2。人机交互模型和设计方法 人机交互与多媒体研究室

人机交互模型和设计方法 • 模型在人机交互领域中十分重要，用得很多，类型也很多。 • 一类是从系统的结构出发，讨论界面在系统中的地位和分解，我们称它为“界面结构模型”。其典型的例子是将界面分成三部分（表示部件、对话控制、应用接口）的Seeheim模型。 • 另一类是从系统设计的角度来了解用户的“用户特性模型”。它分析不同用户的特点，以提高系统的针对性和适应性，增强界面个性化和提高效率。其典型例子是按照用户对系统、领域的知识、经验、技能的不同，将用户分为偶然、生疏、熟练、专家型等四类用户。人机交互与多媒体研究室

行为模型的一种用户任务分析模型GOMS 从认知科学出发，分析用户如何和计算机互动的“人机交互模型”，即行为模型。 GOMS(Goal, Operator, Methods, Selection rule)模型这个模型的理论基础是认知心理学家创立的问题解决理论。人机交互与多媒体研究室

CPM-GOMS模型 • 1996年美国卡内奇-梅隆大学的B. John 等又在GOMS模型的基础上进一步提出了CPM(Cognitive Perceptual Motor)-GOMS模型。 • 这是一个并行处理的多层次模型,它也称作“关键路径方法”。CPM-GOMS模型从人的因素处理器各个层面上提供感知、认知和运动的操作功能，它可以在任务的要求下进行并行操作，可以同时执行多个活动目标。人机交互与多媒体研究室

以用户为中心的设计方法 • “以用户为中心的设计”(User Centred Design, UCD)方法近年来已被国际上广泛采用。 • 主要特征： • 主要设计活动： • 用户的积极参与，对用户及其任务要求的清楚了解 • 在用户和技术之间适当分配功能 • 反复设计解决方案 • 多学科设计 • 了解并确定使用背景 • 确定用户和组织要求 • 提出设计解决方案 • 根据要求评价设计人机交互与多媒体研究室

基于剧情的设计方法 • J. Carroll的“基于剧情的设计方法”（Scenario-Based Design）目前在具体交互设计中被广泛使用。 • 该方法从用户的观点详细地给出： • 由于该方法符合人的认知过程，在较高层次上描述了用户的意图，又便于实现，因而在大量交互系统设计中被采用。 • 交互过程的全部角色（人、设备、数据源、系统等） • 各种场景的假设 • 剧情的描述 • 某种形式（如用事件表来刻画用户动作、设备响应、事件叙述、事件处理、动作结果等）的人机对话逐步分解 • 其他各种条件（如：协议，同步，例外事件等）人机交互与多媒体研究室

基于知识的概念模型 • 近年来采用上下文、基于知识的概念模型逐渐受人重视。 • 这种建模方法吸取了“以用户为中心的设计”方法和“基于剧情的设计方法”的一些特点，期望在更高层次上建模。人机交互与多媒体研究室

3。虚拟现实和三维交互 人机交互与多媒体研究室

虚拟现实和三维交互设备 立体眼镜头盔式显示器（HMD）双目全方位监视器（BOOM）墙式显示屏的自动声像虚拟环境（CAVE）三维鼠标三维跟踪球三维游戏杆头动位置检测器数据手套数据衣服三维显示设备三维输入设备位置跟踪设备人机交互与多媒体研究室

人机交互的进展及面临的挑战

人机交互的进展及面临的挑战

Presentation Transcript