不需要鼠标、键盘,甚至接触,计算机会“看到”你想告诉它的一切—在微软的“未来科技”布局里,识别空中手书是一幕关于人机互动的奇幻片段。
在2054年的华盛顿,汤姆·克鲁斯饰演的安德顿戴着他有触点的手套,边打电话边用双手令人眼花缭乱地在透明显示器上操作程序和窗口,酷劲十足。即使不是科幻迷和游戏迷,也会有很多人憧憬电影《少数派报告》里科幻般的生活。 事实上,你很有可能比汤姆·克鲁斯更酷:当你在空中对着机器比划的时候,已经不再是“对牛弹琴”。微软亚洲研究院的识别空中手书技术使得计算机、智能家电、游戏机能够认识我们所比划的文字,识别内容包括了汉字、日文、韩文,数字和英文单字。就像“我来比划你来猜”游戏,不同的是,猜测我们比划内容的对方,现在变成了和人一样“聪明”的机器。识别空中手书技术,只需要一台普通的电脑、一个摄像头、一个游戏机手柄,就可以实现,脱离鼠标、键盘,甚至代替像iPhone那样触控技术的人机互动。 如果说键盘鼠标输入和手写触控分别代表人机交互的两个阶段,那么,识别空中手书可以说使这种交互进入了3.0时代。“对于这项基础的创新技术,想到在上面开发出的无数最具有想象力的应用就令人激动。这也是作为研究员最值得期待的时刻。没有人能预见,软件开发商和应用微软平台的开发人员会在识别空中手书技术上面开发怎样的应用。可以说,能想多远就有多远。”微软亚洲研究院语音组主任研究员霍强在说这些话的时候,识别空中手书项目的主要负责人马磊正在旁边拿着一颗橘子给记者演示微软的“软”字。 IT的太极之舞 让机器“懂得”人类的想法并“表达”出来,并不容易。传统的使用键盘输入和现在智能手机上流行的触控输入,把信息明确地“灌输”给计算机。然而,空中手写识别技术,更像是中国传统的太极拳法,动作不仅像太极拳一样行云流水,而且能够“手随心动”。 识别空中手书项目组设计了两种解决方案来做演示:最廉价的方式是使用一个网络摄像头来观察用户手的运动;或者使用一种带有被称作“陀螺仪”和“加速度仪”的传感器的设备来捕捉用户手的运动。当用户手的运动被捕捉到之后,对其进行补偿,增强后,手写识别模块就能认出用户在空中写的文字。 “机器从捕捉、映射、识别到显示,整个过程涉及两方面的技术。一是动态运动物体捕捉;二是手写识别。”马磊向记者介绍道。选择一个能够与周围环境的颜色区分开来的物体,放在视频捕捉框的中心位置,按动游戏手柄的按钮开始准备书写。在这个对运动物体的捕捉过程中,就要教会计算机该捕捉的目标物体,计算机知道了所选择的运动目标,周围环境里其他物体的运动就不会产生干扰。目标物体在空中运动的过程中,产生了一个三维的图像轨迹,映射到二维的摄像机里的是一个平面化的轨迹图形,这个平面化的运动轨迹要求对模糊、抖动都能很好的处理。而当计算机获得了清晰的运动轨迹后,后台的手写识别就可以进行分析,从而得到用户想要书写的文字。“这个看似简单的图像分析和文字识别在相应的领域里都做了几十年,绝对可以称得上是高科技。”霍强对记者说,“比如数字3,会有像‘了’等相近的文字,这无疑增加了识别的难度。”最后的识别结果综合了机器对书写动作和图像结果的分析,“形状信息很重要,首先要像;另一方面,动态信息也是个很重要的参考。” 马磊对记者表示,空中手写识别与在手写板书写不同在于,手写板一笔一划,折点尖锐。而空中写字需要一笔完成,没有虚实的概念,不会提笔。在空中书写的过程中,“类似于中国的太极,相对圆滑,行云流水。在速度变成零的时候不可能出现相应的折点,需要对这种字体情况进行特殊处理。” 交互的未来 盖茨曾说,人与计算机的交互将变得越来越像人与人之间的互动。苹果公司的iPhone手机和任天堂的Wii游戏机,在用户互动界面的出色表现获得了消费者的青睐。而微软的下一代操作系统Windows7,作为自然的用户界面,也内置了触摸支持功能;微软智能触控桌面电脑Microsoft Surface,看上去更像是一张多功能的桌面屏幕。 谈到识别空中手书这项技术的最初想法,微软亚洲研究院首席研究员兼语音组负责人宋平表示,“这个想法是为了解决在没有键盘或手写板的特定环境里如何用手势输入字符的问题。识别空中手书从技术和提升用户体验方面都是一项很杰出的创新。我相信这项创新将有可能被应用到微软目前和未来的很多产品及服务中。” 而从研发的角度,脱离了键盘鼠标的识别空中手书技术将想象力更拉近一步,抑或是对未来主流交互式体验的提前预演。而这,将为微软在人机交互体验上培养越来越多的“手语者”。 对于识别空中手书在未来应用的三个场景,马磊向记者介绍道,在交互式游戏环境下,用户在空中输入一些文字,如名字,答案,甚至是解密类游戏的符号,以获取不同的游戏体验;而在可联网设备上,比如网络电视(IPTV)和Xbox,甚至还有智能家电,需要输入文字信息时用远距离“比划”都很方便。比如在网络电视上搜索视频,在Xbox上搜索游戏动画等等;而对于家长来说,采用手势这种寓教于乐的方式,更适合好动且喜欢视觉冲击的小孩。由于远距离输入更能体现脱离键盘鼠标输入信息的优势,未来,微软亚洲研究院希望识别空中手书技术能够为用户解决更多的实际问题,能够使能其他有趣有意义的事情发生。而且,将不限定只用一个跟踪点,未来将会有多个跟踪点来应用到微软地图搜索服务的查找、缩放等。 “我们做研发的目的是为了提升用户体验,微软亚洲研究院在与产品部门的互动和沟通过程中,来共同探讨把这些创新技术应用到产品里或者技术转移出去的时间。但是,作为一个研究人员,能够让千家万户应用到自己的创新想法是最令我们激动的事情。”霍强对记者说。 霍强和马磊最近刚从微软雷德蒙总部回来,他们在微软研究院一年一度的技术节上展示了识别空中手书技术,吸引了包括微软产品部门,微软全球其它研究院同事以及媒体的关注。著名博客人Chris Pirillo 在他博客中写道:“虽然这个软件目前还只是个技术原型,没有被应用,但是我很看好它,这是一项惊人的研究。你能想像这个软件什么时候能被应用吗?我们所有的Xbox迷都拭目以待吧!” 这些充满无限可能性的基础创新是最具能量的。它本身可能不是一个成熟的应用,但是一旦与现实生活中有趣的想法相结合,就可以催生出无数的精彩成果。微软擅长于调动丰富的研发资源做些“打地基”的事情,识别空中手书就拓展了更多丰富应用的可能性。而这,或者就是微软亚洲研究院“研发之美”的魅力所在。