灵云是一个三人组合的乐队,是由主唱TuomoLassila,贝斯手JohnVihervaauml以及吉他手StaffanStraa组成。
灵云乐队_灵云 -灵云
灵云是一种可以用语音、手写、拍照,手势,将来甚至可使用脑波识别等智能手段来操作、感知手机、计算机等数字设备的网络云服务,让人机交互象人与人沟通一样的简单自然!灵云由北京捷通华声语音技术有限公司创造推出,是全球第一个感知云!灵云平台是基于云计算技术和分布式存储技术,将TTS、ASR、OCR、 HWR、MT等HCI技术全面整合的综合智能云服务平台。
通过移动互联网、互联网,用户使用任何设备,在任何时间、任何地点,随时随地享受灵云为您提供的“听、说、读、写、译……”等全方位的智能人机交互技术服务。
灵云乐队_灵云 -灵云平台简介
灵云所提供的HCI技术可以为人与机器之间的交流,提供更加智能和人性化的操控方式,改变原有的通过鼠标和键盘,并以眼睛为主要操控手段的控制方式,这是继微软推出windows开创视窗时代,苹果推出iPhone开创触控时代之后,又一个全新的智能人机交互时代的来临。
在这个崭新的时代,人们操控数字设备的方式得到了革命性的改变,键盘鼠标不再是唯一的交互与控制方式,以语音、手写为代表的HCI技术将逐渐取代键盘和鼠标在互联网时代的绝对地位,作为获取信息最重要的人体器官――眼睛,将得到前所未有的解放。人们可以通过语音、手写来完成相应的控制工作,眼睛将会获得更多的信息,从而让设备产生更大的生产力,带来更大的娱乐价值和学习价值。
灵云使用了全球最好的HCI技术,并将之按照人类最自然的方式,以云+端的方式提供给用户。为终端用户提供HCI技术云服务,包括语音合成云服务(TTS)、手写识别云服务(HWR)、文字识别云服务(OCR)、语音识别云服务(ASR)、自动翻译云服务(MT)等。
灵云是一个应用于互联网和移动互联网的HCI技术云服务平台,其主要目标是:
1) 实现可面向互联网及移动2G/3G网络提供HCI云服务的服务器,在捷通华声现有技术条件的基础上为移动终端应用程序提供多路并发的语音合成、手写识别、文字识别功能,通过架设在互联网的云端服务器,用户可以随时随地获得高质量的HCI技术云服务;
2) 实现基于移动终端以及桌面平台的HCI技术应用客户端,提供统一的HCI技术应用开发接口,通过该接口用户可以方便、快速地开发语音应用;同时,灵云也将开放一些基于移动以及桌面平台的HCI技术应用,用于展示灵云平台的功能和使用方法,让用户直接体验到最新HCI技术的魅力。
灵云提供了架构于互联网的HCI技术云服务,以及一套移动互联网HCI技术解决方案、应用示例,把HCI技术服务的应用范围拓宽到移动互联网领域,为HCI技术服务产品走向移动互联网市场开辟全新的应用模式。
灵云系统采用分布式架构,可以满足行业级应用的高可靠性、高可用性要求。针对传统HCI技术应用集成开发困难,业务设计繁琐的问题,灵云产品大大简化了集成开发和业务开发的复杂度,为系统集成人员和业务开发人员提供了便捷、高效的开发环境。
“灵云”平台的云服务带来的一个重大变革是从以设备为中心转向以技术服务为中心。硬件的过时,应用软件的过时,在云上都不再是一个问题,只要有互联网或移动互联网,就可以享受到多种多样、高质量、免更新打扰和个性化的HCI服务。现有的“灵云”平台支持TTS(语音合成)、ASR(语音识别)、HWR(手写识别)、OCR(图像识别)、NLP(自然语言处理)等多项HCI技术,并在持续更新性能和添加其他的功能。
“灵云”是为用户提供HCI智能人机交互服务的平台,它拉近了用户与机器之间的距离,简化了用户获取信息的方式。在互联网已经普及的今天,“灵云”更将渗透到每一个角落。想让机器与人沟通变得更加灵活、自然,“灵云”便是最好、最适合用户的选择。“灵云”让人的五官感知从10米以内延伸到整个世界!
灵云乐队_灵云 -系统架构
灵云平台由平台分布式服务节点、业务运营支撑系统、开发者社区组成。基本架构图如下所示:
分布式服务节点:灵云平台是一套基于云计算技术和分布式存储技术,将TTS、ASR、OCR、 HWR、NLP等HCI技术全面整合的综合智能云服务系统平台。用户通过灵云SDK或直接接口进行访问,调用灵云服务。
2.业务运营支撑系统:用于支撑灵云平台的全面运行及业务支撑。包括综合管理模块,日常监控模块,计费模块,自动部署升级模块,语料收集/训练模块。
3.开发者社区:开发者可以自行在开发社区完成账号注册,SDK下载,能力申请与服务费用支付等操作,同时通过社区论坛,可以进行互动与技术支持。
灵云乐队_灵云 -物理架构
通过移动互联网、互联网,用户使用任何设备,在任何时间、任何地点,随时随地享受灵云为您提供的“听、说、读、写、意……”等全方位的智能人机交互技术服务。
灵云乐队_灵云 -灵云特点
一站式解决
灵云平台是一个综合性的智能人机交互云服务平台,可以提供TTS、ASR、HWR、OCR、NLP等多种智能人机交互技术服务,使用者可以在灵云同时获得多项服务支撑,一站式解决了需要到不同智能人机交互技术提供商获取服务的繁琐过程,让智能人机交互技术简单化,实用化。
灵云乐队_灵云 -能力介绍
TTS(语音合成)技术
目前,捷通华声的TTS技术在国内处于领先水平,产品市场占有率达50%,金融行业市场占有率达80%,并且在高铁各站点、奥运会、世博会等多个大型项目中得到成功应用。
捷通华声TTS可以提供中文引擎、英文引擎,以及其他语种引擎以及提供通过大规模录音数据的处理而形成的语音数据库。
ASR(语音识别)技术
语音识别,就是让机器通过分析和理解过程把语音信号转变为相应的文本或命令的尖端技术。语音识别是一门交叉学科,所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音识别技术与语音合成技术一同成为实现人机语音通信,建立有听和讲能力的语音系统所必需的两项关键技术。
捷通华声ASR核心引擎是针对特定语言的识别软件模块,该软件模块是整个ASR软件的核心模块。核心模块接收其他模块的设置,并根据设置内容对语音数据进行识别,并将识别结果列表返回给调用模块。返回的识别结果列表,包含一组识别结果--识别信心值对,以供调用模块使用。
OCR(光学字符识别)技术
OCR(光学字符识别),是通过图像处理和模式识别技术对光学的字符进行识别的意思,是自动识别技术研究和应用领域中的一个重要方面。现在OCR主要是指文字识别软件,它是一种能够将文字自动识别并录入的软件技术。
捷通华声OCR核心引擎是针对特定语言的识别软件模块,该软件模块是整个软件的核心模块。核心模块接收其他模块的设置,并根据设置内容对文字图片数据进行识别,并将识别结果列表返回给调用模块。
HWR(手写识别)技术
手写识别,是指将在手写设备上书写时产生的有序轨迹信息化转化为汉字内码的过程,实际上是手写轨迹的坐标序列到汉字的内码的一个映射过程。
捷通华声HWR以先进的识别算法、多核融合技术、大容量字典裁减压缩技术、高性能字符切割算法和语言模型技术为基础,是一种能够在任何时间、任何地点,向任何人实时、准确地提供手写识别服务的高效便捷手段,非常符合信息时代动态更新和个性化查询的需求。
NLU(自然语言处理)技术
自然语言处理(Natural Language Understanding,简称NLU)技术,涵盖领域非常广泛,包括句子检测,分词,词性标注,句法分析,文本分类/聚类,文字角度,信息抽取/自动摘要,机器翻译,自动问答,文本生成等多个领域。
捷通华声利用多年来在语音语义数据和算法方面的积累,推出了自己的自然语言处理技术,并适时推出了利用自然语言处理技术的智能客服、智能意图控制等产品。这些产品在市场上得到了广泛应用,业务涉及通讯、政府、电子商务、智能家电和汽车等行业,在智能人机交互(文本、语音等)领域处于行业领先地位。