发新话题
打印

语音识别

语音识别

http://www.xfyun.cn/robots/solution
讯飞的语音识别,针对机器人
乐乎设计,乐乎生活~

TOP

DoNews11月23日消息(记者 翟继茹)23日,科大讯飞举行年度发布会,围绕输入法、声音、教育、汽车、机器人等领域,一次性发布了多款产品一次性发布了多款新产品。其中,服务机器人晓曼将于明年3月份量产发布。

晓曼机器人通过集成最新的科大讯飞AIUI技术,结合人脸、声纹、远场识别等技术,可完成用户身份识别、数据分析、业务办理等工作。科大讯飞轮值总裁胡郁介绍,晓曼机器人目前已经在部分银行中被试用。它可以独立办理超过70%的业务,通过后台监控管理系统,还可以实现后台坐席与客户进行人机交互,这样就可以使得服务覆盖率提升到90%以上。此外,目前已经有3000家机器人公司使用了AIUI系统。

在输入法领域, 胡郁介绍讯飞输入法已经拥有4亿用户。此次,科大讯飞推出万物互联输入法,支持OCR智能扫描输入、体感输入和语音输入,可以将纸上的文字同步到电视显示屏等终端设备中,也可以隔空书写或选择语音录入文字。基于以上输入方式,万物互联输入法还可以进行实时纠错。

智能汽车领域,科大讯飞推出促进车内人机交互的系统飞鱼助理。除了一般车载智能语音系统所具备的语音地图搜索、导航、拨打电话等功能外,还具备了诸如推荐餐厅、互动娱乐等交互功能。在现场展示中,颇引人注意的是在嘈杂的环境中,飞鱼助理可以准确识别人音,并具有免唤醒功能。

现场,科大讯飞轮值总裁胡郁与一位外国友人用科大讯飞便携式翻译机进行了一场跨语言的对话。这款机器翻译系统,可以实现中、英、维三种语言即时互译。

除此以外,科大讯飞利用语音合成技术推出了配音阁、讯飞有声和讯飞快听3款产品,基于教育领域,则发布了畅言和智学两款产品。

科大讯飞视中国第一家将深度学习网络应用到语音识别领域的公司,并已经将其转化为实际产品。在此次发布会中可以看出科大讯飞正在以人工智能为切入口展开了各个领域的布局。 科大讯飞董事长刘庆峰表示,人工智能将会为细分行业的创业者提供更多创新平台,科大讯飞把平台开放给开发者之后,科大讯飞智能云平台上总用户达到8.9亿,每天30亿人次访问量,创业团队从去年的7万增加到21万家。
乐乎设计,乐乎生活~

TOP

腾讯科技讯(卜祥)11月23日,以人工智能著称并为外界所知的科技公司科大讯飞,在北京国家会议中心发布人工智能技术在教育、家居、机器人等领域的系列产品和应用,并首次推出服务于银行大厅的机器人晓曼。

当天,2000多人的会场一座难求,很多稍迟注册的人被保安拦在了会场门外,人工智能领域之热远超想象。经过上个月锤子手机发会上罗永浩的推介,科大讯飞语音输入法意外成为当场发布会最大赢家。这天,手机界人物余承东、罗永浩都过来捧场。

科大讯飞董事长刘庆峰在发布会上介绍,从2015年10月份,科大讯飞累计智能终端产品数是6个亿,日均使用次数是10亿,至2016年10月份,这两个数字分别增长至8.9亿和30亿。同一时间段,第三方围绕科大讯飞的创业团队,去年有7万家,现在已经达到21万家,初步构成了人工智能产业生态。

发布会之前,科大讯飞完成了一轮规模较大的组织架构调整。腾讯科技从科大讯飞副总裁江涛处获悉,为业务发展需要,“以客户为中心”,分别成立了消费者BG、教育BG和智慧城市BG。三个业务集团中,教育BG目前赢利最多。最新2016年第三季度报告显示,该公司营业收入21.41亿元,同比增长27.90%,归属于上市公司股东的净利润2.78亿元,同比增长24.51%。

占据语音入口,取道人工智能,科大讯飞一方面展现出诱人的商业前景,吸引了像中国移动(微博)这样大公司的投资,自身也投资了起源于中国科学院、专注于深度学习神经网络研究的寒武纪科技公司。在业内,早就有“神经网络统治一切未来”的说法,科大讯飞已经提前卡位。今年9月,又传出科大讯飞投资ROOBO北京智能管家科技有限公司。

另一方面,人工智能迟迟未能有普及至大众的产品问世,所有身处其中的公司都离钱较远,不得不考虑现金流压力。像科大讯飞也不得不面对估值高、现金流低的尴尬。

科大讯飞此次一口气发布了多项基于“讯飞超脑”人工智能最新技术的产品和技术,推出了全球首个万物互联输入解决方案、讯飞听见多语种翻译、智能家居、智能服务机器人、智能车载系统、个性化语音合成、智慧教育等技术产品。

首先,科大讯飞手机输入法速度达到每分钟400个字,输入准确成功率达到97%;其次,科大讯飞全球首发了多语种实时翻译技术,能够实时将中文翻译成英语、维吾尔语、日语、韩语等;科大讯飞称个性化语音合成技术通过打造个性化音库,使用户随时随地用最喜欢的声音来朗读文字;再次,配套的一款硬件产品“晓译翻译机”,可以实现中、英和维族语言远程实时交流,并可以随时携带。

值得一提的是,这次科大讯飞展示出语音交互情境下智能化有所提升,可以下语音指令,对之前所说的话进行修改,比如修改人名,还可要求交互产品自动翻译中英语,并可以给所说的某一句话加上书名号。这在之前是没有的。

另外,科大讯飞轮值总裁胡郁演示了新推出了汽车智能车载系统——飞鱼助理,实现在车载环境下通过语音实现全程控制。

在智能家居中,科大讯飞重点推出了对电视的智能控制,可以语音控制,实现搜索节目、快播等功能。据称,这一项技术几乎与除小米、乐视的智能电视之外所有的厂家合作。“从整个系统集成和用户体验的角度出发,我们提供了整套的从芯片到后台的本地引擎、云传输、语音服务和遥控器整体解决方案。”胡郁说。

上述产品最多商业化落地之处在于一些劳动力密集行业,比如银行和电信运营商的客服人员。这两个行业后台的呼叫中心有些已经替换上科大讯飞的机器自动服务,“科大讯飞针对1万种语音自动服务的产品进行了优化,已经占领了80%以上的市场份额,每日接听电话的数量达到了200万次,节省了25%的人力开销”。

在此基础上,科大讯飞推出了最新的服务机器人晓曼。腾讯科技获悉,目前在安徽和广东的银行里,有20台晓曼已经投入到营业厅,承担部分大堂和柜台服务人员工作,可以识别客户身份,自由对话。

本次推出的晓曼机器人,号称是科大讯飞在机器人领域的集大成者。科大讯飞将语音合成、语音识别、语义理解和人脸识别等技术运用到智能服务机器人本体上,结合麦克风阵列、3D摄像头、身份证读卡器、取号小票机等外设应用,以语音、触屏、动作等多模态的交互方式为用户提供优质的服务,在政府、金融、运营商、医疗等多个领域具有广阔应用前景。

科大讯飞董事长刘庆峰表示,公司坚信无论人工智能如何发展,交互和后台的理解和学习都是刚需,通过人机耦合以及迭代学习进步,人工智能会逐步替代简单重复的人类劳动。

在一些赛事上,科大讯飞成绩如下:2014年,科大讯飞首次参加国际口语机器翻译评测比赛(IWSLT),在中英和英中互译方向中斩获第一;在2015NIST中英机器翻译评测大赛中,获得人工评价环节翻译结果可用性比例最高的优异成绩。2016年,科大讯飞获得了全球人工智能比赛Winograd Schema Challenge第一名,以及第四届国际多通道语音分离和识别大赛事(CHiME-4)全部三个项目的冠军。刚刚结束的2016国际知识图谱构建大赛上(KBP),科大讯飞首次参赛就一举包揽了该赛事核心任务的冠亚军。

当然,虽然号称人工智能第三次浪潮即将来临,但是人工智能的产品真正毫无障碍地造福人类,仍然有很长一段路要走。对此,刘庆峰也意识到了,“人工智能的发展不会是一蹴而就的,创业者要有坚守的心态、毅力和恒心。”
乐乎设计,乐乎生活~

TOP

科大讯飞麦克风阵列技术揭秘

未来人工智能会像水和电一样无所不在,在“万物互联时代”,语音将成为人机交互的新常态。风吹麦浪,静夜虫鸣。人类能听到的声音大约有40多万种,频率在20至20000赫兹之间。智能终端能听到多少呢?  在科大讯飞2015年度发布会的现场,3000余人见证了这样的一场人机互动。演示人员在5米开外,用声音操控DingDong,完成了一系列高难度的订票任务,引来台下阵阵惊叹!
  现场那么嘈杂,DingDong却如此“听话”,要让DingDong听懂这么多声音,而且具备远场识别的功能,它必须听的到,而且要听的更加清晰,人类可以带上助听器,机器需要什么呢?
  【麦克风阵列】就充当了助听器这样的角色。这个名词是不是很陌生,放心!下面小编和你唠唠这个【麦克风阵列】。
  麦克风阵列(Microphone Array),从字面上,指的是麦克风的排列。也就是说由一定数目的声学传感器(一般是麦克风)组成,用来对声场的空间特性进行采样并处理的系统。
  早在20世纪70、80年代,麦克风阵列已经被应用于语音信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处理算法逐渐成为一个新的研究热点。而到了“声控时代”,这项技术的重要性显得尤为突出。
  麦克风阵列能干什么?
  任何一项技术的发生发展都伴随着问题的提出及解决,麦克风阵列也是如此。那么它主要应用在哪些场景下呢?又有着怎样的功能!
  ◆【噪声环境怎么破?】—— 语音增强(Speech Enhancement)
  语音增强是指当语音信号被各种各样的噪声(包括语音)干扰甚至淹没后,从含噪声的语音信号中提取出纯净语音的过程。所以DingDong在嘈杂环境下,也能准确识别语音指令。
  通过麦克风阵列波束形成进行语音增强示意图

  从20世纪60年代开始,Boll等研究者先后提出了针对使用一个麦克风的语音增强技术,称为单通道语音增强。因为它使用的麦克风个数最少,并且充分考虑到了语音谱和噪声谱的特性,使得这些方法在某些场景下也具有较好的噪声抑制效果,并因其方法简单、易于实现的特点广泛应用于现有语音通信系统与消费电子系统中。

  但是,在复杂的声学环境下,噪声总是来自于四面八方,且其与语音信号在时间和频谱上常常是相互交叠的,再加上回波和混响的影响,利用单麦克风捕捉相对纯净的语音是非常困难的。而麦克风阵列融合了语音信号的空时信息,可以同时提取声源并抑制噪声。
  目前科大讯飞已经实现了基于线性阵列、平面阵列以及空间立体阵列的波束形成和降噪技术,效果均达到业界一流水平。
  2013年科大讯飞车载降噪产品和国际竞争对手效果对比

  ◆【说话人老是变幻位置怎么破?】——声源定位(Source Localization)

  现实中,声源的位置是不断变化的,这对于麦克风收音来说,是个障碍。麦克风阵列则可以进行声源定位,声源定位技术是指使用麦克风阵列来计算目标说话人的角度和距离,从而实现对目标说话人的跟踪以及后续的语音定向拾取,是人机交互、音视频会议等领域非常重要的前处理技术。所以麦克风阵列技术不限制说话人的运动,不需要移动位置以改变其接收方向,具有灵活的波束控制、较高的空间分辨率、高的信号增益与较强的抗干扰能力等特点,因而成为智能语音处理系统中捕捉说话人语音的重要手段。
  混响产生原因示意图

  ◆【室内回声太大怎么破?】——去混响(Dereverberation)

  一般我们听音乐时,希望有混响的效果,这是听觉上的一种享受。合适的混响会使得声音圆润动听、富有感染力。混响(Reverberation)现象指的是声波在室内传播时,要被墙壁、天花板、地板等障碍物形成反射声,并和直达声形成叠加,这种现象称为混响。
  但是,混响现象对于识别就没有什么好处了。由于混响则会使得不同步的语音相互叠加,带来了音素的交叠掩蔽效应(Phoneme Overlap Effect),从而严重影响语音识别效果。
  影响语音识别的部分一般是晚期混响部分,所以去混响的主要工作重点是放在如何去除晚期混响上面,多年来,去混响技术抑制是业界研究的热点和难点。利用麦克风阵列去混响的主要方法有以下几种:
 1、基于盲语音增强的方法(Blind signal enhancement approach),即将混响信号作为普通的加性噪声信号,在这个上面应用语音增强算法。
  2、基于波束形成的方法(Beamforming based approach),通过将多麦克风对收集的信号进行加权相加,在目标信号的方向形成一个拾音波束,同时衰减来自其他方向的反射声。
  3、基于逆滤波的方法(An inverse filtering approach),通过麦克风阵列估计房间的房间冲击响应(Room Impulse Response, RIR),设计重构滤波器来补偿来消除混响。
  现在科大讯飞实现的基于麦克风阵列的去混响技术能很好的对房间的混响情况进行自适应的估计,从而很好的进行纯净信号的还原,显著的提升了语音听感和识别效果,在测试对比中,多种混响时间下识别效果接近手机近讲水平。
  混响语音信号频谱
  经过去混响后的语音信号频谱

  ◆【说话人太多怎么破?】——声源信号提取(分离)

  家里人说话太多,DingDong听谁的呢。这个时候就需要DingDong聪明的辨别出哪个声音才是指令。而麦克风阵列可以实现声源信号提取,声源信号的提取就是从多个声音信号中提取出目标信号,声源信号分离技术则是将需要将多个混合声音全部提取出来。

  通过麦克风阵列波束形成做语音提取和分离
  利用麦克风阵列做信号的提取和分离主要有以下几种方式:
  1、基于波束形成的方法,即通过向不同方向的声源分别形成拾音波束,并且抑制其他方向的声音,来进行语音提取或分离:
  2、基于传统的盲源信号分离(Blind Source Separation)的方法进行,主要包括主成分分析(Principal Component Analysis,PCA)和基于独立成分分析(Independent Component Analysis,ICA)的方法。
  进击的麦克风阵列
  麦克风阵列技术虽然已经可以达到相当的技术水平,但是总体上还是存在一些问题的,比如当麦克风和信号源距离太远时(比如10m、20m距离),录制信号的信噪比会很低,算法处理难度很大;对于便携设备来说,受设备尺寸以及功耗的限制,麦克风的个数不能太多,阵列尺寸也不能太大。而分布式麦克风阵列技术则是解决当前问题的一个可能途径。所谓分布式阵列就是将子阵元或子阵列布局到更大的范围内,相互之间通过有线或者无线的方式进行数据的交换和共享,并在此基础上进行广义上的声源定位、波束形成等技术实现信号处理。
  相对于目前集中式的麦克风阵列,分布式阵列的优势也是非常明显的。首先分布式麦克风阵列(尤其无线传输)的尺寸的限制就不存在了;另外,阵列的节点可以覆盖很大的面积——总会有一个阵列的节点距离声源很近,录音信噪比大幅度提升,算法处理难度也会降低,总体的信号处理的效果也会有非常显著的提升,因此分布式阵列有可能是未来智能家居和会议系统中的主流方案。目前科大讯飞已经开始了相关技术研究的布局工作。
  在万物互联的今天,麦克风阵列技术已经深刻的走进了我们的日常生活。在智能车载、智能家居、机器人、可穿戴设备等应用热潮正兴起的时代,语音交互由于其便捷性,成了人机交互入口的第一选择,麦克风阵列自然也成为其中非常重要的前端技术。
  2015年5月25日上海CES展上亮相的DingDong音箱
  DingDong音箱中的麦克风阵列方案

  试想一下,未来,你身边的智能机器人通过声源定位技术找到主人的方位,通过降噪技术滤除环境噪声和混响,你可以自由在任意场景中控制机器人,回声消除技术也可用于消除设备自身播放的声音,从而真正的实现正真意义上的交互!

                  
                  编
乐乎设计,乐乎生活~

TOP

从亚马逊Echo到谷歌Home:麦克风阵列有哪些讲究





  欢迎关注“创事记”的微信订阅号:sinachuangshiji
  文/清风
  [新智元导读]亚马逊和谷歌等大公司先后推出智能家居中枢产品,并且都选择了智能音响作为切入点,推进人工智能落地的战略。这方面已经有很多文章涉及。 这一次,我们从比较专业的声学麦克风阵列的角度对比一下这二者的高下,进而引出生态布局的思考。
  在刚刚过去的Google秋季发布会上,谷歌正式推出了Google Home智能音箱。Google Home将自己的两大技术Google Now(智能语音系统)与最新版本的Google Assistant(智能服务平台)结合打造出的智能音箱。
  Google Home作为谷歌最为看重的智能中控出生,并采用了双麦克风的硬件配置, 售价定为129美元。
  众所周知,2014年亚马逊推出了第一款智能音箱Amazon Echo,从推出起至今已热销超过400万台,俨然成为了最新一代的科技宠儿。据悉,苹果也即将推出 Siri 智能音箱。各大巨头和创业企业,纷纷看中智能家居中控这块“肥肉”,由此也拉开了人工智能领域新一轮战役的序幕。
  Google Home和Amazon Echo都代表了行业巨头通过智能WiFi音箱为入口,推进人工智能落地的战略。这方面已经有很多文章涉及。 这一次,我们从比较专业的声学麦克风阵列的角度对比一下这二者的高下,进而引出生态布局的思考。
  双麦克 vs 多麦克阵列 技术上各有高下
  谈及Google Home的硬件配置,不难发现它和Amazon Echo相比有一个最大的差异,那就是少用了5个麦克风。Amazon Echo采用的是环形6+1麦克风阵列,而Google Home只采用了2麦克风阵列。


  Amazon Echo采用6+1麦克风阵列


  麦克风阵列是什么呢?就是放置在空间中不同位置的多个麦克风。根据声波传导理论,利用多个麦克风收集到的信号可以将某一方向传来的声音增强或抑制。利用这种方法,麦克风阵列可以将噪声环境中特定声音信号有效的增强。由于麦克风阵列技术具有很好的抑制噪声和语音增强的能力,又不需要麦克风时刻指向声源方向,因此在语音处理领域具有非常好前景,可以用在非常广的应用领域。
  根据麦克风数量不同,麦克风阵列具有不同的特点。行业采用的以双麦克居多,比如几乎所有中高端手机都采用双麦克降噪技术来提升通话效果。四麦克、六麦克、八麦克线性阵列和环形阵列在行业内也有应用,但还远远达不到双麦克应用的数量级。
  首先,双麦克和多麦克阵列的一个重要区别,是成本的不同。显然,双麦克的成本相对多麦克低得多,除了可以直观观察到的麦克风数量不同之外,为了支持多麦克通道而必须具备的硬件电路、为了处理更多的信号数据而额外需要的计算能力,都使得成本体现较大的差异。所以我们看到两者的售价体现的极为明显,Google Home为129美元,AmazonEcho售价为179.99美元,差价约50美元。值得注意的是,这两家的硬件产品的战略没有多大区别,都是硬件基本不赚钱。
  其次,双麦克和多麦克的技术路线区别较大。双麦克和多麦克采用的技术路线虽然有类似之处,但算法体系存在较大区别。显然,麦克风越多越容易实现更好的降噪和语音增强效果,所以为了达到同样或者类似的效果,双麦克阵列技术相对多麦克阵列的技术挑战性更高。但因为成本问题,采用双麦克阵列的技术挑战虽然大,但从应用普及的角度上却是大势所趋。
  另外,从效果上看,如果技术优化足够好,在3~5米的家庭环境中,双麦克阵列虽然可以和多麦克阵列做到几乎一样的降噪和语音增强效果。但双麦克有个缺点,就是声源定位只能定位180°内的范围,而环形麦克风阵列(不管是4Mic、6Mic还是8Mic)都可以做到360°全角度范围内的定位。所以Google Home只能有四个LED灯来显示状态,而Amazon Echo可以用LED灯显示说话人的方向。当然,这个差别仅对具有声源定位需求的产品存在影响,而且对一些本来就需要靠墙摆放的设备如空调、电视机等是没有任何问题的。而对于类似机器人等摆放在室内中央的产品,如果希望它能定位说话人位置,那就只能采用多麦克方案了。
  最后,从产品的角度,双麦克方案简单更易落地。多麦克阵列最大的问题是,无论线性阵列还是环形阵列,其对产品的外观、结构设计都有极为严苛的要求,因为麦克风是要求必须在空间上均匀分布的。而双麦克显然就不必考虑这些因素。
  基于双麦克阵列的产品生态构建更具优势
  麦克风阵列作为实现智能语音的必备硬件,可以说是人工智能感知的硬件基础。因此,麦克风阵列的布局,将深深影响人工智能产品的生态布局。
  首先,众所周知的是,谷歌是以生态见长的公司。比如,Android构建了整个移动互联网的生态基础。在谷歌从移动互联网向AI转型的时候,提出了“AI First”的口号,并推出了开源深度学习系统TensorFlow,这个系统被认为是人工智能领域的Android。
  那么,谷歌为什么在如此重视AI战略的时候,推出这款Google Home的智能家居产品,并且采用双麦克的方案呢?相信对于谷歌这样的公司,成本和技术绝不会是阻碍他们采用更好技术的原因。
  据业内人士分析,最关键的就是上面提到的广泛的适用性和落地的便捷性,可能让谷歌最后选择了双麦克方案。谷歌布局整个智能硬件产业链,而非只打造一款爆款产品。现在做Google Home智能音响,以后也可能做电视、汽车等等,所以在软硬件选择上都会考虑更通用、更长远的方案。多麦克阵列对外观和结构的严苛要求,使得该方案的应用场景极为有限,不具备广泛的适用性,以Google的远大抱负,显然会选择适应性更强的双麦克方案。
  目前,谷歌明确表示会部分开放对接的子系统,包括灯控、温控器、开关三大类,媒体分析,谷歌随后还会提供针对家庭第三方设备的免费软件开发包,以方便鼓励第三方开发商增加新的服务功能,提升Google Home的兼容性。以对抗出货量400万台的Echo营造的生态体系,因为Echo对接的名单已经是很长一大串,其中就包括了Nest。
  双麦克阵列在智能家居领域落地最为广泛
  虽然多麦克阵列方案在业内炒的如火如荼,但在落地过程中,双麦克方案却成为家电产业中出货量最大的方案。据了解,目前国内主流家电厂商应用语音交互技术的产品中,包括乐视电视、海信电视、格力空调、美的空调、华帝烟机等,出货量最大的产品搭载的都是双麦克方案。
  另外,国内的主流人工智能企业也都在双麦克方案上重点布局。据悉,仅云知声一家企业,目前搭载双麦克的芯片模组每月的出货量就超过几万片,而科大讯飞目前也在紧锣密鼓研发双麦克方案,争夺智能家居市场。
  据家电行业资深技术人士介绍,从2012年开始行业内就开始寻求语音交互技术应用在家电产品中,并明确要求:第一、用户直接通过语音方式控制产品,且不受产品自身噪声影响;第二、一定距离的远场语音交互得以实现;第三、方案成熟,成本控制。远场语音交互是关键中的关键。当时市场上普遍解决方案都是八个麦克风收音,虽然语音识别准度得以提高;但实施成本、结构难度、生产安装等问题却接踵而来。但像空调、电视这类家电产品,它永远都是贴墙放,八个麦克风在实际应用上是多余的。双麦克技术在任何产品上均可自然适配。
  该人士称,双麦克风阵列的结构简单,成本低、容易实施、功耗低等特点让它更容易在家电产品中实现落地。相信在未来一段时间内,双麦克都将成为智能家居产品中的主流配置。
  不同应用场景下自由配置
  虽然双麦克有性价比和结构简单的种种优势,但并不能完全覆盖所有场景下的产品需求。
  比如,在机器人领域里,对声源定位的要求比较高,所以一般都会使用环形多麦克方案。这两年国内比较火的Rokid机器人就采用了8麦克的阵列。
  未来人工智能领域还需要更多适配的硬件,以满足不同智能产品的需求。因此,国内像科大讯飞、云知声等行业领军企业都相继推出了6+1麦克、4麦克阵列方案,满足智能音响、机器人领域的产品需求。
  从长远来看,麦克风阵列解决的只是感知这一块,更快的落地(双麦克更有优势) 、更多种的形态(双麦克和多麦克阵列可配置),是建设人工智能生态的第一步。
乐乎设计,乐乎生活~

TOP

https://www.rokid.com/
用了八麦克风设计。
Rokid Pebble 家庭机器人也时髦

  日前,Rokid机器人家族又迎来了新成员Pebble(月石),一款更为小巧时尚的便携机器人,并斩获家用音视频类创新产品以及科技改变生活两项大奖。月石的设计来源于血液里的红细胞与芝加哥地标建筑The Bean的设计灵感,全曲线设计的外形轮廓圆滑流畅,如一块光滑的鹅卵石,周身没有任何多余的线条,看上去更像是一块流动的金属——精致时尚的艺术气息,很符合现代年轻潮人们的审美趣味。(谭伟婷)
乐乎设计,乐乎生活~

TOP

揭秘阿里系最有B格的机器人创业项目:"神灯"Rokid



智东西(公众号:zhidxcom)
文 | 四月
导语:两年前,阿里里巴的两位员工先后离职,一位转入IDG做投资,一位白手起家创业。基于此前的认同与信任,转入IDG的同事为说服董事会投资后者,甚至愿意以个人名义投资。
两年后,二者的决意和一意孤行在今天初见成果——Rokid(中文名为“若琪”)蛋形机器人终于落地。而前文里提到的故事主角,分别是IDG现任副总裁楼军,以及Rokid创始人兼CEOMisa。近日,智东西与Rokid的主创团队、背后的重要投资者进行对话,共同梳理了近两年团队与产品的重要进展,其间的一些有趣故事也得以展现。
从阿里离职,如何拿到前同事的投资和持续信赖。自诩“流浪汉”的Misa在投资人眼中有着怎样的靠谱和不靠谱?沉寂两年打磨的这款“蛋形灯”凭什么能成为机器人,体验和设计有何独到之处?此前颇为低调的Misa和Rokid将在下面的故事中更加具体。
一、Rokid和智能音箱不一样

先见其产品,再谈团队。
从外形结构上看,很难对Rokid进行准确定义。她基本由三部分构成,一扇DLP(Digital Light Processing,数字光处理技术)投影曲面屏,前置摄像头,一套设有麦克风和音响的底座。蛋形的主体配以托盘底座的结构很新颖。
在功能方面,Rokid最初具备声纹、面部和动作识别等智能化功能。据现场工作人员介绍,最后落地产品中,摄像头并没有加入面部、动作识别的功能,仅作为视频对话或拍照使用。但保留有声纹识别功能。
此外,Rokid可实时感知外界声音和灯光,可语音控制家中的智能电器。具备远场语音识别功能,最大范围为8-10米。基于深度学习技术,Rokid可针对用户定制音乐、电台等音频内容进行智能化推送,与用户进行多轮对话和个性化内容交流。
Rokid团队在近两年的工作,“主要就是产品的边界和技术融合进行打磨”,Misa说道。据他介绍,因为结构和设计的创新衍生出许多新兴的技术问题,很难找到成熟的技术能够直接解决,需要团队一个一个攻破。比较典型的包括,底座大面积的音箱震动如何不干扰麦克风工作,针对家庭使用场景的语音内容优化,远场识别的噪音与信号处理等。
Rokid底座上分布有八个高灵敏度的麦克风阵列,负责寻声采集和声纹识别。记者现场体验,2-3米内可清晰识别命令。据工作人员介绍,最远识别距离可达到8-10米。
之所以称Rokid的造型优雅,主要在于其独特的投影曲面设计,在暗环境下效果很出众。Rokid采用的DLP技术与微型投影基本相同,但与曲面屏结合后形成了独有的美感,很适合摆放家中。对此,Misa颇为自豪地介绍,“Rokid采用的DLP显示方案已经被TI列为经典案例,听说模仿者已经不少”。
底座采用音箱和麦克风相连的设计,据Misa介绍,原有设计中,音箱工作时将产生剧烈的震动会影响麦克风等零部件的工作。最终的解决方案是通过调整机械设计,将震动尽量控制在水平方向,保证垂直方向的震动很小。
此外,据Misa介绍,要实现语音的远场识别,团队在识别算法和噪音信号处理进行了诸多优化。在实际使用场景中,Rokid还需要将语音、语义的理解与用户习惯结合理解。Misa将其定义为“技术边界的打磨”。
比如,用户下达播放《Let It Go》的命令,机器可能识别到中文曲库里的《癞皮狗》。“两者在声学相似度的打分很接近”,Misa介绍,这时就需要结合对用户使用习惯的深度学习进行判断。
在技术层面上,Misa表示并不是全权包揽,“比如,视频通讯、自由聊天采用的就是外包技术。但在麦克风阵列、识音技术、语义识别等,比较关键的技术是自己做”,其主要原因在于,要实现技术的融合,单纯依靠第三方,合作深度和节奏上都无法保证。
在与Misa针对技术的交流中,他多次强调“边界融合”二字。他认为,各类技术间的边界融合是与同类产品拉开距离的最好方式。“在单点的技术上实现突破,离准确率可能只差1—2%;但产品中的技术如果没有做好融合,误差叠加后被放大可能是10%以上的误差率”。
二、两年打磨 产品满意度达到85%

回顾Rokid的创业历程,时间节点十分清晰。2014年7月,Misa从阿里的无线事业部M工作室辞职;9月组建创业团队,11月15号原型完成Rokid原型机,“这就是一款能跑得动的机器”,Misa表示。但真正开始小批量生产,已是今年4月份的事,随后发送至第一批用户手中。
这中间长达两年的跨度,Rokid一直在做的,也就是前文中多次提及的“边界技术在产品中的融合”。
据介绍,在产品发送至近千名种子用户手中后,近半年的时间里团队保证两周一次用户升级,数十次的用户反馈和互动。“后期考验的是团队跟市场整体互动的能力”,Misa强调。根据第一批用户的复购率和满意度调查,达到85%以后,Rokid团队才计划真正推出产品。
“等待市场被教育”,Misa表示这是另一个没有急于推产品的重要原因。他表示,现在已经是比较合适的时机。他表示在近期将聚合国内大批的C端渠道商资源。言语间,是有意要大量铺设渠道,进攻市场的意味。
三、凭一张草稿图 怎样搞定了IDG的投资?

除了Misa本人,我们也接触到了IDG楼军、华登国际王林、尚珹资本张顺等Rokid的背后投资人。在他们看来,最初大多是被Misa的一张蛋形设计图和愿景给“忽悠”了,其间不乏有趣的段子,但也让我们有机会从侧面认识Misa和其团队。
值得说明的是,在Rokid的早期投资人中,不少基于前校友、前同事的关系,对于他本人的认可。
此前,楼军在阿里投资部时主要针对快的打车、丽人丽妆等电商服务类项目,较少涉及硬件。2014年,恰逢楼军离开阿里来到IDG,得知Misa也要离职创业需要融资。他找到Misa仔细了解项目。
“当时Misa急着下周一要去上海见投资人。我约他礼拜五晚上,直到夜里12点多聊完”,据楼军回忆,“当天半夜两三点,我就电话跟IDG总部讨论了这个项目,周六早上就拿到投资授权。很快,几乎只有半天时间”。
“他在桌上给我画一个蛋,说这个蛋是一个灯,下面可以放音箱,你说什么它可以听得懂”,Misa创业之初给楼军介绍项目的场景,楼军至今还历历在目。他表示,当时项目还非常早起,投资Rokid完全是因为看中Misa的人。
据楼军介绍,初次认识Misa是在2012年底,当时他在做快的打车项目的技术净值调查,找到Misa帮忙。当时的印象是“他桌上全是咖啡”、“Misa对产品的要求很苛刻”。在楼军眼中,Misa是一个很懂生活的人,不会做出反人性的产品。
不过当时为了说服IDG投委会,楼军也下来一番功夫。据他回忆,曾表示如果IDG不投这个项目,就要以个人名义投资。后来IDG跟进Rokid的项目有一年之久才真正注入A轮。在这个过程中,类似楼军等投资人的认可给予了Rokid项目很大的支持。
此外,Rokid的天使轮投资人吴泳铭,也曾是Misa在阿里工作时的顶头上司。虽称“当时对Rokid的投资仅因Misa欠钱还没还,索性把欠款当作投资”,但言语间还是透露了对于Misa的认可,“能把技术、产品、需求三者做到很好的兼顾和平衡”。
最近一轮B轮进来的尚珹资本,张顺对于Misa的认识更偏向客观的教育背景,“Misa在中国和美国都有求学经历,整合了中国跟美国智力上和文化上的长处”。他并不认可拿投资人的钱去做实验室的事情,表示,“要做到从无到有的创新太难,更愿意投’从有到有’的项目,即对世界来说是很新的事,但对创业者自己来说是已经存在很久”。
投资虽然看似顺利,但Misa表示,“资本市场本身存在季节性,创业公司要一直考虑生存问题”。在此前的个人撰文中,Misa也曾表示,自己和合伙人Eric都抵押过房产维持公司运营。
四、内部风格太开放?为发展预留空间

Rokid现有团队约90余人,其中博士学历约20人。在北京和美国分设有两支研究团队,北京团队关注语音智能,如语义研究领域;美国的实验室更偏向前沿技术领域。杭州团队关注在产品研发与落地层面。
在交流中,Misa表示公司十分强调开放和自由的公司文化,团队内部依靠“自驱动”模式工作。但偏向西方公司的管理风格是否也适用中国?团队过于散漫是否不便于管理?
对此,Misa回应,“我宁可保留公司的创造性,而牺牲一定的效率”,他表示,与很多创业公司强调的快速执行力不同,Rokid更希望保留创造性。
在选择团队管理方式,Misa给出了更具体的考量,主要在两个方面:
1)行业在剧烈变革,需要不断调整方向前进。老板的思路有可能对,也有可能错,但员工在最前线理解更深刻。
2)人员和团队不断在变化,在早期就建立过于固定的管理机制不便于引进大牛。保留团队架构的灵活性有利于后期调整。
“虽然有时也可能会牺牲工作效率,看上去局面有些混乱,但这是为了实现更大空间的创造性而作出的牺牲。希望能保持团队的活力与自由度”,Misa坦诚说道,他表示自己在团队里更多时候扮演着“麻烦制造者”的角色。
五、用严肃的态度做“娱乐”产品

现阶段,消费级机器人主要应用在陪护、娱乐等生活场景。但作为厂商和产品的创造者,Misa表示,需要用“严肃和认真地对待”。强调这一点,与此前市面上一些语音对话和产品体验过差不无关。
Misa表示,用严肃的态度去做一个“智能新品类”才能换取用户的信赖。当产品真正能帮助用户解决问题或者提升体验的时,用户才可能慢慢建立信任,然后是稳固的联系。由一种连接,近阶到陪伴,然后是依赖,最后走到信赖。这是Misa对于Rokid的期望,也是Rokid类产品发展的重要逻辑。
在市场定位上,Misa表示Rokid将扮演一个“智能服务者”的角色,他强调不会干自己职责以外的事,如内容、智能家居等领域的事。这样的说法主要为避免同类竞争,但他同时也表示后续仍将依靠硬件产品营收。
在围绕智能家居为主题的市场里,海尔、美的等传统家电厂商纷纷布局,谷歌、苹果等互联网巨头也陆续推出了相应服务和布局,要形成围绕自身产品的合作与服务体系并非易事。
“用户的黏度越来越高,它才有可能成为为平台,这是我们的一个理念”,Misa补充。
面对海外市场与品牌的竞争,Misa表示,在美国设有研究分部,并且他和Eric每人轮流每月都会去到美国跟进研究最新进展,确保美国分部有高管在统筹事项。
六、Rokid未来的想象空间
在产品发展路径方向上,Rokid的计划是,从家庭式的AI场景过渡到便携式的AI场景、再到基于个人化的AI场景,个人化的场景更开放,将在两年内实现。
在近期,“后期将会推出价格更加亲民的爆款产品,一定有惊喜”,Misa谈及此时神采奕奕。在内容方面,Rokid将会新增新闻版块、生活本地服务等内容,并且也会引入智能化推送技术。在合作品牌方面,Misa表示现已经与欧瑞博,Broadlink、小米达成合作意向。
说了未来要做什么,Misa也提到B端业务、纯软件等产品近期不会尝试。Misa表示,一开始没有从B端业务切入,主要是考虑到toB 方向不能第一时间接触到用户,toC市场更有想象力。
此外,由于用户容易对软件/技术类的产品产生过高预期。“做硬件产品可以缩小应用场景,降低用户期望值”。出于对用户预期管理的考虑,Misa表示近期仍将集中在硬件产品类别中。
七、结语

通过与Rokid团队、背后投资者近四小时的接触与交流,思维发散、活力持久、足够开放,是这只团队留给我的几个关键词。恰逢B轮融资完成,产品即将上市,沉寂两年的Rokid正值全力以赴的关键节点,能够体会到成员的满腔士气。
从产品来看,Rokid外形新颖优雅,产品完成度和体验超出部分市场同类产品,能够在高端用户群形成一定市场,但5280元的价格仍将形成一定的消费门槛。从已透露的产品迭代和推新计划,可见团队在市场策略上已经进行调整。
就团队而言,阿里系的背景与人脉在创业早期具备一定的IP效应,但要建立长期的口碑品牌,仍需团队在产品和服务层面落到实处,多方面的推进和成长。
聊完过去的段子,憧憬未来新品和市场,在IDG北京暖气十足的办公室里大家一派和气,几乎感受不到室外刺骨的寒意和北风。在这样的场合谈资本寒冬似乎有些扫兴,但这仍是机器人公司们需要面对的现实,应用场景过于狭窄,体验参差不齐,玩具化同质化严重,缺少消费习惯等,导致出货量整体不高,年销量均不超过十万台。
如何依靠现有技术实现更大价值的产品和服务?仍值得不断探索。
乐乎设计,乐乎生活~

TOP

发新话题