锤子M1手机发布会结束之后,M1系列手机能否在诸多强敌面前成功突围眼下还不明朗,然而,多次被老罗推介的输入法,讯飞输入法却意外地火了起来却是事实。
在发布会之后的几天,这款输入法甚至成功登顶了AppStore 免费榜,老罗可能不是一个好的产品经理,但是,老罗一定是一个好的销售。看上去,讯飞输入法团队过去几年折腾的效果,还不如老罗三小时发布会上的卖力推介。要知道,这款输入法最早的版本可追溯到2010年10月。
在这场发布会之后,我以及朋友圈中的不少朋友,都下载了讯飞输入法,体验之后大家的答案是类似的:wow,惊艳、震惊、激动。大家之前没有想到语音输入法的识别率可以做到今天这样的程度,在噪音环境比如大马路上,哪怕你的普通话不是很标准,它依然可以准确地识别。
它还支持粤语、四川话、东北话、河南话、河北话、闽南话、客家话、贵州话、云南话、湖南话、山东话、山西话、陕西话、江西话、上海话、天津话、南京话、武汉话、合肥话等方言。甚至还可直接将你的语音实时地转化为日语、韩语、英语,或者反过来,这在我们出去旅游时与歪果仁交流会很方便。
更让人惊喜的是,它可识别一大段一大段的语音,并且自动断句,加上标点。这一点还不够理想,有时候断句会出错,还有总爱加感叹号。
整体而言,讯飞输入法已完全具备实用性了。
这段时间我一直都在用讯飞语音输入法,尤其是在走路的时候,在边吃饭边玩手机的时候,在躺着不愿意打字的时候。如果我不告诉聊天对象,对方不大可能察觉出来我是用语音而不是用键盘敲的字,简而言之:这款输入法的智能程度,已经顺利通过了图灵测试。
语音输入不是第一次“火”。
2011年,iPhone 4s面世,这是乔布斯的遗作,虽然是由库克发布,但这款手机从最初构想到最后设计均是乔布斯在主导,它最大的亮点就是引入了语音助手Siri。在这之后,Google Now被加入Android,国内也掀起了一阵子“中国Siri”潮,科大讯飞是玩家之一,除此之外还有小智360、虫洞,以及搜狗、百度等玩家,科大讯飞的投资者中国移动也凑热闹找讯飞定制了“灵犀语音助手”。
记得2012年前后,我安装了不少语音助手,还有输入法,并且在室内将它们进行对比,虽然略有差异,但都让人十分失望——识别效果太差,尤其是在我普通话不够标准的情况下。
2013年我有幸受科大讯飞邀请去他们位于合肥的总部进行了参观,在他们的体验厅我感受到了科大讯飞在语音领域的扎根之深,那时候科大讯飞还是两条腿走路,一边是做教育等行业解决方案,主要收入来自于B端,一边已开始布局输入法等C端产品,具体可看当时的文章《科大讯飞,站在十字路口》。
2014年再次去科大讯飞时,发现他们已在重点关注物联网、智能硬件等新型设备——这些设备看上去比手机更适合语音输入,比如给电视换台、让汽车开创。不过,直到老罗在M1发布会上介绍讯飞输入法的效果之前,我都没有想到语音输入法能做到这个程度。
为什么这么好的产品,现在才火?
从技术层面来看,这几年基于深度学习的人工智能技术,给语音识别带来了全新的技术突破。
语音技术之前是基于规则,识别率做到90%要再提高一个百分点就非常困难。然而有了深度学习技术,基于机器学习对海量语音进行大量统计再不断改进算法,让语音识别乃至语义理解有了质变,准确率、抗噪力以及口音容错性大幅提升。且支持更多方言,和翻译变得更加容易——基础模型不变,只需面向不同语言进行对应领域的算法优化即可。
在2012年开始投入语音技术研发的百度就采取了基于深度学习的语音算法,Deep-Speech,百度首席科学家吴恩达曾对外媒表示这个技术在噪音环境下的识别能力比Google、微软等公司的要好。今年年初,百度的深度语音技术被《麻省理工科技评论》评为“十大突破性技术”。当然,搜狗、以及讯飞的语音技术,同样是基于深度学习技术。百度有百度大脑,讯飞则有讯飞超脑。
还有,语音交互的“引爆点”的到来、人工智能的引爆点到来了。
每一项改变世界的应用背后,都是大量新型技术的交叉综合应用,汽车涉及到机械、材料、能源等等,计算机涉及到芯片、存储、硅材料、网络、人机交互诸多技术,语音交互的普及则涉及到网络、算法、数据、服务诸多方面,只要其中一项是短板,这个应用就不可能普及。如果这个短板被克服,这个应用就会被某些随机元素引爆。
罗永浩就是讯飞输入法随机的“引爆点”,其背后却是讯飞输入法们的多年努力,涉及到技术、产品诸多方面,甚至4G网络的普及都是功不可没的。
Gartner 在2012年曾做过一个总结,一个完整的技术成熟周期包括:
1、技术萌芽期(technology trigger)
2、期望膨胀期(Peak of Inflated Expectations)
3、泡沫化的谷底期 (Through of Disillusionment)
4、稳步爬升的光明期 (Slope of Enlightement)
5、实质生产的高峰期 (Plateau of Productivity)
在那份报告中,其预测语音会在2-5年走向成熟。
现在看来,Gartner的预测是正确的。
面向语音的研究可以追溯到上个世界五十年代,1952年贝尔研究所Davis等人研究成功了世界上第一个能识别10个英文数字发音的实验系统。在此后的几十年间进展缓慢,技术水平、计算能力和应用场景,都不成熟。由于场景的局限性,语音技术在PC互联网时代并未大幅普及。主要应用在一些垂直领域例如呼叫中心、教育、电信和金融等行业,这段漫长的历史应该是第1阶段。
Siri面世之后,语音产业先后经历2、3阶段。今天,语音已到第4阶段、接近第5阶段了。随着Amazon Echo、Google Home、百度度秘、Siri以及讯飞输入法的普及,通过语音与机器交互很快就会成为主流。
当然,我们与机器的交互方式从来不是单一的。今天苹果在Siri、触摸屏上发力的同时还在努力打造一个更好的利用手指交互的键盘:TouchBar。未来必然也是,不同的交互方式,适合不同的设备,不同的场景,甚至一个设备都需要多种交互,我们的手指、指纹、声音、虹膜,能用到的都会用上。当然,一个大的方向是,我们与机器的交互将越来越自然,越来越简单,越来越高效,正如马云所言:未来机器不再是我们的工具,而是我们的伙伴。
讯飞输入法今天才火起来,还有一个重要的原因,就是讯飞的低调。这家总部位于二线城市合肥的科技公司,缺少了一些互联网范儿,正如其创始人刘庆峰在2013年所言:
从讯飞的移动互联网的战略中,我们也在不断的反思,我们跟那些小的互联网厂商比,或者跟更大的互联网厂商比,都显得我们的效益比他们高,真的不是我们做事速度没他们快,而是没他们那么会宣传,没他们会运作,当然在这个产品的迭代和推动中我们也还有很多要改善的地方。
所以尽管讯飞输入法已经坐拥3亿用户,在行业里面却没有形成很大的影响力,互联网圈许多人都不知道,说到语音依然可能会联想到Siri、百度甚至搜狗,而不是讯飞。不知道接下来,这家公司会不会有所改变?