简单说,FireFly就是一个识别服务,可以通过手机的摄像头和麦克风等识别物体、二维码、图像、声音、视频等信息。可能很多用户都用过一些音乐应用的“听歌识曲”功能,亚马逊的FireFly其实就是这一功能的增强版,不仅可以识别歌曲,还可以识别各种物体。
FireFly背后的技术就是音频、图像的识别和分析匹配。但是相比歌曲的识别,物体的识别难度更高。因为歌曲的音频比较容易分析,而且歌曲数量有限,便于匹配,而物体的数量远远大于音乐,因此更难批评。
可以看到,目前FireFly的宣传视频以识别音乐和书籍为主,那是因为这些产品标准化程度较高,容易识别。
比如书籍的封面,只需要识别封面图像然后和图书库的图书封面匹配就行。但如果要识别一台数码相机,不同角度拍摄会不一样,而且不同品牌、型号的相机差别可能并不大,要能分辨出来这就需要很强的识别和分析能力。
从另一个角度来说,越难做的事情往往价值越大。
识别歌曲的作用仅限于音乐垂直领域,但是识别物体则可以应用在更多场景。比如识别数码相机后了解相机的价格甚至进一步购买该相机——这也是亚马逊做FireFly的长处,因为亚马逊的电商平台能为识别出来的产品提供购买渠道。
用户之所以需要去识别一个物体,很有可能就是希望购买这样的产品,所以将识别和电商对接对用户来说很有帮助。而且这样一来,线下物体就成了亚马逊电商平台产品的展示。
值得一提的是,FireFly用到的识别技术,无论是识别音频还是识别物体,都不是最近才出现的,但是过去更多可能是垂直应用(比如独立的一个物体识别应用或者音频识别应用),但亚马逊将这些功能结合到了一起,并对接了电商平台,解决了过去“识别之后还能干什么”的问题。
亚马逊FireFly要成功的话需要做好两件事:一是提高物体识别的能力,包括能够识别同一物体的不同照片,以及识别更多物体;二是在识别出物体后给用户提供更多信息,比如物品的介绍以及购买链接。
当然,亚马逊FireFly现在也无法识别所有物体。据亚马逊创始人、CEO贝索斯在发布会上介绍,目前FireFly能识别出约1亿种物体,这已经是一个比较大的数字了。而未来随着用户的增加,这项功能也会得到不断的改进。