随着人工智能技术的快速发展,智能语音技术已经取得众多突破,然而,传统录音行业尚未引入人工智能技术,这一蓝海领域也引得大型科技企业角力。近日,搜狗开始发售全新智能硬件“搜狗智能录音笔C1”,该设备通过采用搜狗知音深度卷积神经网络ASR能力,语音转文字识别准确率高达95%。
值得注意的是,搜狗智能录音笔C1融合了包括语音识别、语音合成、机器翻译等各种技术,是搜狗以语言为核心进行人工智能布局的重要一环。对于传统录音笔行业来说,这一技术落地的意义是颠覆性的,它改变了传统录音笔单纯的收声功能,将转写、编辑、同传等集于一体,为案头工作提供了一体化的解决方式。
数码录音设备被大规模替代 实时转写破解行业难题
录音不清晰、语音转写滞后、文字需要二次加工……目前,市场上多数录音笔产品功能仍仅停留在录音层面,而在多数场景下,智能手机的录音功能已经可以满足多数消费者的使用需求。
受益于人工智能技术,这些在传统录音笔行业中屡见不鲜的问题正在被逐一解决。与传统录音笔产品不同的是,近日搜狗公司推出的搜狗智能录音笔C1融合了语音识别、语音合成、机器翻译等一系列技术。
具体来看,搜狗智能录音笔C1配置全数字高灵敏麦克风,并采用双麦克风阵列,并基于双麦克风阵列拾音算法,可实现空间滤波、360度全向自动声源定位等,增强目标声源拾音效果。同时,其加入了智能辅助编辑技术,利用声纹识别技术,对不同说话人进行音色识别,进而自动区分不同讲话人。
据了解,搜狗智能录音笔C1既可以实现边录音边转写,录音结束,即时成稿;也可以先录音后转写,1小时录音,5分钟出稿。转写过程中,搜狗智能录音笔C1还提供自动分段、过滤语气词、顺滑处理、关键词优化、在线编辑、标记重点等智能化辅助编辑手段;转写完成后,则支持一键分享全部录音和文字,或重点段落录音和文字。
值得一提的是,搜狗此次免费提供了语音转文字服务,并且为了确保用户录音文件不会丢失,搜狗智能录音笔C1提供16GB本地存储和100小时的云端储存服务。相关录音数据可通过手机自动备份至云端,如遇突发断电,则能自动保存,以保障数据正常存储。同时,搜狗智能录音笔C1还由腾讯云提供企业级加密存储保障,以确保用户隐私安全。
不容忽视的是,任何行业中技术的变革均有望推动行业进一步发展。据前瞻产业研究院发布的《中国人工智能行业市场前瞻与投资战略规划分析报告》显示,截止至2017年全球智能语音市场规模增长至百亿美元,达到了110.3亿美元,同比增长30%,2018年全球智能语音市场规模有望达到141.1亿美元。
相对于智能语音的市场规模,数码录音笔行业则稍显惨淡。中研网数据显示,2017年我国数码录音笔行业营收20.98亿元,同比增长0.05%。与此同时,由于技术进步不明显,加之手机等移动设备广泛应用,传统数码录音设备正大规模被替代,智能化、一体化设备呼之欲出。
据搜狗AI硬件事业部首席产品经理李健涛介绍,“除了智能录音笔,未来将会规划更多的产品,可能不仅是单一产品,而是系列产品。面向整个录音转写行业,会考虑将搜狗的众多AI能力进行集合。”
在业界看来,录音笔行业与人工智能技术相结合,有望成为录音笔行业的新变革,除为用户提供高效、便捷的使用体验,产业与人工智能技术融合也正是未来各行业的发展趋势,通过人工智能技术提高人机交互性,进而帮助人们提升工作效率。
互联网巨头加速布局智能语音 颠覆传统录音行业
事实上,搜狗自2012年便开始研发智能语音技术,并逐渐从最早的语音识别发展到现在的多模态识别,其智能语音技术已经应用到搜狗的全线产品中。数据显示,搜狗输入法日均语音请求次数已达到5.34亿次。
今年2月,搜狗公司推出升级版站立式AI合成主播“新小浩”及世界首个AI合成女主播“新小萌”。其中,站立式“新小浩”不仅能坐着播报新闻,还能站立作出多种肢体动作。
在AI合成主播产品的背后是搜狗分身技术的支持,搜狗分身技术融合了唇语合成、语音合成、音视频联合建模与深度学习等技术,驱动机器生成对应的唇语图像与声音,进而构建一个真实的主播形象。相较于单一技术研发,搜狗更加关注如何让机器更好地表达信息。
搜狗智能录音笔C1的推出成为搜狗智能语音技术落地的又一成果。有业界人士认为,智能录音笔设备的广泛应用将颠覆整个传统录音行业,甚至包括速记、编辑、同传从业人员的工作方式也将被改变。
记者了解到,目前市场中主流的录音设备主要以传统数字储存的方式记录音频,多数产品还具备激光笔、MP3播放器等功能。对于文字工作而言,传统录音设备目前只能满足录音需求,后续编辑、翻译还需速记、编译人员进行,耗时耗资。于此同时,市面上已发布的智能录音设备,机器价格多为千元以上,同时转换文字多需另外收费。
搜狗商业平台事业部总经理原志军表示,搜狗智能录音笔C1的定价是基于现在传统录音笔定价进行考量的,主要是希望为消费者带来切实的好处,同时,搜狗智能录音笔C1能够提供录音功能之外的增值服务,这是它的竞争优势。
原志军进一步表示,搜狗在智能语音上将会保持长期的、战略性的投资,这也将进一步保障搜狗智能录音笔的后续服务。
事实上,继计算机视觉后,智能语音行业即将迎来行业爆发期。国金证券研报显示,在智能语音领域,根据Gartner 2018 AI技术成熟度曲线,语音识别、虚拟助理等相关智能语音技术历经淘洗已相对成熟,未来将推动产业走向爆发期,预计整个市场规模将从18年的75亿美元增长至24年的215亿美元,CAGR达19%。
对于人工智能领域的布局,搜狗CEO王小川表示,在前沿的AI领域,搜狗会通过智能硬件、分身,去做适当的布局,希望能够通过它实现这两个目的:第一、能够使得用户交互更加方便,能够去改善我们现在的用户界面;第二、进入到垂直的行业,用这种智能技术给行业赋能。
赛迪顾问人工智能产业研究中心张梓钧认为,从市场规模方面看,中国智能语音整体应用规模仍有一定的成长空间。在应用场景方面,智能家居、智能机器人、车载语音交互等产品均是未来较好的应用场景。
多重利好助力人工智能 多场景应用改变人类生活
随着大数据、云计算、互联网、物联网等信息技术快速发展,人工智能产业已经驶入发展快车道。在刚刚结束的两会中,“人工智能”第三次被写入政府工作报告,并将人工智能上升到国家战略地位,政策驱动、应用场景等多重因素驱动,人工智能产业迎来快速发展,AI+场景正在逐步落地。
记者了解到,目前,基于语音交互的垂直场景延伸,消费级和专业级市场规模不断扩大。其中,在消费级市场,智能语音主要应用于智能手机、智能穿戴、智能车载以及智能家居等领域。而在专业级市场中,智能语音则主要应用于教育、医疗等领域。
事实上,结合语音、图像、知识计算等技术,可以创造性催生出如专业人员分身、个人虚拟助手等应用模式,在医疗、教育、法律、翻译等民生领域落地实践,在增加公共服务供给方面具有巨大的潜力。
在智能手机领域,不少品牌在其产品中已经引入了AI技术。国金证券研报显示,目前,基于计算机视觉开发的人脸解锁、人像美颜功能在手机应用中渗透率分别高达 75%与 90%。此外,人工智能技术还被广泛应用在智能家居中。
尤为注意的是,尽管人工智能技术已经融入安防、医疗、政法、教育等垂直行业,但目前人工智能技术应用场景仍难以拓展。
究其原因,一方面,深度学习可以提高机器学习能力,但成功的机器学习需要大量数据的支持,并对数据精确标注有较高要求,多数领域现阶段仍缺少数据支撑。另一方面人工智能产业需要持续投入,虽然中国目前不乏拥有人工智能技术的企业,但能够大规模落地的企业还是比较少。
在王小川看来,人工智能将有三个发展方向。第一,个人赋能,让每个人变得更强;第二,产业互联网智能化即商业智能,在此情况下,企业运行中部分决策可以不依靠人,而是让机器进行更快、更有效率的工作;第三,IoT设备,让设备也可以对外界有一些简单的感知以及做一些简单的决策。
张梓钧认为,人工智能未来解决的将是诸如智能工厂、智能驾驶等复杂的系统问题。一个智能机器人将同时拥有视觉技术、语音交互、判断推理等多个能力,而多技术融合应用有望成为人工智能领域的下一个发展趋势。人工智能多领域场景落地将改变人们的生活方式。