百度大脑发展进入快车道:语音视觉语言等多领域取得突破

2019-07-04 12:33发布

中国网科技7月4日讯 “Baidu Create 2019”百度AI开发者大会百度大脑论坛3日在北京如期举行。论坛现场,来自百度大脑AI技术的各相关部门负责人一齐“上阵”,对外发布了百度在AI技术方面的多项最新研究成果。

当天上午,百度首席技术官王海峰正式发布百度大脑5.0。据悉,升级后的百度大脑5.0打通了从基础层的深度学习技术到通用AI能力、应用技术方案,再到定制化模型,以及最终的部署和集成。

在语音识别、语音合成、远场语音交互芯片方面,百度语音技术部高级总监高亮介绍,百度提出流式多级的截断注意力模型SMLTA,是国际上首次实现局部注意力建模超越整句的注意力模型,也是国际上首次实现在线语音大规模使用注意力模型。而百度推出语音合成技术Meitron,可以将语音中的音色、风格、情感等要素映射到不同的子空间,在使用时,不同要素可以任意组合,灵活的控制合成语音的风格。据他介绍,百度大脑语音团队最新研发出一款针对远场语音交互打造的芯片——百度鸿鹄芯片。该芯片采用双核HiFi4架构,2.8M大内存,台积电40nm工艺,在此硬件规格上,100mw左右平均工作功耗,即可支持远场语音交互核心的阵列信号处理和语音唤醒能力。

百度视觉技术部、增强现实技术部总监吴中勤介绍,本次全新发布视觉语义化平台2.0,正在推进视觉技术由“看清看懂”向“交互”进行升级,同时在交互升级和软硬件结合两大方面实现突破。其中,交互升级又包含一体化人机交互系统和大场景物理世界交互系统。一体化人机交互系统是人与机器、虚拟环境的自然交互与融合,该系统适用于实现AR特效的直播、小视频、特效小程序等场景,已应用于百度多款视频App。大场景物理世界交互系统是将视觉定位与AR技术突破性结合,实现大范围的虚拟信息与物理世界的精准叠加,从而建立起AI时代全新的交互系统。目前,软硬件结合可以满足应用场景更高效的视觉计算,以及更低延时的体验,同时能保护数据隐私。

视觉语义化平台2.0更新了许多先进的感知技术,也让机器人技术实现新突破。百度三维视觉首席科学家杨睿刚介绍,机器人就是一个智能体,除了感知技术,智能体需要决策和动作相关的技术,实现从环境感知到主动感知。目前,百度研究的智能体技术主要集中在自动驾驶Apollo、工程机械和服务机器人三大方面。

在语言和知识技术方面,百度大脑也公布了一系列创新和突破。百度AI技术平台体系执行总监吴甜向介绍,百度设计并实现了知识增强的语义理解框架——ERNIE,具备可持续学习能力,核心模型能力不断提升。目前,ERNIE累计学习了超10亿知识,全面刷新中文NLP任务的指标,在百度众多产品应用中提升效果。机器同传方面也有最新进展,在翻译过程中对语音识别结果进行纠错的联合词向量编码技术,可解决多轮翻译一致性和连贯性问题的语篇翻译模型等,结合先进的语音技术,百度大脑实现了高准确、低时延的机器同传技术。

此外,吴甜还正式发布行业知识图谱平台和智能创作平台2.0。目前,百度已构建百度大脑·语言与知识技术开放平台,不仅有丰富的基础技术,还形成了包括智能创作平台在内的翻译开放平台、UNIT平台、知识图谱构建与应用平台共四大应用级平台,为不同领域提供百度领先的语言与知识技术。

据了解,百度大脑5.0不仅包含算法层面创新,在算力方面也实现重大突破。近年来,算法对算力需求增长近30万倍,而芯片的计算性能仅提升30倍,两者之间存在巨大鸿沟。

百度副总裁侯震宇

百度副总裁侯震宇还在现场分享了百度新一代AI计算架构。侯震宇认为,面对即将到来的AI+5G时代,计算将无处不在。真正的计算会发生在设备(Device)、边缘(Edge)和云(Cloud)中,因而D-E-C场景将会是接下来需要重点研究的问题;与此同时,包括芯片之间、系统之间、设备之间的互相连接,将帮助不同场景中的计算连接在一起,产生更大的计算力。

值得一提的是,百度深度学习技术平台部总监马艳军还在现场详细介绍了百度自研的国内唯一功能完备的深度学习平台“飞桨”的核心优势,百度大数据实验室主任浣军还对外正式发布AutoDL 3.0自动化建模技术。

AI算法、计算架构和应用场景的融合创新的百度大脑5.0已成为软硬一体 AI大生产平台。百度方向表示,除了顶级的技术,百度大脑仍将不断开放赋能,目前已经开放210余项领先的AI技术能力,平台的调用次数同比增长108%,定制化平台模型的数量都在飞速增长,平台上的开发者数量已经达到了130万。

文章来源: https://www.toutiao.com/group/6709638952715813380/