基于深度神经网络,AI百度地图突破自身局限

在人机交互不再满足于“听”时,“说”的环节变得尤为重要,“怎么说”、“谁来说”成了关键按钮。

在人机交互不再满足于“听”时,“说”的环节变得尤为重要,“怎么说”、“谁来说”成了关键按钮。

而目前语音产品赛道逐渐进入了常规化模式,邀请明星出声也成为了基本操作,相比传统的机械式AI声音,真人语音无论是在效果还是情感方面都是无可比拟的,再加上明星效应,用户的体验效果将来得更加直观。

12月24日,百度地图官方宣布汤唯正式签约代言人,同时上线“汤唯导航语音”。在“说”的领域,百度地图这款“新一代人工智能地图”又迈出了一步。

图1.jpg

从语音导航到汤唯定制语音,百度地图“AI+女神”到底进化了什么

传统语音导航,是单调无聊的,定制语音将其变为了过去式。拥有汤唯的柔美声音作为导航,在体验上有什么差别?当“前方路段交通拥挤,请小心驾驶”变成“前方行驶缓慢,慢慢欣赏路上风景”,会不会觉得这才是“人性化”服务?

1、摆脱中性,汤唯带给我们的不只是女神之声

很多人会问,一定要给AI加上性别吗?不,AI不一定需要性别,但语音最好有。

以往我们听到的AI语音都是机械式的声音,是“中性”或者说是“无性”的声音,带来的问题也很直接,就是太冰冷、没个性。之前也有说到,目前个性化、表现力正是语音合成所追求的方向之一,所以百度地图带来的汤唯语音也就不止是一款语音那么简单。可以说汤唯语音从一个功能点体现出结合了人工智能的百度地图正在变得越来越强大。

声音具有和视觉传达一样很强的感染力,甚至有时,以声音为主的交互会带来更好的沉浸感。

图2.jpg

并且语音合成研究已开始从文字到语音的转换阶段向概念到语音的转换阶段发展。所涉及的技术也更加复杂,百度地图就是利用其深度神经网络技术、深度学习技术,再结合车内应用场景进行打造。例如百度语音合成系统采用的全深度学习的框架,是在语音合成领域首次采用全深度学习框架,实现了语言合成上的个性化、口语化。

2、语音算法模型让机器人性化

女神汤唯之所以能完成高质量的语音包,语音合成技术功不可没,在庞大的道路信息和交通数据之下,谁也无法通过直录的方式通通记录,这时就需要靠语音系统来支撑。

以汤唯语音包来说,就是先录制汤唯声音特点的第一手资料,录制的语句包含一些常见的导航提示语句和一些覆盖到常见的中文发音的句子。

其实无论语音还是文字,在计算机看来都是数字化的,语音合成模型的任务就是要建立这两组数字之间的关系,通过一系列的计算,将文本的输入转化为语音的输出。首先需要建立一个神经网络的模型,去学习汤唯录制的语音和录音文字之间的映射关系,就好比让一个不会发音的孩子学汤唯说话。而在合成时,它就可以读取导航语句,并大声朗读出来了。

AI浪潮之下,语言合成才是语音技术的高地

使电脑具有类似于人一样的说话能力,是当今时代信息产业的重要竞争市场,不过大家的注意力多集中在语音合成之外。

1、差点被忽略的“黄金”场景

目前,语音技术的应用多为了语音唤醒和交互,在智能硬件和软件上都有很多典型应用——智能音箱、智能电视、智能扫地机器人、百度地图、百度输入法等等。但不可否认的是,智能硬件的侧重仍在于“语音识别”,对于“语音合成”的应用有,可还不够深。

语音合成本是把文本经一系列计算处理后输出对应音频,通过机械的、电子的方法产生人造语音技术。因为完美的人机交互体验无法忽略“说”的环节,所以语音合成的重要性日益凸显。

图3.jpg

从早期的机械化语音合成开始发展至今,语音合成的应用场景也经历了较大的转变,以前语音合成应用都是在相对单调的场景,现在应用场景更加复杂,对于语音合成技术的要求自然变得更高。

例如,在有声读物方面,用户需求越来越个性化,单调的机械声已经完全不够;在机场、车站广播等服务行业,需要的是温柔、甜美的音质;在办事机构、窗口机关又需要严谨、有力的声音。而百度地图上线汤唯语音,也是给在路上的用户更加磁性、知性的嗓音。

在外部,车内空间显然是一块“宝地”,车内空间的交互可以说是市场刚需,截止到2018年9月,全国机动车保有量已经达到了3.22亿辆,机动车驾驶人数超过了4亿人,交互价值巨大。

百度地图等加速车内空间交互,是将传统的“室内交互”做了外延,给百度带来的也不仅仅是用户层面的拓宽,更体现出百度搜索之外的野心。

2、技术上,语音合成一直是语音技术的高山和壁垒

语音合成可以说是人工智能的“嘴”,是人机交互的基础,一个没有“嘴”的人工智能何谈什么交互?

就现阶段而言,语音识别已经不再是语音技术的关键问题,很多产品的语音识别率都到达了95%以上。但在语音生成上,能让机器说的话与人类说出来的话相近依旧很难,即便是一些简单的词组,你我也能一耳就听出是机器合成的还是真人播报。

如果将语音合成技术拆解,可以分为文本分析、韵律分析和声学分析三个部分,每一个部分都是技术难点。首先需要对文本进行解析,对文本的语言、字符进行分析,提取出文本特征;接着在文本信息的基础上,要判断文本信息字符间奏、长度、频率等多种特征;然后通过声学模型实现从前端参数到语音参数的映射,最后通过声码器合成语音。

图4.jpg

而且,目前主流的语音合成方法为统计参数语音合成和波形拼接的语音合成,统计参数语音合成由前端文本分析、统计参数模型和声码器三个部分组成,对语料库的时长要求较低且在合成目标波形时具有较高灵活性,但重建出来的语音比较机械,缺乏自然度。主要为声码器在对语音信号建模时舍弃了语音细节,合成的语音相比原始语音丢失部分信息。

而百度地图采用的百度语音合成系统,可以将很多模块用深度神经网络去实现,有效解决了使用统计参数合成时所带来的问题。

图5.jpg

波形拼接的语音合成不使用声码器,直接通过拼接原始录制语音片段来合成目标语音,相比参数法,合成的语音更加自然真实。由于直接面向语料库操作,故对语料时长和基元种类具有较高要求。

图6.jpg

当然,当语音流畅度达到人们预期时,也并不是完结,音质、自然度和情感等要素也依旧需要攻克。

就拿汉语语音合成来说,目前在单字和词组一级上,合成语音的可懂度和自然度已基本解决,但是到句子乃至篇章一级时其自然度问题就比较大。

比如,国内外大多数语音合成研究是针对文语转换系统,且只能解决以某种朗读风格将书面语言转换成口语输出,缺乏不同年龄、性别特征及语气、语速的表现,更不用说赋予个人的感情色彩。

3、比起听得清和听得懂,“说得好”要求的是更懂人

正如上文所提到过的,目前大部分产品的语音识别率都达到了95%以上,却无法像人类一样表达,其根本原因就是还“不懂人”。

何为“懂人”?我们人与人之间可以从对方的音量、声调、语速、用词等方面听懂对方的要求、情绪、心情、状态,这就是所谓的“懂人”。

说得直白点就是“情感表达”,这是目前而言语音合成技术需要攻克的关键要素。

图7.jpg

想要达成这一目标,针对普通生活场景的语音合成是提高情感表达的最佳方式。目前使用语音合成技术播报下天气或者阅读简讯,无疑能合成出完美的语音,但遇到生活化的场景,或者在特定氛围之下,语音合成的效果就会降低很多。一方面由于系统对韵律信息的捕获不准确,另一方面由于生成的声学参数存在误差。当语音合成可以完美消化各类生活化的语境时,其应用场景将得到极大的拓宽。

另外,在语音合成的应用中,大多都是单人、单语言、单语音,如何能由单变多也是语音合成应用中的一大困扰。在“3单”语境的限制下,语言合成技术难以完成应用突破,而目前一些解决“3单”语境的解决方案也不够完美,或多或少都存在瑕疵,并且也没有足够的语料素材来进行支撑。

如何使计算机算法能够自适应技术实现任意说话人、不同风格的高质量语音合成,如何充分挖掘不同语言的发音空间,在语料受限条件下实现多语言语音合成,也是语音合成现阶段的一大挑战。

图8.jpg

百度地图在深度神经网络技术的支撑下,已经开始对“3单”语境作出反应,并已收到成效,百度语音合成开始支持中文英文混读,可以提供数十种不同音色,更支持语速、音调、音量设置。这些技术活功能上的增加,无疑将给语音合成带来更加广阔的想象空间。

近年来,在语音技术行业中开始流行一句话:“得语音合成者得天下”,百度地图此时牵手国民女神,导航语音全量上线似乎也在卡这个时间点。

语音技术个性化时代,百度地图占领AI地图高地

地图从羊皮到纸卷,从PC到手机,其实一直在随技术的进步而进化。放眼整个行业,在人工智能浪潮下,百度地图已经走在了前列。语音合成上越来越讲究个性化,个性化的需求就无法绕开大数据和AI,而在这两个方面百度的经验正好合适。

1、汤唯女神的定制语音,不止是百度语音合成技术体现出情感特征的标志

赋予合成语音情感,让合成语音表现出个性生理、心理等特点,是语音合成领域一个难题。

图9.jpg

百度地图在推出汤唯语音导航的同时,也足以证明其语音组技术能力的成熟。

神经网络的模型随着百度技术经验的积累,也越来越精巧和高效。汤唯采用的模型,正是百度近期研发出的高质量合成模型,具有很好的音质,音色还原度和自然度。

让语音合成具备情感,还要建立多视角情感描述模型,需要描述认知、心理、生理等影响因素之间的关联性,再通过语音频谱特征表现出来。并且不能一厢情愿,还需要从用户的角度模拟不同人群的使用习惯,偏好等。

而这一系列过程背后,是一套复杂且庞大的数据系统在支撑,百度之所以能够完成还得益于百度地图大数据的丰富。目前百度地图覆盖了全球209个国家及地区超过850万公里道路里程,每日响应位置服务近千亿次等,这些正是百度语音组在打造语音合成技术时的基石。

2、两款导航语音开始满足个性化需求,百度地图AI化已经不再只是技术端

在今年3月,百度地图事业部正式并入AI技术平台体系(AIG),不仅是对其作为基础性服务地位的肯定,也意味着百度地图能够获得更直接的AI技术支持。

依托于整个百度,百度地图在AI技术研发上处于先发行列,有着比较全面的AI技术积累,涵盖语音、图像、大数据智能等。

而“汤唯迷人语音”和“汤唯常规语音”两款导航语音就能直观体现出百度语音组在韵律模型、声学模型预测(神经网络的模型)、弹性单元挑选技术等技术上的功力。

图10.jpg

从AI技术应用来看,百度地图已经表现出强大的AI能力,除了能提供实时路况、提前规划路线,推测拥堵等智能地图的“常规功能”外,百度地图开始提供更加个性化的交互,例如,AR实景导航、全景地图、旅游地图、充电桩地图、急救车让行播报等个性化功,这些创新功能不止是听觉还包括视觉上。值得一提的是,百度智能地图还能够“学习”不同路段对应的交规信息,这一点是极具应用价值的。

由此可见,百度地图AI化已经真正意义上实现了从技术端走到了应用端。

结论

汤唯女神导航语音对于百度地图而言是一个标志性事件,是在AI风口下,百度地图作出的重大变革之一,意味着百度地图AI能力呈现立体化。

从杨洋到汤唯,百度地图致力于展现地图AI的先进性,一直不竭余力,智能语音助手作为一个辅助功能,对于其他地图产品的无足轻重,百度地图则是高度重视,仅在视觉提供上,百度地图的语音助手就一定会是在最显眼的位置,并且不止于辅助,百度为语音助手所寄予的是“交互”,充分发挥导航语音“听”和“说”的能力。

如今,百度地图邀请女神汤唯“献声”,无疑是给百度地图语音的锦上添花,在打造新一代人工智能地图上百度地图又先行一步。

从以前的听清、听懂到满足,发展到在满足之后更有“反馈和应变”。在交互方式上也由单一交互变为了真正的双向交互。

同时在百度地图“更精准、更丰富、更易用”的理念基础上可以再加上一条“更具情感”。

在抢占智能地图高地上,百度地图已然突出。

【完】

智能相对论(微信ID:aixdlun):深挖人工智能这口井,评出咸淡,讲出黑白,道出vb深浅。重点关注领域:AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及背后的芯片、算法、人机交互等。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。



反馈
联系我们
推荐订阅