谷歌有限责任公司(GoogleLLC)继续在机器学习方面取得进展,今天宣布了其云文字对语音服务的总体可用性,以及其云言对文本服务的改进,该服务仍在测试阶段。

谷歌的文本到语音服务旨在帮助公司为他们提供的服务开发更好的会话接口。 通过这项服务,谷歌正在瞄准三个主要市场,包括呼叫中心的语音响应系统,云Text-to-Speech可以为其提供实时、自然语言的对话。

谷歌还瞄准了“物联网”领域,特别是汽车信息娱乐系统、电视和机器人等产品,使这些设备能够与用户交谈。 最后,它的目标是应用程序,如播客和有声读物,将文本转换为语音。

谷歌Text-to-Speech使用了几种不同的技术,包括它多年来使用的技术和两种由其使用WaveNet的DeepMind人工智能单元开发的技术,WaveNet是一种用于生成原始音频的深层神经网络。 当它在今年早些时候以beta版本发布时,该服务有32种不同的声音,有12种语言。 谷歌在一篇博客中说,现在它拥有17种语言,总共有56种声音,其中26种来自浪潮网络。

此外,谷歌宣布了一项名为Audio Profiles的新服务,用于文本到语音,使用户能够优化服务,以便在不同类型的硬件上回放。

“您现在可以指定音频是否打算通过电话线、耳机或扬声器播放,我们将优化音频以供播放,”该公司表示。 “例如,如果你的应用程序产生的音频主要是在耳机上听的,你可以从Cloud Text-PeechAPI创建合成语音,专门为耳机优化。

谷歌表示,上个月在云下一次会议上宣布的云语音到文本服务的新功能也已推出。 顾名思义,云语音到文本做的与文本到语音相反.. 它本质上是一种转录服务,可以倾听人类的声音,记录他们说的话。

该服务已经给用户留下了深刻的印象,因为它有能力在文本输出中添加适当的标点符号,如逗号和句号,现在该公司正在进一步改进具有新的多通道识别功能的东西,以便在这些扬声器使用一对立体声频道的情况下用多个扬声器转录音频。

对于多个扬声器使用单个频道的情况,谷歌使用一个名为“扬声器日记”的功能来分离这些声音。

该公司说,这可以让你输入扬声器的数量作为API参数,通过机器学习,云语音到文本将用扬声器号码标记每个单词。 谷歌补充说,随着越来越多的数据被接收,附加在每个单词上的扬声器标签不断更新,因此服务在识别谁在说话和说什么方面变得越来越准确。

今天添加的云语音到文本的其他新功能包括“语言自动检测”,它使软件应用程序能够自动检测语言使用者使用的语言,允许他们在他们愿意的情况下使用多个语言。 谷歌还增加了一个新的功能,称为词级置信度分数,它允许开发人员构建可以突出特定单词的应用程序,然后根据分数编写代码,提示用户根据需要重复这些单词,以避免任何解释错误。

例如,谷歌解释说,如果用户说“请在明天下午2点与约翰会面”,应用程序创建者可以决定提示用户重复“约翰”或“下午2点”,如果两者都没有信心。 但它不会重复“请”,即使有低信心,因为它不是关键的特定句子,谷歌说。

显示您对我们的任务的支持,我们的一键订阅我们的优管频道(下面)。 我们拥有的用户越多,你就越能向你推荐相关的企业和新兴技术内容。 谢谢!

支持我们的使命:>;>;>;SUBS CRIBE NOW>;>;>;到我们的优管频道。

我们还想告诉你我们的使命,以及你如何帮助我们完成它。 硅谷媒体公司的商业模式是基于内容的内在价值,而不是广告。 与许多在线出版物不同,我们没有付费墙或经营横幅广告,因为我们希望保持我们的新闻开放,没有影响或需要追逐流量。 硅谷的新闻、报道和评论-以及我们硅谷工作室的现场、未经剪辑的视频和CUBE的环球视频团队-需要大量的艰苦工作、时间和金钱。 保持高质量需要赞助商的支持,他们与我们的无广告新闻内容的愿景一致。

如果您喜欢这里的报道,视频采访和其他无广告内容,请花点时间查看我们的赞助商支持的视频内容样本,推特您的支持,并继续回到硅安格尔。