国际残疾人日：微软正式捐赠第一批人工智能音频内容

发布者：马俊 2020-12-05 17:57

导读12 月 2 日，微软与周迅 AI 语音红丹丹公益项目发起人——鹿音苑文化传播公司、以及来自微软及各界的 150 名余志愿者，将创作的首批人工智能有声内容，包括鲁迅、老舍、萧红

IT之家12月4日消息12月2日，微软和周迅AI Voice宏达旦公益项目发起人——绿茵园文化传播公司，以及微软和各界150多名志愿者，将创作第一批人工智能音频内容，包括鲁迅、老舍、萧红、朱自清等作家的一系列经典作品，宏达旦文化期刊，正式捐赠给北京宏达旦视障文化服务中心(以下简称“宏达旦”)

国际残疾人日：微软正式捐赠第一批人工智能音频内容

这些作品基于微软Azure Cloud Cognitive Service的语音合成平台Speech Studio及其丰富的人工智能(AI)语音，包括艺术家周迅授权的定制语音、播音员董丽娜授权的定制语音、宏丹的视障人士、以及微软几个智能语音合成平台(如晓晓、叶韵)的语音。

国际残疾人日：微软正式捐赠第一批人工智能音频内容

随着人工智能时代的到来，语音服务的重要性日益突出。微软在不断探索和突破智能语音的极限，加速从研发到产品的落地，希望赋予更多有科技实力的人和组织以权力。

国际残疾人日：微软正式捐赠第一批人工智能音频内容

智能语音系统堪比专业扬声器

国际残疾人日：微软正式捐赠第一批人工智能音频内容

微软已经深入智能语音领域二十多年了。智能语音作为人工智能的核心技术之一，已经融入到微软的全球产品中，包括Windows Reading、Skype、Office等产品。随着微软CognitiveServices的推出，形成了面向开发者和合作伙伴的开放平台体系，提供强大灵活的语音服务。

国际残疾人日：微软正式捐赠第一批人工智能音频内容

近年来，随着深度神经网络技术的不断创新，微软文本到语音(TTS)技术取得了许多突破。2018年12月，微软率先在全球范围内推出端到端深度神经网络语音合成服务，使计算机和智能设备拥有可与真人媲美的人工智能声音。

国际残疾人日：微软正式捐赠第一批人工智能音频内容

IT之家了解到，微软的语音合成技术在探索提高语音自然度的同时，也在不断探索语音的表现力、丰富性和智能性。微软智能语音通过多情感、多角色、情绪强度可调的技术升级，极大地丰富了合成语音的风格。再者，为了大幅降低音频内容的创作成本，微软针对复杂的长文本提供了智能情感和角色预测功能，使得AI语音具有更强的理解能力，使得音频内容的创作变得轻松便捷。

具体来说，智能语音多情感技术创造性地从人类语音中挖掘出情感化的语音特征，赋予合成语音拟人化的表现，使合成语音既能根据不同的场景而变化，又有自己的喜怒哀乐。所以声音更有表现力，不仅能更贴切地表达文本，而且发音更容易理解，更生动。

比如晓晓的中文嗓音已经达到了14种情感风格。他可以用“抒情”、“新闻”、“聊天”等不同风格在不同的使用场景下解读作品，也可以用“开心”、“难过”、“生气”、“恐惧”等各种情绪在对话中表达不同的情绪和态度。

人的情绪就像色谱图，色谱图的颜色从深到浅，人的情绪也是如此，由强变弱。微软智能语音情感强度可调技术，可以增强或减弱情感强度，使情感表达更加细腻，从而大大拓展情感矩阵，丰富多情感语音的表达；在实际的人与人的对话中，情感的变化是微妙的。通过情感度可控技术，人工智能对话或聊天机器人可以变得更加流畅和真实，人性化设计更加统一。

微软智能语音提供多种语音角色供用户选择，涵盖不同年龄、性别和性格特征。有些声音也可以扮演不同的角色，比如男声扮演女声，年轻的声音扮演老的声音等等。通过微软的优质声音家族，用户可以选择更符合实际场景的不同声音，满足自然对话需求，创作出更有趣的组播剧。大大拓展了音频内容的创作空间。

微软智能语音也在探索一种更智能、更易理解的语音系统，能够创造出丰富、自然、富有表现力的音频内容，进一步降低人工操作成本。微软语音根据上下文信息，可以识别旁白和对白、人物、情绪和情感，自动推荐最合适的语音。

为了方便大家创建音频内容，微软提供了一个智能音频内容创建工具平台。输入文本后，工具可以先预测角色和情绪，然后选择合适的声音进行表演。作者可以调整声音、情绪、节奏、发音等。以创建不同的音频内容。

歌唱作为情感的延伸，是人类表达情感的重要方式。微软之声也在基于神经网络的唱功上有所突破。微软人工智能语音晓晓和朱婧一起演唱了难度较大的《人类零件》歌曲，展现了中英文双语演唱和说唱能力，合成效果逼真自然。

微软云拥有全球最多的数据中心，其认知服务智能语音技术面向全球市场，覆盖语言数量全球领先。目前微软的语音合成支持54个国家和地区的语言，提供150多种语音可供选择。

微软语音支持深度品牌定制

在人工智能时代，AI声音不仅是一种基本能力，还被赋予了很多品牌属性。在很多行业的实际应用中，客户往往需要一个识别度高的个性化语音，“深度定制”只是微软智能语音平台的优势之一。

基于客户提供的语音数据，微软可以实现“细粒度”定制，包括语音合成的音色、说话风格、特殊的发音要求甚至唱歌等特殊功能。在使用方面，微软语音也相当灵活，不仅服务于云平台，还支持本地化和离线部署等场景。

微软天蓝色和人工智能事业部高级产品总监丁认为，在个性化时代，声音就是品牌。微软的语音合成技术可以为企业定制丰富的音色，最大化品牌价值。

2019年11月，微软推出了基于深度神经网络语音合成技术的定制神经语音平台，向第三方开放高质量的语音合成引擎，使微软合作伙伴和客户能够通过简单的自助服务定制识别和个性化的语音。

微软的语音定制涵盖了从语音画像的设计到数据的收集整理、模型的优化、系统的部署等各个方面。用户可以通过CustomVoice声音定制平台实现一键定制自助服务。

传统技术定制的语音模型需要发送音人录制成千上万句话，需要耗费几个月的时间，成本巨大。而微软基于深度神经网络技术的定制化语音，可以用更少的数据达到更加高拟人度和自然真实的效果。通过微软语音涵盖超过 50 个语言的 UNI-TTS 基础模型和深度神经网络强大的迁移学习能力，微软声音定制还支持跨语言定制，实现一个音色多个语种的多语言能力。

据悉，这一技术已经率先在多个知名企业得到应用。这包括新媒体、通信、教育、金融等多个行业，涉及客户服务、AI 对话和内容生产的多个场景。

譬如英国广播公司 BBC 就在微软声音定制和语音合成技术的帮助下，打造了一款虚拟助手 Beeb 用于多模态的客户服务和有声内容创作。具体而言，BBC 不仅需要 Beeb 发出标准英式发音，甚至细化到英国北部某个特定地区的口音风格，还有多风格的要求，比如在跟真人打招呼时，声音需要符合个人助理身份的互动风格，而在播报政治、军事类新闻时，就需要严肃的声音风格。

面对这一挑战，微软在 BBC 提供的不到 2 小时的录音人数据量中，与语言专家、客户挑选和分析其中特定口音的发音特点，汇总成模型能识别的规律，最后构建到定制化模型里，生成高质量、多风格的声音。

在教育行业，微软语音团队协助知名独角兽公司多邻国 Duolingo 打造具有多语言能力和丰富角色特征的声音。据多邻国艺术总监 GregHartman 介绍，“每一个角色的声音都是和它的人物性格的一部分。微软定制声音平台基于我们的角色特性，赋予了每一个人物生动的声音风格。”

此外，微软智能语音团队还帮助 AT&T 时代华纳、Swisscom（瑞士电信）、Progressive 等多家知名企业创建了他们的个性化声音，实现与用户的自然对话和交互。

在中国，目前语音服务也落地到由世纪互联运营的 Azure 云服务上，中国用户可以使用和全球一样质量的语音合成服务。

2019 年春节前夕，央视新闻联合微软推出互动融媒体产品《你的生活 AI 为你唱作》，其中央视主播康辉和微软 AI 智能语音中文晓晓为用户唱作专属歌曲，央视主播康辉的声音即是利用微软智能语音的声音定制技术生成。此外，周迅为红丹丹图书馆录制有声书、知名作家土摩托录制三联生活周刊音频内容时，都用到了微软定制语音合成技术。微软以少量真人语音为训练样本，为他们合成了专属于自己的智能 TTS 声音。

除语音合成之外，微软 AIspeech 还能够提供全面的核心语音能力，例如语音识别、语音评测、语音翻译，这些能力都支持多语种以及基于不同场景的定制。

其中，微软的语音识别支持全球 30 个地区和国家语言，能够提供近场和远场识别，在线（real-time）和离线（batch）的灵活调用方式。语音识别还可以支持关键词识别，说话人分离，语言识别，情绪识别等多种功能。

而微软语音评测产品可支持包括英语在内的全球 40 多个国家和地区的语言，广泛适用于教育领域解决方案的合作伙伴、APP 开发者以及语言学校、培训中心、教育机构、考试中心的各种语言学习、口语练习和考试等场景的开发。

随着深度神经网络算法的突破，数据的爆发，基础设施的完善，AI 语音技术正在走向大规模应用增长的发展方向。微软以及其他平台公司将不断通过 AI 技术赋能更多场景，可以可以提供无限可能。

免责声明：本文章由会员“马俊”发布如果文章侵权，请联系我们处理，本站仅提供信息存储空间服务如因作品内容、版权和其他问题请于本站联系

标签：

国际残疾人日：微软正式捐赠第一批人工智能音频内容

猜你喜欢

最新文章