STMP技术平台

首页
模型体验
开放能力
对话能力
语义对话
语音能力
语音识别
语音合成
图像能力
图像识别
图像生成
数字人
3D模型渲染
智能语音助手
数字人直播
其他能力
AI搜索
内容智能审核
分布式数字身份
数字资产管理与发行
数字熊猫
潘宝AI
智能体引擎
行业应用
智能导览机器人
小潘智能管家
数字博物馆
金融AI助手
帮助中心

控制台登录

首页模型体验

开放能力

对话能力: 语义对话

语音能力: 语音识别; 语音合成

图像能力: 图像识别; 图像生成

数字人: 3D模型渲染; 智能语音助手; 数字人直播

其他能力: AI搜索; 内容智能审核; 分布式数字身份; 数字资产管理与发行

数字熊猫潘宝AI 智能体引擎

行业应用

智能导览机器人

小潘智能管家

数字博物馆

输入文字即可生成、合成语音，打通人机交互的闭环，让应用逼真发声。多种音色可供选择，语言可对南方、北方口音进行区分

立即使用技术文档

产品体验

右侧输入文字开始转换后可进行试听

音色：

音速：

音调：

0 / 100

产品特性

表现力强
基于深度学习将文本转化为语音，将神经网络与领域知识双重结合，兼具读音准确、韵律自然、声音还原度高、表现力强、识别率达到业界领先
支持多语种方言
目前支持日语及多种东南亚语种，粤语、天津话、湖南话、东北话、四川话等方言，多个声音模型支持中英混合播报
支持字级别时间戳
可用于视频配音中的音频与字幕时间对齐，虚拟形象口型对齐等
可快速进行动态参数调整
支持动态调整发音、语速、音量、语调、采样率、多种音频编码格式等；支持SSML标签语言；支持流式合成，边合成边播放

应用场景

智能设备
电子书朗读
门店、商场、景区播报

智能设备

在智能家居、音箱、车载和可穿戴设备等场景中，将机器反馈给用户的内容通过高品质发声进行交互，同时可使用音素边界让虚拟形象“活”动起来。

产品优势

技术先进
技术上兼顾了多级韵律停顿，达到自然合成韵律的目的，综合利用声学参数和语言学参数，建立基于深度学习的多重自动预测模型。
智能语言多领域覆盖
在智能家居、车载、导航、金融、银行、保险、证券、运营商、物流、房地产、教育等众多领域积累了大量的词库，让阿里云语音合成在各领域、各行业的词汇发音更准确。
听感自然
使用海量的音频数据训练发音模型，合成音真实饱满、抑扬顿挫、富有表现力，MOS评分达到业内专业水准。
丰富音库
拥有丰富的音色库，提供约110个音色，更有标准男女声，温柔甜美女声等多种风格可供选择，支持标记语言（SSML）合成方式，情感、音量、语速、音高等参数也支持动态调整。

产品文档

服务介绍
API文档
常见问题

联系我们
电话:17313982898
合作咨询服务开通
专家服务
多名技术专家提供专业服务
运维服务健康检查服务
文档与工具
为您提供全面的产品文档、新手教程
帮助文档常见问题
建议反馈
欢迎大家反馈一切建议
聆听体验反馈

蜀天官网法律声明服务协议

©2019-2023 四川蜀天信息技术有限公司蜀ICP备2021016039号-5

STMP技术平台为您提供web.3.0一站式服务

联系邮箱: shiyu@scstit.com