Oracle正式发布OCI Speech语音服务

甲骨文开发者社区 2022-04-18

1334

近期Oracle已正式发布OCI Speech服务，这是一项新的自动语音识别 (Automatic Speech Recognition，ASR) 服务。OCI Speech服务能帮助客户发掘视音频文件中潜在的业务数据，并支持与其他OCI服务无缝集成，如大数据、ML 和AI等。

OCI Speech服务概述

Oracle Cloud Infrastructure (OCI) Speech 是一项 AI 服务，它应用 ASR 技术将基于视音频的内容转换为文本。开发人员可以轻松地进行 API 调用，将 Speech 的预训练模型集成到他们的应用程序中，同时也可以通过控制台、REST API、CLI 或 SDK 使用 OCI Speech服务进行准确的、规范的文本转录。此外，在OCI数据科学服务的Notebook会话中也支持使用OCI Speech服务。借助OCI Speech服务，客户还可以过滤脏话、获取单个词（或整个转录）的置信度分数（Confidence Scores）、使用多种语言并仅通过一次 API 调用转录多个文件。

OCI Speech服务功能

支持多种语言：目前支持转录英语、西班牙语或葡萄牙语等的音频文件。
OCI Speech服务旨在通过 UI、REST API、SDK 和 CLI 无缝集成现有的客户解决方案。此外，OCI Speech 用户还可以利用批处理功能一次性调用提交多个文件。
超快的处理速度。
文本规范化提供了更易读的文本，类似于人类的书写方式。例如，OCI Speech服务会将“这台笔记本电脑售价一千三百五十五美元”的音频转换为“这台笔记本电脑售价 $1355”文本信息。此外，OCI Speech还支持将地址、时间、数字、URL等数据进行标准化。
OCI Speech支持进行敏感信息过滤，它可以删除（或全部替换为星号）、屏蔽（用星号替换除第一个字符之外的所有字符）或标记（保留但标记它）输出文本中的敏感信息。
OCI Speech的作业取消功能允许用户在提交作业后还能取消作业（在作业未处理或未完成时）。
每个单词/转录的置信度分数。

客户收益

无缝集成：OCI Speech旨在通过 UI、RESTAPI、SDK 和 CLI 与现有客户解决方案集成。用户还可以在数据科学服务的Notebook会话中使用Speech。
安全性：处理后不保留音频文件（与其他一些云提供商不同）。
零启动时间：OCI Speech预训练模型允许用户利用自动语音识别技术（基于深度学习的语音到文本模型），而无需对数据或模型训练进行任何初始设置。
批处理：处理海量数据的客户还可以批量异步转录音频文件。
完全托管的服务：客户不必担心怎样选择托管用于模型训练和推理的基础设施。

参考资料

请参考以下链接了解更多OCI Speech服务：

OCI Speech服务帮助文档

https://docs.oracle.com/en-us/iaas/Content/speech/home.htm

OCI Speech服务API

https://docs.oracle.com/en-us/iaas/api/#/en/speech/20220101/

https://docs.oracle.com/en-us/iaas/Content/API/Concepts/sdks.htm

作者简介

洪俊，甲骨文云架构团队资深架构师，具有14+年的IT行业从业经验，专注于甲骨文IaaS+PaaS云平台及区块链、人工智能领域，同时在SOA/BPM，API治理及管控等集成领域有深入的研究。您可以通过jone.hong@oracle.com与他联系。

oracle

最后修改时间：2022-04-18 09:02:49

文章转载自甲骨文开发者社区，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

Oracle正式发布OCI Speech语音服务

评论