近期Oracle已正式发布OCI Speech服务,这是一项新的自动语音识别 (Automatic Speech Recognition,ASR) 服务。OCI Speech服务能帮助客户发掘视音频文件中潜在的业务数据,并支持与其他OCI服务无缝集成,如大数据、ML 和AI等。
Oracle Cloud Infrastructure (OCI) Speech 是一项 AI 服务,它应用 ASR 技术将基于视音频的内容转换为文本。开发人员可以轻松地进行 API 调用,将 Speech 的预训练模型集成到他们的应用程序中,同时也可以通过控制台、REST API、CLI 或 SDK 使用 OCI Speech服务进行准确的、规范的文本转录。此外,在OCI数据科学服务的Notebook会话中也支持使用OCI Speech服务。借助OCI Speech服务,客户还可以过滤脏话、获取单个词(或整个转录)的置信度分数(Confidence Scores)、使用多种语言并仅通过一次 API 调用转录多个文件。

支持多种语言:目前支持转录英语、西班牙语或葡萄牙语等的音频文件。
OCI Speech服务旨在通过 UI、REST API、SDK 和 CLI 无缝集成现有的客户解决方案。此外,OCI Speech 用户还可以利用批处理功能一次性调用提交多个文件。
超快的处理速度。
文本规范化提供了更易读的文本,类似于人类的书写方式。例如,OCI Speech服务会将“这台笔记本电脑售价一千三百五十五美元”的音频转换为“这台笔记本电脑售价 $1355”文本信息。此外,OCI Speech还支持将地址、时间、数字、URL等数据进行标准化。
OCI Speech支持进行敏感信息过滤,它可以删除(或全部替换为星号)、屏蔽(用星号替换除第一个字符之外的所有字符)或标记(保留但标记它)输出文本中的敏感信息。
OCI Speech的作业取消功能允许用户在提交作业后还能取消作业(在作业未处理或未完成时)。
每个单词/转录的置信度分数。


无缝集成:OCI Speech旨在通过 UI、RESTAPI、SDK 和 CLI 与现有客户解决方案集成。用户还可以在数据科学服务的Notebook会话中使用Speech。
安全性:处理后不保留音频文件(与其他一些云提供商不同)。
零启动时间:OCI Speech预训练模型允许用户利用自动语音识别技术(基于深度学习的语音到文本模型),而无需对数据或模型训练进行任何初始设置。
批处理:处理海量数据的客户还可以批量异步转录音频文件。
完全托管的服务:客户不必担心怎样选择托管用于模型训练和推理的基础设施。
请参考以下链接了解更多OCI Speech服务:
OCI Speech服务帮助文档
https://docs.oracle.com/en-us/iaas/Content/speech/home.htm
OCI Speech服务API
https://docs.oracle.com/en-us/iaas/api/#/en/speech/20220101/
https://docs.oracle.com/en-us/iaas/Content/API/Concepts/sdks.htm

作者简介
洪俊,甲骨文云架构团队资深架构师,具有14+年的IT行业从业经验,专注于甲骨文IaaS+PaaS云平台及区块链、人工智能领域,同时在SOA/BPM,API治理及管控等集成领域有深入的研究。您可以通过jone.hong@oracle.com与他联系。




