暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

Oracle正式发布OCI Speech语音服务

1334

近期Oracle已正式发布OCI Speech服务,这是一项新的自动语音识别 (Automatic Speech Recognition,ASR) 服务。OCI Speech服务能帮助客户发掘视音频文件中潜在的业务数据,并支持与其他OCI服务无缝集成,如大数据、ML 和AI等。

OCI Speech服务概述

Oracle Cloud Infrastructure (OCI) Speech 是一项 AI 服务,它应用 ASR 技术将基于视音频的内容转换为文本。开发人员可以轻松地进行 API 调用,将 Speech 的预训练模型集成到他们的应用程序中,同时也可以通过控制台、REST API、CLI 或 SDK 使用 OCI Speech服务进行准确的、规范的文本转录。此外,在OCI数据科学服务的Notebook会话中也支持使用OCI Speech服务。借助OCI Speech服务,客户还可以过滤脏话、获取单个词(或整个转录)的置信度分数(Confidence Scores)、使用多种语言并仅通过一次 API 调用转录多个文件。

OCI Speech服务功能
  1. 支持多种语言:目前支持转录英语、西班牙语或葡萄牙语等的音频文件。        

  2. OCI Speech服务旨在通过 UI、REST API、SDK 和 CLI 无缝集成现有的客户解决方案。此外,OCI Speech 用户还可以利用批处理功能一次性调用提交多个文件。               

  3. 超快的处理速度。

  4. 文本规范化提供了更易读的文本,类似于人类的书写方式。例如,OCI Speech服务会将“这台笔记本电脑售价一千三百五十五美元”的音频转换为“这台笔记本电脑售价 $1355”文本信息。此外,OCI Speech还支持将地址、时间、数字、URL等数据进行标准化。

  5. OCI Speech支持进行敏感信息过滤,它可以删除(或全部替换为星号)、屏蔽(用星号替换除第一个字符之外的所有字符)或标记(保留但标记它)输出文本中的敏感信息。

  6. OCI Speech的作业取消功能允许用户在提交作业后还能取消作业(在作业未处理或未完成时)。

  7. 每个单词/转录的置信度分数。

客户收益
  • 无缝集成:OCI Speech旨在通过 UI、RESTAPI、SDK 和 CLI 与现有客户解决方案集成。用户还可以在数据科学服务的Notebook会话中使用Speech。

  • 安全性:处理后不保留音频文件(与其他一些云提供商不同)。

  • 零启动时间:OCI Speech预训练模型允许用户利用自动语音识别技术(基于深度学习的语音到文本模型),而无需对数据或模型训练进行任何初始设置。

  • 批处理:处理海量数据的客户还可以批量异步转录音频文件。 

  • 完全托管的服务:客户不必担心怎样选择托管用于模型训练和推理的基础设施。 

参考资料

请参考以下链接了解更多OCI Speech服务:

OCI Speech服务帮助文档

https://docs.oracle.com/en-us/iaas/Content/speech/home.htm

OCI Speech服务API

https://docs.oracle.com/en-us/iaas/api/#/en/speech/20220101/

https://docs.oracle.com/en-us/iaas/Content/API/Concepts/sdks.htm


作者简介

洪俊,甲骨文云架构团队资深架构师,具有14+年的IT行业从业经验,专注于甲骨文IaaS+PaaS云平台及区块链、人工智能领域,同时在SOA/BPM,API治理及管控等集成领域有深入的研究。您可以通过jone.hong@oracle.com与他联系。


最后修改时间:2022-04-18 09:02:49
文章转载自甲骨文开发者社区,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论