ViiTor ASR

面向实时内容理解的 AI 语音识别模型

ViiTor ASR 面向直播、视频、会议和互动对话场景，支持复杂口语识别、流式端到端语音翻译、智能字幕生成与副语言信息理解，让语音内容可以被更快识别、翻译和理解。

Listening...

Real-time Translation

"Welcome to the future of AI."

ENZH"欢迎来到..."

JSON Output

"text": "Hello",

"confidence": 0.98,

"speaker": "A"

模型介绍

ViiTor ASR 不只是一个基础语音转文字模型。它面向真实内容场景进行了优化，尤其适合直播、视频、课程、会议、游戏解说和互动对话等高噪声、高口语化、高专有名词密度的场景。在这些场景中，语音识别不仅要听清楚「说了什么」，还要尽可能理解上下文、口语表达、停顿节奏和说话语气。ViiTor ASR 将语音识别、实时翻译、字幕生成和副语言信息理解组合在一起，使系统可以持续输出更稳定、更贴近真实语境的结果。它适用于两类核心任务：第一类是实时内容理解，例如直播字幕、会议转写、跨语言互动；第二类是内容生产前处理，例如视频字幕生成、课程转写、播客内容结构化和多语言本地化。

核心模型矩阵

围绕语音识别、实时翻译、字幕生成和语境理解，构建可组合的实时语音理解能力。

ViiTor Listen

语音识别模型

面向复杂内容场景的高鲁棒语音识别模型。

ViiTor Translate

实时语音翻译模型

为直播、视频、实时互动等内容场景打造，支持流式端到端语音翻译。

ViiTor Subtitle

智能字幕模型

将语音内容转换为稳定字幕资产，支持多语言输出。

ViiTor Context

副语言理解模型

感知语气、停顿、语速和口语化表达，使识别结果更贴近真实语境。

核心 AI 能力

复杂语音内容识别

真实语音内容往往并不标准。直播、视频、游戏解说、会议和访谈中会出现大量人名、昵称、缩写、网络热词、游戏名、品牌词和临场口语表达。ViiTor ASR 针对复杂语音内容进行识别增强，在高频新词、专有名词和垂类词汇上进行优化，让模型在真实内容场景中保持更稳定的识别表现。

流式端到端语音翻译

在实时场景中，用户不能等一整段话结束后再看到翻译。ViiTor ASR 支持流式端到端语音翻译，可在语音输入过程中持续输出识别与翻译结果。该能力适用于直播字幕、跨语言会议、视频实时理解和互动对话等场景。用户可以一边听，一边看到原文与译文内容，降低跨语言理解的等待成本。

副语言信息理解

人在说话时，真正传达信息的不只有文字内容，还包括语气、停顿、语速、犹豫、强调和口语化表达。ViiTorContext 能够感知这些副语言信息，让识别和翻译结果更接近真实表达方式。对于直播、访谈、互动对话和虚拟人场景，这类信息可以帮助系统更准确地理解说话人的表达意图。

全平台生态支持

跨移动端、桌面端和浏览器插件，满足翻译、字幕、会议和实时互动的多场景需求。

iOS 版本

支持 iOS 14.0 及以上系统

App StoreApp Store

iOS QR Code

Android 版本

支持 Android 8.0 及以上系统

AndroidAndroid

Android QR Code

Chrome 插件

支持 Chrome 浏览器

Edge 插件

支持 Edge 浏览器

Zoom 插件

支持 Zoom 在线会议实时翻译

快速接入语音识别与翻译能力

开发者可通过 API 接入 ViiTor ASR 能力，覆盖实时语音识别、语音转写、流式端到端翻译、智能字幕生成和副语言信息感知。