AI 引擎

SAI Agent

可私有化的 AI 实时对话引擎

基于 SRTC 的 AI 实时语音/视频对话引擎，可插拔对接任意 ASR/LLM/TTS 服务商，支持国产大模型私有化部署，构建智能客服、AI 面试、远程问诊等场景。

联系我们查看文档

可插拔的 AI Pipeline 架构

传统架构

用户语音

ASR

LLM

TTS

AI 回复

或

Realtime

用户语音

Realtime

OpenAIGemini

AI 回复

ASR 语音识别私有化ASR讯飞阿里云AzureOpenAI WhisperDeepgram

LLM 大模型私有化LLMDeepSeek通义千问文心一言ChatGPTGemini

TTS 语音合成私有化TTS火山引擎微软 Azure讯飞ElevenLabs

RealtimeOpenAI RealtimeGemini Live

// 10 行代码创建 AI 语音 Agent
const agent = new SAIAgent({
  asr: 'xfyun',        // 讯飞语音识别
  llm: 'deepseek',    // DeepSeek 大模型
  tts: 'azure',       // 微软语音合成
  prompt: '你是一名专业的客服助手...',
  enableInterrupt: true,  // 开启智能打断
})

await agent.join(token)

核心功能

实时语音对话

基于 SRTC 的超低延迟音频通道，首字响应延迟低至 300ms，支持智能打断和连续对话。

视频多模态交互

支持实时视频流与 AI 大模型交互，实现图像识别、视频理解等多模态 AI 能力。

可插拔架构

自由组合 ASR / LLM / TTS 服务商，一套代码适配不同场景和预算需求。

SIP 电话呼入呼出

支持传统电话线路接入 AI Agent，实现智能电话客服、AI 外呼等场景。

私有化部署

全栈部署在企业内网，AI 对话数据不出企业，满足政企数据安全合规要求。

多语言支持

支持中文、英文、中英混合等多语言语音识别与合成，适用于跨国业务场景。

应用场景

AI 智能客服

电话客服 | 在线客服 | 语音导航

7x24 小时智能语音客服，支持 SIP 电话呼入，自动应答和转人工。

AI 面试官

校招面试 | 初筛 | 技能评估

基于大模型的 AI 面试系统，支持多轮追问、实时评分和面试报告生成。

AI 医疗问诊

智能分诊 | 健康咨询 | 用药指导

支持私有化部署的 AI 问诊助手，保护患者隐私，辅助医生提高诊疗效率。

智能 AI 数字人

AI 数字人 | 虚拟形象 | 实时驱动

基于 LLM + TTS 实时驱动的 AI 数字人，支持自定义虚拟形象和声音克隆，可用于虚拟主播、数字员工、品牌代言等场景。

准备开始构建了吗？

申请试用 SRTC 全平台 SDK，获取私有化部署方案和专属技术支持

联系我们查看文档