AI 引擎

SAI Agent

可私有化的 AI 实时对话引擎

基于 SRTC 的 AI 实时语音/视频对话引擎,可插拔对接任意 ASR/LLM/TTS 服务商,支持国产大模型私有化部署,构建智能客服、AI 面试、远程问诊等场景。

可插拔的 AI Pipeline 架构

用户语音
ASR
LLM
TTS
AI 回复
用户语音
Realtime
OpenAIGemini
AI 回复
ASR 语音识别私有化ASR讯飞阿里云AzureOpenAI WhisperDeepgram
LLM 大模型私有化LLMDeepSeek通义千问文心一言ChatGPTGemini
TTS 语音合成私有化TTS火山引擎微软 Azure讯飞ElevenLabs
RealtimeOpenAI RealtimeGemini Live
// 10 行代码创建 AI 语音 Agent
const agent = new SAIAgent({
  asr: 'xfyun',        // 讯飞语音识别
  llm: 'deepseek',    // DeepSeek 大模型
  tts: 'azure',       // 微软语音合成
  prompt: '你是一名专业的客服助手...',
  enableInterrupt: true,  // 开启智能打断
})

await agent.join(token)

核心功能

实时语音对话

基于 SRTC 的超低延迟音频通道,首字响应延迟低至 300ms,支持智能打断和连续对话。

视频多模态交互

支持实时视频流与 AI 大模型交互,实现图像识别、视频理解等多模态 AI 能力。

可插拔架构

自由组合 ASR / LLM / TTS 服务商,一套代码适配不同场景和预算需求。

SIP 电话呼入呼出

支持传统电话线路接入 AI Agent,实现智能电话客服、AI 外呼等场景。

私有化部署

全栈部署在企业内网,AI 对话数据不出企业,满足政企数据安全合规要求。

多语言支持

支持中文、英文、中英混合等多语言语音识别与合成,适用于跨国业务场景。

应用场景

AI 智能客服

电话客服 | 在线客服 | 语音导航

7x24 小时智能语音客服,支持 SIP 电话呼入,自动应答和转人工。

AI 面试官

校招面试 | 初筛 | 技能评估

基于大模型的 AI 面试系统,支持多轮追问、实时评分和面试报告生成。

AI 医疗问诊

智能分诊 | 健康咨询 | 用药指导

支持私有化部署的 AI 问诊助手,保护患者隐私,辅助医生提高诊疗效率。

智能 AI 数字人

AI 数字人 | 虚拟形象 | 实时驱动

基于 LLM + TTS 实时驱动的 AI 数字人,支持自定义虚拟形象和声音克隆,可用于虚拟主播、数字员工、品牌代言等场景。

准备开始构建了吗?

申请试用 SRTC 全平台 SDK,获取私有化部署方案和专属技术支持