可插拔的 AI Pipeline 架构
传统架构
用户语音
ASR
LLM
TTS
AI 回复
或
Realtime
用户语音
Realtime
OpenAIGemini
AI 回复
ASR 语音识别私有化ASR讯飞阿里云AzureOpenAI WhisperDeepgram
LLM 大模型私有化LLMDeepSeek通义千问文心一言ChatGPTGemini
TTS 语音合成私有化TTS火山引擎微软 Azure讯飞ElevenLabs
RealtimeOpenAI RealtimeGemini Live
// 10 行代码创建 AI 语音 Agent
const agent = new SAIAgent({
asr: 'xfyun', // 讯飞语音识别
llm: 'deepseek', // DeepSeek 大模型
tts: 'azure', // 微软语音合成
prompt: '你是一名专业的客服助手...',
enableInterrupt: true, // 开启智能打断
})
await agent.join(token)核心功能
实时语音对话
基于 SRTC 的超低延迟音频通道,首字响应延迟低至 300ms,支持智能打断和连续对话。
视频多模态交互
支持实时视频流与 AI 大模型交互,实现图像识别、视频理解等多模态 AI 能力。
可插拔架构
自由组合 ASR / LLM / TTS 服务商,一套代码适配不同场景和预算需求。
SIP 电话呼入呼出
支持传统电话线路接入 AI Agent,实现智能电话客服、AI 外呼等场景。
私有化部署
全栈部署在企业内网,AI 对话数据不出企业,满足政企数据安全合规要求。
多语言支持
支持中文、英文、中英混合等多语言语音识别与合成,适用于跨国业务场景。
应用场景
AI 智能客服
电话客服 | 在线客服 | 语音导航
7x24 小时智能语音客服,支持 SIP 电话呼入,自动应答和转人工。
AI 面试官
校招面试 | 初筛 | 技能评估
基于大模型的 AI 面试系统,支持多轮追问、实时评分和面试报告生成。
AI 医疗问诊
智能分诊 | 健康咨询 | 用药指导
支持私有化部署的 AI 问诊助手,保护患者隐私,辅助医生提高诊疗效率。
智能 AI 数字人
AI 数字人 | 虚拟形象 | 实时驱动
基于 LLM + TTS 实时驱动的 AI 数字人,支持自定义虚拟形象和声音克隆,可用于虚拟主播、数字员工、品牌代言等场景。