KK
Screenshot
Control plane overview

项目

Voice Agent

Orchestrator

独立项目Prototype

技术栈

  • Node.js
  • TypeScript
  • Angular
  • Voice AI
  • AI Runtime
  • Voice Streaming
  • Realtime & Pipeline
  • MCP
  • 3CX Call Control
  • RAG
  • SQLite-Vec
  • ONNX Runtime
  • Docker

概览

Voice Agent Orchestrator 是独立的 on-premises 平台,用于构建、评估和运行 telephony 场景的 AI voice agent。支持 realtime speech-to-speech 模型、模块化 STT→LLM→TTS pipeline、知识检索,以及基于本地与云端任意组合的 AI 驱动呼叫自动化。

平台有意与 PBX 解耦,作为独立 runtime 部署。这使 AI 基础设施 — 包括本地模型、向量数据库、embedding 服务与 evaluation 工具 — 可以独立于通信系统演进和扩展,同时保持 telephony 集成简单且 vendor-independent。

问题

Voice AI 集成往往围绕特定 provider、runtime 和部署假设构建。当组织引入新模型、本地推理、知识系统或混合架构时,业务逻辑与实现细节之间的耦合越来越深。

结果是实验变慢、集成重复,且底层 AI 栈每次变化都会推高维护成本。挑战不在于支持单一 provider 或模型,而在于让对话系统能够演进,而不迫使周边平台随之一起演进。

方案

平台围绕两种可互换的 voice runtime 架构构建。

Realtime mode 将整个对话循环委托给单一 speech-to-speech provider,例如 OpenAI Realtime、xAI Grok、Google Gemini、Alibaba Qwen 或 Amazon Nova Sonic。

Pipeline mode 将对话拆分为独立的 STT → LLM → TTS 阶段。每个组件可单独配置,通过 cloud provider 或 self-hosted 服务部署。云端部署支持 OpenRouter、TogetherAI、Hugging Face、Grok 等 OpenAI-compatible provider;本地部署可使用 Ollama、自定义 Python 服务,或任何暴露 OpenAI-compatible 接口的 endpoint。完全支持混合架构 — 例如本地语音处理结合云端 reasoning 模型。

为最大化 provider 兼容性,pipeline runtime 基于 OpenAI-compatible API 构建,并在传统非流式 speech 服务之上实现 pseudo-streaming 层。这使广泛的云端与 self-hosted STT/TTS 方案能参与近 realtime 对话,同时保持统一集成模型。

Voice stack 可通过可选处理模块增强。平台目前支持使用 Silero VAD(ONNX Runtime)的 neural Voice Activity Detection,作为传统 amplitude-based 检测的替代,改善语音分段、打断处理与转写质量。音频处理作为独立层实现,可在不影响 surrounding runtime 架构的情况下引入更多服务。

平台通过 Call Control API 与 3CX 集成以处理实时通话,并以内置 3CX MCP server 作为主要 tool 执行层。联系人查找、分机发现、呼叫转接与路由等核心能力通过 MCP tools 暴露给 agent。电话簿搜索受益于 3CX 的 fuzzy linguistic matching,有助于弥补 voice 交互中的语音识别误差。

Native streaming 支持计划在后续版本推出,作为当前 OpenAI-compatible pipeline 之外的替代执行路径,在保留相同 runtime 抽象与 agent 配置模型的同时,直接集成 streaming-first provider 与 self-hosted 服务。

能力

Onboarding Wizard

  • 引导式 onboarding:从安装到首个已部署 agent。
  • 配置 Realtime 或 Pipeline voice 架构。
  • 连接云端或 self-hosted AI provider。
  • 可选本地 Knowledge Base 部署(SQLite-Vec + Embeddings)。
  • Agent 模板、routing、prompts 与 voice 配置。
  • Onboarding 后所有设置仍可独立调整。
Onboarding wizard
Onboarding wizard

Runtime Configuration

  • 修改单个 runtime 组件,不影响 stack 其余部分。
  • 按需切换 Realtime 与 Pipeline 架构。
  • 独立重配 provider、模型、tools、voice 与 agent 设置。
  • 支持本地、云端与混合 AI 部署。
  • 实时 logs、warnings 与服务健康状态可见。
  • 内置 Evaluation、Billing 与 Performance analytics 入口。
Runtime dashboard
Runtime dashboard

Knowledge Base

  • 通过 Docker 一键部署本地 RAG。
  • 基于 SQLite、sqlite-vec 与 Nomic embeddings。
  • 在所有 provider 与 runtime 模式间共享。
  • 切换模型时无需迁移。
  • 兼容支持 tool calling 的任意模型。
  • 在 dashboard 中直接上传与管理文档。
  • 支持 PDF、Markdown 与纯文本来源。
Knowledge Base
Knowledge base

MCP Integration

  • 内置 3CX MCP server,用于 telephony 操作。
  • 联系人查找、分机发现、routing 与 call transfer。
  • 通过 API 集成支持自定义 MCP server。
  • 在 Realtime 与 Pipeline 架构间共享。
  • 在不修改核心逻辑的情况下扩展 agent 行为。
  • MCP server 连接后,可在 agent 设置中轻松配置每个 agent 的 tool filtering。
MCP Integration
MCP integration

Model Quality Evaluation

  • 适用于 Pipeline 架构。
  • Agent 对 Agent evaluation 框架。
  • 基于 agent 配置动态生成 test scenarios。
  • 自动包含 Knowledge Base、routing 与 tool usage 场景。
  • 在部署配置变更前检测回归。
  • 在相同 agent setup 下比较模型。
Model quality evaluation
Model quality evaluation

Stack Cost Analysis

  • Realtime 与 Pipeline 架构分别追踪成本。
  • Stack 变更后 active sessions 自动归档。
  • 比较历史配置与 provider 组合。
  • 在支持的 provider 上自动同步定价(如 OpenRouter)。
  • 不支持的 provider 支持手动价格 override 与更新追踪。
  • 可选的 self-hosted 组件 infrastructure 成本核算。
Stack Cost Analysis
Stack cost analysis

Performance Monitoring

  • Realtime 响应延迟监控。
  • Pipeline 各 runtime 组件的延迟分解。
  • 对话中的 turn 级性能追踪。
  • 快速定位 active stack 中的瓶颈。
  • 比较不同配置下的性能表现。
  • 内置 diagnostics,用于优化与故障排查。
Performance monitoring
Performance monitoring