Orchestrator

独立项目Prototype

技术栈

Node.js
TypeScript
Angular
Voice AI
AI Runtime
Voice Streaming
Realtime & Pipeline
MCP
3CX Call Control
RAG
SQLite-Vec
ONNX Runtime
Docker

概览

Voice Agent Orchestrator 是独立的 on-premises 平台，用于构建、评估和运行 telephony 场景的 AI voice agent。支持 realtime speech-to-speech 模型、模块化 STT→LLM→TTS pipeline、知识检索，以及基于本地与云端任意组合的 AI 驱动呼叫自动化。

平台有意与 PBX 解耦，作为独立 runtime 部署。这使 AI 基础设施 — 包括本地模型、向量数据库、embedding 服务与 evaluation 工具 — 可以独立于通信系统演进和扩展，同时保持 telephony 集成简单且 vendor-independent。

问题

Voice AI 集成往往围绕特定 provider、runtime 和部署假设构建。当组织引入新模型、本地推理、知识系统或混合架构时，业务逻辑与实现细节之间的耦合越来越深。

结果是实验变慢、集成重复，且底层 AI 栈每次变化都会推高维护成本。挑战不在于支持单一 provider 或模型，而在于让对话系统能够演进，而不迫使周边平台随之一起演进。

方案

平台围绕两种可互换的 voice runtime 架构构建。

Realtime mode 将整个对话循环委托给单一 speech-to-speech provider，例如 OpenAI Realtime、xAI Grok、Google Gemini、Alibaba Qwen 或 Amazon Nova Sonic。

Pipeline mode 将对话拆分为独立的 STT → LLM → TTS 阶段。每个组件可单独配置，通过 cloud provider 或 self-hosted 服务部署。云端部署支持 OpenRouter、TogetherAI、Hugging Face、Grok 等 OpenAI-compatible provider；本地部署可使用 Ollama、自定义 Python 服务，或任何暴露 OpenAI-compatible 接口的 endpoint。完全支持混合架构 — 例如本地语音处理结合云端 reasoning 模型。

为最大化 provider 兼容性，pipeline runtime 基于 OpenAI-compatible API 构建，并在传统非流式 speech 服务之上实现 pseudo-streaming 层。这使广泛的云端与 self-hosted STT/TTS 方案能参与近 realtime 对话，同时保持统一集成模型。

Voice stack 可通过可选处理模块增强。平台目前支持使用 Silero VAD（ONNX Runtime）的 neural Voice Activity Detection，作为传统 amplitude-based 检测的替代，改善语音分段、打断处理与转写质量。音频处理作为独立层实现，可在不影响 surrounding runtime 架构的情况下引入更多服务。

平台通过 Call Control API 与 3CX 集成以处理实时通话，并以内置 3CX MCP server 作为主要 tool 执行层。联系人查找、分机发现、呼叫转接与路由等核心能力通过 MCP tools 暴露给 agent。电话簿搜索受益于 3CX 的 fuzzy linguistic matching，有助于弥补 voice 交互中的语音识别误差。

Native streaming 支持计划在后续版本推出，作为当前 OpenAI-compatible pipeline 之外的替代执行路径，在保留相同 runtime 抽象与 agent 配置模型的同时，直接集成 streaming-first provider 与 self-hosted 服务。