KK
Screenshot
Control plane overview

Projects

Voice Agent

Orchestrator

Individual ProjectPrototype

Stack

  • Node.js
  • TypeScript
  • Angular
  • Voice AI
  • AI Runtime
  • Voice Streaming
  • Realtime & Pipeline
  • MCP
  • 3CX Call Control
  • RAG
  • SQLite-Vec
  • ONNX Runtime
  • Docker

Overview

Voice Agent Orchestrator は telephony 向け AI voice agent の構築・評価・運用のための standalone on-premises プラットフォーム。realtime speech-to-speech モデル、モジュラー STT→LLM→TTS pipeline、ナレッジ検索、ローカルとクラウドの任意の組み合わせによる AI 駆動のコール自動化に対応。

プラットフォームは PBX から意図的に分離され、独立 runtime としてデプロイされる。ローカルモデル、ベクトル DB、embedding サービス、evaluation ツールなどの AI インフラを通信システムとは別に進化・スケールさせつつ、telephony 連携をシンプルかつ vendor-independent に保てる。

Problem

Voice AI 連携は特定のプロバイダー、runtime、デプロイ前提を中心に構築されることが多い。組織が新しいモデル、ローカル推論、ナレッジシステム、ハイブリッドアーキテクチャを導入するにつれ、ビジネスロジックは実装詳細との結合が深まる。

その結果、実験は遅くなり、連携が重複し、基盤 AI スタックが変わるたびにメンテナンスコストが増える。課題は単一プロバイダーやモデルを支えることではなく、周辺プラットフォームまで巻き込まずに会話システムを進化させることにある。

Approach

プラットフォームは 2 つの interchangeable voice runtime アーキテクチャを中心に構築されている。

Realtime mode は会話ループ全体を OpenAI Realtime、xAI Grok、Google Gemini、Alibaba Qwen、Amazon Nova Sonic などの単一 speech-to-speech プロバイダーに委譲する。

Pipeline mode は会話を独立した STT → LLM → TTS 段階に分解する。各コンポーネントは個別に設定でき、クラウドプロバイダーまたは self-hosted サービスでデプロイできる。クラウドでは OpenRouter、TogetherAI、Hugging Face、Grok など OpenAI-compatible プロバイダーに対応。ローカルでは Ollama、カスタム Python サービス、OpenAI-compatible インターフェースを公開する任意の endpoint が使える。ハイブリッド構成も完全サポート — 例: ローカル音声処理とクラウド reasoning モデルの組み合わせ。

プロバイダー互換性を最大化するため、pipeline runtime は OpenAI-compatible API を基盤とし、従来の非ストリーミング speech サービス上に pseudo-streaming 層を実装している。これにより幅広いクラウド/self-hosted STT/TTS が near real-time 会話に参加でき、統一された統合モデルを維持できる。

Voice stack はオプション処理モジュールで拡張できる。現在、Silero VAD(ONNX Runtime)による neural Voice Activity Detection をサポートし、従来の amplitude-based 検出の代替として音声セグメンテーション、割り込み処理、転写品質を改善。音声処理は独立レイヤーとして実装されているため、周辺 runtime アーキテクチャに影響せず追加サービスを導入できる。

プラットフォームは Call Control API 経由で 3CX と統合しリアルタイム通話を処理。内蔵 3CX MCP server を主要な tool 実行レイヤーとする。連絡先検索、内線発見、通話転送、ルーティングなどの中核機能を MCP tools 経由で agent に公開。電話帳検索は 3CX の fuzzy linguistic matching を活用し、voice インタラクションでの音声認識誤差を補完する。

Native streaming サポートは将来リリースで、現行 OpenAI-compatible pipeline に並ぶ代替実行パスとして計画。streaming-first プロバイダーと self-hosted サービスへの直接統合を可能にしつつ、同じ runtime 抽象と agent 設定モデルを維持する。

Capabilities

Onboarding Wizard

  • インストールから最初のデプロイ済み agent までガイド付き onboarding。
  • Realtime または Pipeline voice アーキテクチャを設定。
  • クラウドまたは self-hosted AI プロバイダーに接続。
  • オプションのローカル Knowledge Base デプロイ(SQLite-Vec + Embeddings)。
  • Agent テンプレート、routing、prompts、voice 設定。
  • Onboarding 後もすべての設定を個別に変更可能。
Onboarding wizard
Onboarding wizard

Runtime Configuration

  • スタックの他部分に影響せず個別 runtime コンポーネントを変更。
  • 必要に応じて Realtime と Pipeline アーキテクチャを切り替え。
  • プロバイダー、モデル、tools、voice、agent 設定を独立して再構成。
  • ローカル、クラウド、ハイブリッド AI デプロイに対応。
  • ライブ logs、warnings、サービス健全性の可視化。
  • Evaluation、Billing、Performance analytics への組み込みアクセス。
Runtime dashboard
Runtime dashboard

Knowledge Base

  • Docker 経由でワンクリックのローカル RAG デプロイ。
  • SQLite、sqlite-vec、Nomic embeddings を基盤に構築。
  • すべての provider と runtime モードで共有。
  • モデル切り替え時に移行は不要。
  • tool calling に対応する任意のモデルと互換。
  • ダッシュボードから直接ドキュメントをアップロード・管理。
  • PDF、Markdown、プレーンテキストソースに対応。
Knowledge Base
Knowledge base

MCP Integration

  • telephony 操作用の内蔵 3CX MCP server。
  • 連絡先検索、内線発見、routing、call transfer。
  • API ベース連携によるカスタム MCP server サポート。
  • Realtime と Pipeline アーキテクチャ間で共有。
  • コアロジックを変更せず agent 動作を容易に拡張。
  • MCP server 接続後、agent 設定で agent ごとの tool filtering を簡単に構成可能。
MCP Integration
MCP integration

Model Quality Evaluation

  • Pipeline アーキテクチャ向けに利用可能。
  • Agent 対 Agent evaluation フレームワーク。
  • agent 設定に基づく動的 test scenarios。
  • Knowledge Base、routing、tool usage シナリオを自動で含む。
  • 設定変更をデプロイする前にリグレッションを検出。
  • 同一 agent setup 下でモデルを比較。
Model quality evaluation
Model quality evaluation

Stack Cost Analysis

  • Realtime と Pipeline アーキテクチャのコストを個別追跡。
  • stack 変更後、active sessions を自動アーカイブ。
  • 過去の構成と provider 組み合わせを比較。
  • 対応プロバイダーで価格を自動同期(例: OpenRouter)。
  • 非対応プロバイダー向けに手動価格 override と更新追跡。
  • self-hosted コンポーネント向けのオプション infrastructure コスト計上。
Stack Cost Analysis
Stack cost analysis

Performance Monitoring

  • Realtime 応答レイテンシの監視。
  • runtime コンポーネント横断の Pipeline レイテンシ分解。
  • 会話中の turn 単位パフォーマンス追跡。
  • active stack 内のボトルネックを素早く特定。
  • 異なる構成間のパフォーマンス比較。
  • 最適化とトラブルシューティング向けの組み込み diagnostics。
Performance monitoring
Performance monitoring