Eine souveräne Sprach-KI-Appliance — zweckgebaut, on-prem — liefert die gesamte Sprach-KI-Plattform: dasselbe Modell, dieselbe Pipeline, dieselben APIs über Auricus Voice 8 / 16 / 32.

Zwei Pfade, ein Stack

  • Live und nahezu Echtzeit — Fenster-Streaming für Contact Center, Supervision und Compliance. ~48–64 nahezu gleichzeitige Streams pro Auricus Voice 32, bevor Warteschlangenlimits dominieren.
  • Batch in großem Umfang~100 Dateien/min auf Auricus Voice 32; End-to-End ~240–300 Dateien/Stunde bei typischer Overhead.

Dieselbe Pipeline bedient beides — keine getrennten „Echtzeit“- und „Batch“-SKUs, keine zweite Integration.

Qualitätsobservability

  • WER-Dashboards pro Sprache — getrennte Verfolgung 16 kHz vs. 8 kHz.
  • Kontinuierliches Evaluierungsharness — dieselbe Suite für Kundenpiloten und interne Regression.
  • Kundenteilbare Benchmarks — veröffentlichte Qualitätszahlen folgen nach der nächsten mehrsprachigen Referenzrunde.

Sprachreichweite

  • ~99 Transkriptionssprachen.
  • 107 Klassen für automatische Sprach-ID (93,3 % Benchmark-Genauigkeit).
  • Gemischtsprachige Deployments mit Priors und regionalen Defaults.
  • LID im Sub-Sekunden-Band auf dem Primärpfad; CPU-Fallback verfügbar.

Integration

  • REST + JSON über HTTPS.
  • Bearer-Token-Authentifizierung.
  • Async-Worker-Modell — Job einreichen, dann Poll oder Webhook-Callback.
  • Webhook-Events: transcript · wer.
  • HTTP 429 mit Retry-After für Job- und Warteschlangentiefe.
  • Webhook-Retries mit Dead-Letter bei terminalen Fehlern.

→ Öffentliches Datenblatt: Spezifikationen.

Observability

Auricus Voice liefert die operative Fläche einer modernen Plattform — keine Black-Box-Appliance.

  • Prometheus-Metrik-Endpunkt im Standard-Expositionsformat. Stufendauern, Geräteauslastung, Warteschlangentiefe, Jobs in Flug, Jobs pro Sprache, WER-Verhältnis, Spracherkennungszähler, Canary-Metriken.
  • Grafana-Dashboards: Systemüberblick, Pipeline-Performance (P50/P95/P99), Qualität, Gerätegesundheit, Warteschlangenmanagement, SLO, Sprachanalytik.
  • Strukturierte Audit-Logs — jede Job-Einreichung, -Fertigstellung und -Fehler mit Request-ID für SIEM.

Service-Level-Ziele

SLO Ziel
Verfügbarkeit 99,9 % (1-Stunden-Verhältnis abgeschlossen zu allen Ereignissen); ~43,2 min Ausfall / 30-Tage-Budget
Latenz 95 % der Pipeline-Stufen in ≤ 10 s (rollierend 1 h)

Nachhaltigkeit

  • Auricus Voice 32 unter Volllast: typisch ~600 W — gegen vergleichbare GPU-Racks in Kilowatts.
  • Zweckgebautes Chassis ersetzt Multi-Server-GPU-Racks; weniger eingebettete Materialien, Kühlung, E-Waste.
  • Rücknahme am Lebensende im EPR-Rahmen — vom Anbieter verwaltete Rücklogistik; keine Kundenpflicht für nachgelagertes WEEE.

SKU-Vergleich

SKU Concurrent live calls Matched annual audio (M min/yr) Batch (files/min) End-to-end (files/hr) Peak accelerator power Target use case
Auricus Voice 8 12 2 25 60–75 80 W Mid-size contact center, departmental fleet
Auricus Voice 16 24 4 50 120–150 160 W Large enterprise contact center, regional carrier
Auricus Voice 32 48 8 100 240–300 320 W National contact center, telco / government scale

Concurrent live calls = sustained concurrent near-real-time conversations per appliance. Matched annual audio = realistic operational capacity per appliance under a typical mixed real-time + batch duty cycle. Batch (files/min) = sustained transcription throughput per appliance. files/hr (E2E) = end-to-end including ingest, language ID, decode, and delivery overhead. Peak accelerator power scales linearly across the family; add ~120 W chassis baseline for total appliance draw.

→ Siehe Einsparungsvergleich vs. Cloud-STT bei gleicher Last.