Une appliance d’IA vocale souveraine — intégrée sur mesure, on-prem — embarque toute la plateforme d’IA vocale : le même modèle, le même pipeline, les mêmes APIs sur Auricus Voice 8 / 16 / 32.

Deux chemins, une pile

  • En direct et quasi temps réel — streaming par fenêtres pour centres de contact, supervision et flux conformité. ~48–64 flux concurrents quasi temps réel par appliance Auricus Voice 32 avant que les limites de file ne dominent.
  • Par lots à l’échelle~100 fichiers/min soutenus sur Auricus Voice 32 ; de bout en bout (ingestion, ID langue, livraison) ~240–300 fichiers/heure avec surcharge typique.

Le même pipeline dessert les deux — pas de SKUs « temps réel » et « batch » séparés, pas de seconde intégration à construire.

Observabilité qualité

  • Tableaux de bord WER par langue — suivi séparé 16 kHz vs 8 kHz pour que la qualité bande téléphone ne soit jamais masquée par des moyennes bande large.
  • Banc d’évaluation continu — la même suite que pour les pilotes clients et les régressions internes.
  • Benchmarks partagés clients — les chiffres publiés seront ajoutés ici après la prochaine série de références multilingues.

Couverture linguistique

  • ~99 langues de transcription.
  • 107 classes d’ID de langue automatique (93,3 % de précision sur le corpus de référence).
  • Déploiements multilingues avec priors par langue et défauts régionaux.
  • Détection LID en sous-seconde sur le chemin principal ; repli CPU disponible.

Intégration

  • REST + JSON sur HTTPS.
  • Authentification bearer-token.
  • Modèle de travailleurs asynchrone — soumettez un job, puis sondez ou recevez un webhook.
  • Événements webhook : transcript · wer.
  • HTTP 429 avec Retry-After pour limites par job et par profondeur de file.
  • Retries webhook avec dead-letter pour échecs terminaux.

→ Fiche technique publique : Spécifications.

Observabilité

Auricus Voice livre la surface opérationnelle d’une plateforme moderne — pas une boîte noire.

  • Point de terminaison métriques Prometheus au format standard. Durées d’étape, utilisation des dispositifs, profondeur de file, jobs en vol, jobs par langue, ratio WER, compteurs de détection de langue, métriques canary.
  • Tableaux de bord Grafana : vue système, performance pipeline (P50/P95/P99), qualité, santé dispositif, files, SLO, analytique langue.
  • Journaux d’audit structurés — chaque soumission, complétion et échec avec ID de requête pour SIEM.

Objectifs de niveau de service

SLO Cible
Disponibilité 99,9 % (ratio complétés/tous événements sur 1 h) ; ~43,2 min d’indisponibilité / budget 30 jours
Latence 95 % des étapes pipeline en ≤ 10 s (fenêtre glissante 1 h)

Durabilité

  • Auricus Voice 32 à pleine charge : ~600 W typiques — contre des baies GPU comparables en kilowatts.
  • Châssis intégré sur mesure remplace des baies multi-serveurs GPU, réduisant matériaux, refroidissement et déchets en fin de vie.
  • Reprise en fin de vie sous cadre EPR — logistique retour gérée par le fournisseur ; pas de responsabilité client WEEE en aval.

Comparaison SKU

SKU Concurrent live calls Matched annual audio (M min/yr) Batch (files/min) End-to-end (files/hr) Peak accelerator power Target use case
Auricus Voice 8 12 2 25 60–75 80 W Mid-size contact center, departmental fleet
Auricus Voice 16 24 4 50 120–150 160 W Large enterprise contact center, regional carrier
Auricus Voice 32 48 8 100 240–300 320 W National contact center, telco / government scale

Concurrent live calls = sustained concurrent near-real-time conversations per appliance. Matched annual audio = realistic operational capacity per appliance under a typical mixed real-time + batch duty cycle. Batch (files/min) = sustained transcription throughput per appliance. files/hr (E2E) = end-to-end including ingest, language ID, decode, and delivery overhead. Peak accelerator power scales linearly across the family; add ~120 W chassis baseline for total appliance draw.

→ Voir la comparaison d’économies vs STT cloud à charge équivalente.