Una appliance de IA de voz soberana — integrada de propósito específico, on-prem — incluye toda la plataforma de IA de voz: el mismo modelo, la misma canalización y las mismas APIs en Auricus Voice 8 / 16 / 32.

Dos rutas, una pila

  • En vivo y casi en tiempo real — streaming por ventanas para centros de contacto, supervisión y flujos de cumplimiento. ~48–64 flujos concurrentes casi en tiempo real por appliance Auricus Voice 32 antes de que dominen los límites de cola.
  • Por lotes a escala~100 archivos/min sostenidos en Auricus Voice 32; de extremo a extremo (ingesta, ID de idioma, entrega) ~240–300 archivos/hora con sobrecarga típica.

La misma canalización sirve a ambos — no hay SKUs separados de «tiempo real» y «lote», no hay una segunda integración que construir.

Observabilidad de calidad

  • Paneles WER por idioma — seguimiento separado para 16 kHz frente a 8 kHz para que la calidad de banda telefónica no quede oculta tras promedios de banda ancha.
  • Arnés de evaluación continua — la misma batería usada para pilotos de clientes y regresiones internas, de modo que las cifras que compartimos son directamente comparables con las que ejecutamos internamente.
  • Referencias compartidas con clientes — las cifras de calidad publicadas se añadirán aquí al completar la siguiente ronda de ejecuciones multilingües.

Alcance lingüístico

  • ~99 idiomas de transcripción.
  • 107 clases de ID de idioma automático (93,3 % de exactitud en el benchmark).
  • Despliegues multilingües con priores por idioma y valores regionales por defecto.
  • La detección LID corre en la banda de subsegundo en la ruta principal; hay reserva en CPU para resiliencia.

Integración

  • Ingesta REST + JSON sobre HTTPS.
  • Autenticación bearer-token.
  • Modelo de trabajadores asíncrono — envíe un trabajo y luego sondee o reciba un callback webhook con el resultado.
  • Eventos webhook: transcript (transcripción en bruto) · wer (corregida + bruta + WER medida cuando se proporciona verdad de referencia).
  • HTTP 429 con semántica Retry-After para límites por trabajo y por profundidad de cola.
  • Reintentos de webhook con gestión de dead-letter para fallos terminales.

→ Ficha técnica pública: Especificaciones.

Observabilidad

Auricus Voice incluye la superficie operativa de una plataforma moderna — no una appliance de caja negra.

  • Punto final de métricas Prometheus en formato de exposición estándar. Duraciones por etapa, utilización de dispositivos, profundidad de cola, trabajos en vuelo, trabajos por idioma, ratio WER, contadores de detección de idioma, métricas canary.
  • Paneles Grafana: visión del sistema, rendimiento de canalización (P50 / P95 / P99 + desglose por etapa), calidad (tendencias WER + por idioma), salud del dispositivo (temperatura, potencia, utilización, errores), gestión de colas, seguimiento de SLO, analítica de idioma.
  • Registros de auditoría estructurados — cada envío, finalización y fallo de trabajo con ID de solicitud para ingesta SIEM.

Objetivos de nivel de servicio

SLO Objetivo
Disponibilidad 99,9 % (ratio de completados frente a todos los eventos en 1 h); ~43,2 min de inactividad / presupuesto de 30 días
Latencia 95 % de las etapas de canalización completas en ≤ 10 s (ventana móvil de 1 h)

Sostenibilidad

  • Auricus Voice 32 a plena carga: ~600 W típicos — frente a bastidores con GPU comparables medidos en kilovatios.
  • Chasis integrado de propósito específico sustituye bastidores multi-servidor con GPU, reduciendo materiales incorporados, carga de refrigeración y residuos al fin de vida.
  • Retorno al fin de vida bajo el marco EPR — logística de devolución gestionada por el proveedor para appliances retirados; sin responsabilidad del cliente por el tratamiento WEEE posterior.

Comparación de SKU

SKU Concurrent live calls Matched annual audio (M min/yr) Batch (files/min) End-to-end (files/hr) Peak accelerator power Target use case
Auricus Voice 8 12 2 25 60–75 80 W Mid-size contact center, departmental fleet
Auricus Voice 16 24 4 50 120–150 160 W Large enterprise contact center, regional carrier
Auricus Voice 32 48 8 100 240–300 320 W National contact center, telco / government scale

Concurrent live calls = sustained concurrent near-real-time conversations per appliance. Matched annual audio = realistic operational capacity per appliance under a typical mixed real-time + batch duty cycle. Batch (files/min) = sustained transcription throughput per appliance. files/hr (E2E) = end-to-end including ingest, language ID, decode, and delivery overhead. Peak accelerator power scales linearly across the family; add ~120 W chassis baseline for total appliance draw.

→ Véase la comparación de ahorro frente a STT en la nube para la carga equivalente.