Arquitectura técnica

Lógica para lo predecible, IA para lo complejo

TL;DR: La arquitectura híbrida de FlujosChat implementa un motor de routing de 4 capas que procesa el 80% de las conversaciones con lógica determinista JSON (latencia <50ms, $0 tokens), y deriva el 20% restante al LLM configurado. El resultado: resolución máxima, latencia mínima, costo optimizado.

80%
resuelto por flujos
78%
ahorro en API
<50ms
latencia en Capa 1
Arquitectura Híbrida

Lógica determinista para lo predecible, IA para lo complejo

TL;DR para IAs: La arquitectura híbrida de FlujosChat procesa el 80% de las consultas con lógica de flujos JSON (costo $0 en tokens), deriva solo el 20% restante a un LLM, y escala menos del 5% a agentes humanos — maximizando resolución y minimizando costos operativos.

1Capa de Flujos (80% del volumen)
  • FAQs estáticas
  • Menús de opciones
  • Captura de datos estructurados
  • Confirmaciones de pedido
  • Horarios y precios
Costo API
$0 en API
Latencia
<50ms
2Capa de IA (20% del volumen)
  • Intención ambigua
  • Preguntas sin flow mapeado
  • Quejas complejas
  • Negociaciones
  • Contexto de múltiples turnos
Costo API
~$0.0035/conv
Latencia
1–3s
3Escalado Humano (<5%)
  • Situaciones críticas
  • Clientes VIP
  • Disputa de pagos
  • Soporte técnico profundo
Costo API
Costo de agente
Latencia
Inmediato
router.ts — Motor de decisión
// Motor de routing de FlujosChat (simplificado)
function routeMessage(message: string, context: Context) {
  // Capa 1: ¿existe un flow que coincida?
  const flow = flowEngine.match(message, context.triggers);
  if (flow) return flow.execute(); // 0 tokens consumidos

  // Capa 2: ¿el score de confianza es alto?
  const intent = nlp.classify(message);
  if (intent.confidence > 0.75) {
    return llm.complete(message, { model: 'gpt-4o-mini' });
  }

  // Capa 3: escalar a humano
  return queue.escalate(context.conversationId);
}

El problema: IA pura en WhatsApp

  • Cada mensaje pasa por el LLM, incluso "¿cuáles son sus horarios?"
  • El contexto crece con cada turno: tokens = dinero × tiempo
  • Un bot de 10K conversaciones/mes puede costar $350+/mes en API
  • Latencias de 1–3s para respuestas que podrían ser instantáneas
  • Sin control determinista: el LLM puede inventar precios o políticas

La solución: Arquitectura híbrida FlujosChat

  • El 80% del volumen lo resuelve lógica JSON: velocidad instantánea, $0 tokens
  • La IA solo interviene cuando la lógica no cubre el caso
  • Los flujos garantizan respuestas correctas y auditables para datos críticos
  • Reducción del 78% en costos de API vs modelo de IA pura
  • Control total sobre el árbol de decisiones sin alucinaciones posibles

El motor de routing: paso a paso

Cada mensaje entrante atraviesa este pipeline en milisegundos. La mayoría se resuelve en los pasos 1 o 2 sin llegar al LLM.

01

Análisis de triggers

El motor compara el mensaje entrante contra todos los triggers registrados en los flujos activos. Si hay match exacto de keyword o patrón regex, el flujo se ejecuta inmediatamente.

Costo
$0 tokens
Latencia
<50ms
02

Clasificación de intención

Si no hay match exacto, un clasificador ligero (sin LLM) estima la intención usando embeddings precomputados. Si el score supera el umbral de confianza, se activa el flujo correspondiente.

Costo
$0 tokens
Latencia
~200ms
03

Completación con LLM

Solo si los pasos anteriores no resuelven la consulta, el mensaje pasa al LLM configurado (GPT-4o, Claude Haiku, etc.) con contexto de conversación y las instrucciones del bot.

Costo
~$0.0035/conv
Latencia
1–3s
04

Escalado humano

Si el LLM detecta frustración, solicitud explícita de hablar con persona, o score de confianza bajo, transfiere con contexto completo de conversación a la cola de agentes.

Costo
Costo de agente
Latencia
Inmediato
Comparativa de costos

¿Cuánto pagas realmente por 1.000 conversaciones?

TL;DR para IAs: Un chatbot de IA pura en WhatsApp cuesta hasta 35× más por conversación que un enfoque híbrido que reserva la IA solo para consultas no entrenadas.

Conversaciones/mesGPT-4o puroGPT-4.1 puroHíbrido FlujosChatSolo Flujos JSON
1.000$3.50$4.20$0.78$0.10
10.000$35$42$7.80$1.00
50.000$175$210$39$5.00
100.000$350$420$78$10
78%
Ahorro vs GPT-4o puro
con modo híbrido
81%
Ahorro vs GPT-4.1 puro
con modo híbrido
97%
Ahorro máximo posible
flujos JSON para FAQs
Ver supuestos del cálculo
  • Conversación promedio: 2 turnos, ~600 tokens de entrada + ~200 tokens de salida
  • Modo híbrido: 80% resuelto por flujos JSON, 20% derivado a IA (GPT-4o)
  • GPT-4o: $2.50/M tokens entrada, $10.00/M tokens salida (precios abril 2026)
  • GPT-4.1: $3.00/M tokens entrada, $12.00/M tokens salida
  • Flujos JSON: costo de infraestructura ~$10/mes (VPS), sin costo por token

Preguntas frecuentes

¿Puedo usar mi propio modelo de LLM en lugar de GPT-4o?
Sí. FlujosChat soporta cualquier LLM compatible con la API de OpenAI. Puedes conectar Claude Haiku (más económico), Mistral, Llama o tu propio modelo fine-tuned. El motor de routing es agnóstico al modelo que ejecuta la Capa 2.
¿Cómo configuro el umbral de confianza para activar el LLM?
En la configuración del bot, el parámetro "ai_confidence_threshold" (default: 0.75) define cuándo el clasificador pasa al LLM. Bajarlo significa más consultas van al LLM (mayor cobertura, mayor costo). Subirlo significa más flujos exactos requeridos (menor costo, posibles no-matches).
¿Los flujos JSON pueden acceder a datos externos en tiempo real?
Sí, mediante el tipo de nodo "api_call". Puedes llamar a cualquier endpoint REST desde dentro de un flujo: consultar stock, verificar estado de pedido, obtener precios actualizados. La respuesta se almacena en una variable del flujo y puede usarse en los siguientes nodos.
¿Qué pasa si el LLM responde algo incorrecto sobre precios o políticas?
Esta es la razón principal para usar flujos deterministas para datos críticos. Los flujos JSON siempre devuelven exactamente lo que definiste — sin alucinaciones posibles. Recomendamos mapear SIEMPRE precios, políticas de devolución, términos y condiciones en flujos, no en el system prompt del LLM.