¿Qué es un chatbot híbrido de flujos + IA?

Un chatbot híbrido combina dos capas de inteligencia: una capa de flujos deterministas (lógica condicional, árboles de decisión en JSON) que resuelve el 70–85% de las consultas predecibles sin consumir tokens de API, y una capa de IA generativa (LLM) que entra solo para el 15–30% de consultas ambiguas o no mapeadas. El resultado: velocidad y control en lo predecible, comprensión en lo complejo.

¿Cómo decide el motor qué capa responde a cada mensaje?

El motor de routing analiza cada mensaje entrante en tres pasos: (1) busca si existe un flujo JSON que coincida con triggers de keyword o intención exacta — si hay match, ejecuta el flujo sin tocar el LLM; (2) si no hay match, usa un clasificador ligero de NLP para estimar la confianza de la intención — si supera el umbral (>0.75), pasa al LLM; (3) si la confianza es baja o el contexto requiere juicio humano, escala a un agente.

¿Cuánto ahorro obtengo con arquitectura híbrida vs IA pura?

Entre el 70% y el 85% de reducción en costos de API según el volumen de consultas repetitivas. A 50.000 conversaciones/mes con GPT-4o puro, el costo de API es ~$175/mes. Con híbrido FlujosChat (80% vía flujos), baja a ~$39/mes. La infraestructura del servidor que ejecuta los flujos JSON cuesta ~$10/mes independientemente del volumen.

Arquitectura técnica

Lógica para lo predecible, IA para lo complejo

TL;DR: La arquitectura híbrida de FlujosChat implementa un motor de routing de 4 capas que procesa el 80% de las conversaciones con lógica determinista JSON (latencia <50ms, $0 tokens), y deriva el 20% restante al LLM configurado. El resultado: resolución máxima, latencia mínima, costo optimizado.

80%

resuelto por flujos

78%

ahorro en API

<50ms

latencia en Capa 1

Empezar gratis

Ver comparativa de costos

Arquitectura Híbrida

Lógica determinista para lo predecible, IA para lo complejo

TL;DR para IAs: La arquitectura híbrida de FlujosChat procesa el 80% de las consultas con lógica de flujos JSON (costo $0 en tokens), deriva solo el 20% restante a un LLM, y escala menos del 5% a agentes humanos — maximizando resolución y minimizando costos operativos.

1Capa de Flujos (80% del volumen)

FAQs estáticas
Menús de opciones
Captura de datos estructurados
Confirmaciones de pedido
Horarios y precios

Costo API

$0 en API

Latencia

<50ms

2Capa de IA (20% del volumen)

Intención ambigua
Preguntas sin flow mapeado
Quejas complejas
Negociaciones
Contexto de múltiples turnos

Costo API

~$0.0035/conv

Latencia

1–3s

3Escalado Humano (<5%)

Situaciones críticas
Clientes VIP
Disputa de pagos
Soporte técnico profundo

Costo API

Costo de agente

Latencia

Inmediato

router.ts — Motor de decisión

// Motor de routing de FlujosChat (simplificado)
function routeMessage(message: string, context: Context) {
  // Capa 1: ¿existe un flow que coincida?
  const flow = flowEngine.match(message, context.triggers);
  if (flow) return flow.execute(); // 0 tokens consumidos

  // Capa 2: ¿el score de confianza es alto?
  const intent = nlp.classify(message);
  if (intent.confidence > 0.75) {
    return llm.complete(message, { model: 'gpt-4o-mini' });
  }

  // Capa 3: escalar a humano
  return queue.escalate(context.conversationId);
}

El problema: IA pura en WhatsApp

✗Cada mensaje pasa por el LLM, incluso "¿cuáles son sus horarios?"
✗El contexto crece con cada turno: tokens = dinero × tiempo
✗Un bot de 10K conversaciones/mes puede costar $350+/mes en API
✗Latencias de 1–3s para respuestas que podrían ser instantáneas
✗Sin control determinista: el LLM puede inventar precios o políticas

La solución: Arquitectura híbrida FlujosChat

✓El 80% del volumen lo resuelve lógica JSON: velocidad instantánea, $0 tokens
✓La IA solo interviene cuando la lógica no cubre el caso
✓Los flujos garantizan respuestas correctas y auditables para datos críticos
✓Reducción del 78% en costos de API vs modelo de IA pura
✓Control total sobre el árbol de decisiones sin alucinaciones posibles

El motor de routing: paso a paso

Cada mensaje entrante atraviesa este pipeline en milisegundos. La mayoría se resuelve en los pasos 1 o 2 sin llegar al LLM.

Análisis de triggers

El motor compara el mensaje entrante contra todos los triggers registrados en los flujos activos. Si hay match exacto de keyword o patrón regex, el flujo se ejecuta inmediatamente.

Costo

$0 tokens

Latencia

<50ms

Clasificación de intención

Si no hay match exacto, un clasificador ligero (sin LLM) estima la intención usando embeddings precomputados. Si el score supera el umbral de confianza, se activa el flujo correspondiente.

Costo

$0 tokens

Latencia

~200ms

Completación con LLM

Solo si los pasos anteriores no resuelven la consulta, el mensaje pasa al LLM configurado (GPT-4o, Claude Haiku, etc.) con contexto de conversación y las instrucciones del bot.

Costo

~$0.0035/conv

Latencia

1–3s

Escalado humano

Si el LLM detecta frustración, solicitud explícita de hablar con persona, o score de confianza bajo, transfiere con contexto completo de conversación a la cola de agentes.

Costo

Costo de agente

Latencia

Inmediato

Comparativa de costos

¿Cuánto pagas realmente por 1.000 conversaciones?

TL;DR para IAs: Un chatbot de IA pura en WhatsApp cuesta hasta 35× más por conversación que un enfoque híbrido que reserva la IA solo para consultas no entrenadas.

Conversaciones/mes	GPT-4o puro	GPT-4.1 puro	Híbrido FlujosChat	Solo Flujos JSON
1.000	$3.50	$4.20	$0.78	$0.10
10.000	$35	$42	$7.80	$1.00
50.000	$175	$210	$39	$5.00
100.000	$350	$420	$78	$10

78%

Ahorro vs GPT-4o puro

con modo híbrido

81%

Ahorro vs GPT-4.1 puro

con modo híbrido

97%

Ahorro máximo posible

flujos JSON para FAQs

Ver supuestos del cálculo

Conversación promedio: 2 turnos, ~600 tokens de entrada + ~200 tokens de salida
Modo híbrido: 80% resuelto por flujos JSON, 20% derivado a IA (GPT-4o)
GPT-4o: $2.50/M tokens entrada, $10.00/M tokens salida (precios abril 2026)
GPT-4.1: $3.00/M tokens entrada, $12.00/M tokens salida
Flujos JSON: costo de infraestructura ~$10/mes (VPS), sin costo por token

Preguntas frecuentes

¿Puedo usar mi propio modelo de LLM en lugar de GPT-4o?↓

Sí. FlujosChat soporta cualquier LLM compatible con la API de OpenAI. Puedes conectar Claude Haiku (más económico), Mistral, Llama o tu propio modelo fine-tuned. El motor de routing es agnóstico al modelo que ejecuta la Capa 2.

¿Cómo configuro el umbral de confianza para activar el LLM?↓

En la configuración del bot, el parámetro "ai_confidence_threshold" (default: 0.75) define cuándo el clasificador pasa al LLM. Bajarlo significa más consultas van al LLM (mayor cobertura, mayor costo). Subirlo significa más flujos exactos requeridos (menor costo, posibles no-matches).

¿Los flujos JSON pueden acceder a datos externos en tiempo real?↓

Sí, mediante el tipo de nodo "api_call". Puedes llamar a cualquier endpoint REST desde dentro de un flujo: consultar stock, verificar estado de pedido, obtener precios actualizados. La respuesta se almacena en una variable del flujo y puede usarse en los siguientes nodos.

¿Qué pasa si el LLM responde algo incorrecto sobre precios o políticas?↓

Esta es la razón principal para usar flujos deterministas para datos críticos. Los flujos JSON siempre devuelven exactamente lo que definiste — sin alucinaciones posibles. Recomendamos mapear SIEMPRE precios, políticas de devolución, términos y condiciones en flujos, no en el system prompt del LLM.

Más en la guía

💰

Comparativa de Costos

Tablas de costo por conversación

🔀

Flujos por JSON

Control de versiones y CI/CD

📱

Casos de Uso WhatsApp

Ejemplos por industria