Conceptos básicos de CoT y RAG para agentes de voz

Por dbracho, 13 Mayo, 2026

Esta guía resume los conceptos esenciales de COT (Chain of Thought) y RAG (Retrieval-Augmented Generation) para construir agentes conversacionales más naturales, precisos y listos para producción.

20. ¿Qué es un COT (Chain of Thought)?

El COT es el conjunto principal de instrucciones que define cómo debe comportarse el agente. No es simplemente un script, sino una guía de razonamiento que controla la personalidad, tono, flujo conversacional, manejo de errores, silencios, herramientas y reglas críticas del sistema.

¿Qué controla el COT?

Personalidad del agente.
Tono y estilo de conversación.
Flujo de la llamada.
Manejo de interrupciones.
Reglas de seguridad.
Uso de herramientas.
Manejo de silencios y IVR.
Reglas anti-alucinación.

¿Por qué es importante el COT?

Sin un COT sólido, el modelo puede responder de manera inconsistente, improvisar información, sonar robótico o romper el flujo de conversación. El COT proporciona estructura y consistencia al comportamiento del agente.

Buenas prácticas para COT

Escribir instrucciones claras y directas.
Usar inglés para las instrucciones principales.
Mantener el prompt compacto y organizado.
Incluir ejemplos explícitos.
Definir HARD POLICIES.
Especificar cuándo usar herramientas.

21. ¿Qué es un RAG ?

El RAG permite que el modelo consulte información externa de forma dinámica. En lugar de colocar toda la información del negocio dentro del prompt, el sistema recupera únicamente los datos relevantes para responder.

¿Qué información va en RAG?

FAQs.
Políticas.
Horarios.
Catálogos.
Precios.
Datos de reservas.
Documentación técnica.
Información de sucursales.

¿Por qué es importante el RAG?

El RAG reduce alucinaciones y permite mantener información actualizada sin modificar constantemente el COT. También mejora escalabilidad y facilita separar comportamiento de conocimiento.

Buenas prácticas para RAG

Un tema por bloque.
Títulos claros.
Lenguaje natural.
Evitar información duplicada.
Mantener los datos actualizados.
Dividir información extensa en múltiples archivos.

22. ¿Por qué se utiliza JSON?

JSON es el formato estándar más utilizado para intercambiar información entre APIs, herramientas, modelos y sistemas backend. Permite representar datos estructurados de forma clara y compatible con prácticamente cualquier lenguaje.

¿Dónde se usa JSON?

Tool calling.
APIs.
Estados internos.
Metadata.
Logs.
Configuración de agentes.
Resultados de funciones.

Ventajas de JSON

Fácil de leer para humanos.
Fácil de procesar para máquinas.
Reduce ambigüedad.
Facilita integraciones.
Organiza información compleja.

Arquitectura recomendada

COT = comportamiento y razonamiento.

RAG = conocimiento externo.

JSON = intercambio de datos estructurados.

La combinación de estos componentes permite construir agentes más robustos, naturales y escalables.

Idioma recomendado: Las instrucciones principales del sistema y del COT deben escribirse en inglés, ya que los modelos suelen interpretar mejor las reglas y restricciones en este idioma. Los ejemplos conversacionales pueden escribirse en español para lograr respuestas más naturales y realistas.

Translation

Basic concepts of CoT and RAG for voice agents