¿Cuánto cuesta realmente ejecutar agentes en producción? El TCO del que nadie habla

Tiempo estimado de lectura: 6 min

Su equipo acaba de desplegar un agente. La factura de la nube dice que gastó $0.02 por tarea en inferencia del modelo. Todos chocan las manos. Luego termina el primer mes y alguien pregunta cuánto costó realmente ejecutar ese agente, y nadie tiene una buena respuesta.

La inferencia del modelo es el 10-20% del verdadero costo total de propiedad. El resto es todo lo que lo rodea: la infraestructura que no presupuestó, los humanos revisando resultados que no planeó necesitar, el mantenimiento que no anticipó y los costos ocultos que nunca aparecen en una factura de nube.

Más allá del precio por token

El costo visible es simple. Un agente llama a un modelo, usted paga por token. A los precios actuales (aproximadamente $0.15-$3 por millón de tokens de entrada para modelos frontera, $0.60-$15 para salida) una tarea simple podría costar una fracción de centavo.

Pero los sistemas de agentes no hacen una llamada por tarea. Un agente de producción típico hace de 3 a 8 llamadas LLM: una para analizar la tarea, una para decidir qué herramientas usar, una por invocación de herramienta, una para sintetizar resultados, a veces una para verificar la salida. Las llamadas a herramientas añaden latencia y sobrecarga de tokens. Las fallas desencadenan reintentos que amplifican el consumo de tokens de 2 a 5 veces. Los bucles (del tipo que se ejecutan durante 400K tokens antes de que alguien lo note) multiplican los costos silenciosamente.

Los números cambian rápido. Ese agente de $0.01/tarea se convierte en $0.05-0.20/tarea cuando se cuenta la cadena completa de llamadas. A 10,000 tareas por mes, está viendo $500-2,000 solo en inferencia. No es algo que rompa el presupuesto, pero es diez veces más alto de lo que sugerían los cálculos de servilleta.

La trampa más grande es la factura que no proviene del proveedor del modelo.

El impuesto de infraestructura

Su agente no se ejecuta solo en el modelo. Necesita una base de datos vectorial para memoria. Una capa de orquestación para flujos de trabajo de múltiples pasos. Una pila de monitoreo y observabilidad. Un pipeline de evaluación. Gestión de credenciales. Infraestructura de despliegue.

Cada pieza tiene su propia curva de costos.

Bases de datos vectoriales. Una instancia de Pinecone o Weaviate de grado producción cuesta $70-200/mes a escala inicial, $500-1,000+/mes a medida que crece la memoria de trabajo de su agente. Las opciones autoalojadas como Qdrant o Milvus trasladan el costo al tiempo de ingeniería e infraestructura. Usted está pagando por las instancias EC2, el almacenamiento S3, el ingeniero que ajusta los parámetros del índice.

Observabilidad. LangSmith comienza gratis para equipos pequeños, luego $100/mes para trazabilidad a nivel de equipo. Las pilas basadas en OpenTelemetry son de código abierto pero requieren configuración y mantenimiento. El costo de depurar una falla de agente no detectada sin observabilidad (una violación de cumplimiento, una salida incorrecta que llega a un cliente) puede superar un año de tarifas de plataforma de observabilidad.

Pipelines de evaluación. Cada agente en producción necesita un conjunto de pruebas. Construir y mantener conjuntos de datos dorados, rúbricas de LLM-como-juez y puntos de referencia de regresión consume tiempo de ingeniería. Las herramientas existen (DeepEval, RAGAS adaptado para agentes) pero requieren curación continua. Un pipeline de evaluación no es un artefacto que se construye una vez. Los modelos cambian, el comportamiento del agente cambia y su conjunto de pruebas se desvía junto con ambos.

Gestión de credenciales e integraciones. Cada herramienta a la que se conecta su agente tiene su propio esquema de autenticación, límites de tasa y modos de falla. Gestionar de 10 a 15 integraciones de herramientas (rotar claves API, manejar deprecaciones, depurar fallas de autenticación) es un trabajo de medio tiempo.

La ruta de plataforma gestionada agrupa algunos de estos costos en una tarifa por agente o por ejecución. El nivel de nube de Dify cuesta aproximadamente $50-200/mes para despliegues pequeños. LangGraph Cloud cobra por ejecución. La compensación es entre precios predecibles y acumular soluciones alternativas cuando la plataforma no soporta lo que usted necesita. Y esas soluciones alternativas tienen su propio costo.

La supervisión humana es la partida más grande

Este es el costo que nadie rastrea. Cada despliegue de agente en producción tiene un humano en algún lugar del circuito revisando resultados, manejando escalaciones, auditando decisiones, interviniendo cuando el agente hace algo inesperado.

El costo laboral de la supervisión humana es típicamente de 2 a 5 veces el costo de inferencia. A una tarifa completamente cargada de ingeniero de $100-150/hora, incluso 10 minutos de revisión por escalación añaden $17-25 a cada tarea marcada. Si el 10% de sus 10,000 tareas de agente por mes requieren revisión humana, eso es $17,000-25,000 en costo de supervisión. Frente a $500-2,000 en inferencia.

La mayoría de los equipos no rastrean esto como un costo de agente. Aparece como "tiempo de ingeniería" o "gastos generales de operaciones" en una línea presupuestaria diferente. Si está tomando decisiones de construir-vs-comprar o escalar sin contar el costo humano, las está tomando a ciegas.

El patrón que veo en producción: los equipos comienzan con supervisión humana cercana, revisan cada salida, luego intentan reducir a revisión solo por excepción. Luego descubren que la tasa de excepción es más alta de lo esperado y el equipo humano está gastando más de 20 horas por semana en supervisión de agentes. El costo no desaparece. Se desplaza de planificado a reactivo.

Mantenimiento e iteración

Un agente en producción no es un artefacto que se escribe una vez. Requiere mantenimiento continuo que no se parece en nada al mantenimiento de software tradicional.

Cambios de API. Los modelos quedan obsoletos, las API de herramientas cambian, los límites de tasa se modifican, los flujos de autenticación evolucionan. Cada cambio ascendente puede romper su agente silenciosamente. El agente que funcionaba la semana pasada deja de funcionar hoy, y nadie lo nota hasta que un usuario se queja o se dispara una alerta de monitoreo.

Versionado de modelos. Cuando OpenAI lanza un nuevo modelo GPT, el comportamiento de su agente cambia. A veces es mejor. A veces es peor. A veces es diferente de maneras que no nota durante semanas. Evaluar cada actualización de modelo para cambios de comportamiento del agente es un costo recurrente que la mayoría de los equipos no presupuestan.

Deriva de prompts. Sus prompts funcionan hoy. En seis meses, con una versión diferente del modelo, podrían no funcionar. La ingeniería de prompts para sistemas de agentes es más frágil que para aplicaciones de una sola llamada porque el prompt gobierna la toma de decisiones de múltiples pasos. Un pequeño cambio en el comportamiento del modelo puede propagarse por toda la cadena de ejecución.

Agentes lectores de pantalla. Si su agente utiliza interacción basada en visión (común para agentes que interactúan con interfaces de software), cada actualización de UI lo rompe. Un botón que se movió 20 píxeles, una etiqueta que cambió de "Enviar" a "Guardar". Estos son incidentes de producción para agentes lectores de pantalla que no afectan en absoluto a los usuarios humanos.

Los equipos que han estado ejecutando agentes por más tiempo reportan gastar del 15 al 30% de su tiempo de ingeniería de agentes en mantenimiento. No en nuevas funciones ni escalado. Solo en mantener funcionando los agentes existentes mientras el mundo cambia a su alrededor.

Los costos ocultos

Varias categorías de costos casi nunca llegan a una hoja de cálculo de TCO.

La ingeniería de prompts es la primera que la gente olvida. Un prompt de agente de grado producción puede tomar de 10 a 40 horas para desarrollar, probar e iterar. No un solo prompt sino un ecosistema de prompts: prompts de sistema, prompts de uso de herramientas, prompts de verificación, prompts de transferencia. Cada uno requiere el mismo ciclo de iteración.

Luego está el mantenimiento del conjunto de datos de evaluación. Los conjuntos de datos dorados necesitan curación constante a medida que evolucionan los casos extremos que encuentra su agente. Añadir de 10 a 20 casos de prueba por mes por caso de uso es normal. Alguien tiene que escribirlos y etiquetarlos.

El cumplimiento y las pistas de auditoría son otra categoría que toma por sorpresa a los equipos. Si su agente opera en un contexto regulado (y la mayoría de los agentes en producción eventualmente lo hacen), necesita registros de auditoría que tracen cada decisión hasta un autorizador humano. Construir y mantener esta infraestructura es una inversión real. La Ley de IA de Colorado y la Ley de IA de la UE exigen esto, y las fallas de cumplimiento conllevan una exposición a sanciones que supera con creces cualquier costo de infraestructura.

Los ciclos de revisión de seguridad añaden su propio costo. Cada nueva integración de herramienta, cada cambio de proveedor de modelo, cada patrón de flujo de datos necesita revisión de seguridad. Los sistemas de agentes tienen una superficie de ataque mayor que las aplicaciones tradicionales porque encadenan múltiples servicios con permisos potencialmente amplios. Un ciclo de revisión de seguridad para una nueva capacidad de agente consume de 2 a 4 semanas de tiempo de ingeniería de seguridad a tiempo parcial.

Y la capacitación interna y documentación completan la lista. Los equipos que adoptan agentes necesitan capacitar a operadores, revisores y partes interesadas. La documentación necesita cubrir no solo las capacidades del agente sino sus modos de falla, procedimientos de escalación y pautas de revisión. Esto es trabajo real que alguien tiene que hacer.

Un marco de TCO

No existe un número único para el TCO de agentes. Las variables son demasiado amplias según el tamaño del equipo, la complejidad del caso de uso y el entorno regulatorio. Pero las categorías y proporciones se mantienen en todos los despliegues.

Costos de inferencia: 10-20% del TCO real. Esta es la partida visible. También es la más pequeña.

Infraestructura (VDB, observabilidad, evaluación, gestión de credenciales): 15-25%. Predecible a pequeña escala, crece de forma no lineal a medida que aumenta el número de agentes.

Supervisión humana: 30-50%. El costo más grande y más variable. Correlacionado con la complejidad de la tarea y el nivel de autonomía. Los agentes de alta autonomía reducen el costo de supervisión por tarea pero aumentan el costo de cada falla.

Mantenimiento e iteración: 15-25%. Dominado por la deriva de prompts, el versionado de modelos y la compatibilidad de API. Los agentes lectores de pantalla pagan un impuesto aquí que los agentes puramente de API no pagan.

Costos ocultos (ingeniería de prompts, cumplimiento, seguridad, capacitación): 10-20%. Concentrados al inicio: más altos en los primeros 90 días, más bajos pero nunca cero después.

Una regla general: si su factura mensual de inferencia es de $1,000, su TCO real de agentes probablemente sea de $5,000-10,000. En un entorno regulado o con agentes lectores de pantalla, añada un multiplicador. Si sus agentes son altamente autónomos con revisión humana solo por excepción, puede comprimir un poco la partida de supervisión, pero el mantenimiento y la iteración se expandirán para llenar el vacío.

Lo que esto significa en la práctica

La perspectiva del TCO cambia cómo piensa sobre las decisiones de despliegue de agentes.

El cambio más importante: comience con el costo de supervisión, no con el costo de inferencia. Si su caso de uso requiere revisión humana cercana de cada salida del agente, la estructura de costos probablemente no funcione a menos que la tarea se esté haciendo actualmente de forma manual a un costo mayor. El precio de inferencia es la variable equivocada para optimizar.

Luego, presupueste mantenimiento desde el primer día. Los equipos que tienen éxito con agentes no los tratan como productos terminados. Presupuestan del 20 al 30% de tiempo de ingeniería continuo para mantener los agentes funcionando. Si su organización no tiene esa capacidad, su despliegue de agentes se degradará silenciosamente.

Y trate los costos ocultos como costos reales. El tiempo de ingeniería de prompts, la curación del conjunto de datos de evaluación, la documentación de cumplimiento, las revisiones de seguridad: estos no son gastos generales. Son el costo de ejecutar agentes que no fallen de maneras que causen daño. Presupueste para ellos explícitamente en lugar de dejar que consuman tiempo de ingeniería no asignado.

¿Y la conclusión honesta? La mayoría de los equipos subpresupuestan el TCO de agentes por un factor de 2 a 4 veces en su primer año. La economía aún funciona si la tarea que está automatizando reemplaza trabajo humano significativo o habilita algo que no era posible a ningún costo. Los cálculos de servilleta que convencieron al liderazgo de aprobar el proyecto casi seguramente están equivocados. El agente aún sale rentable. Solo que no tan rápido ni tan barato como sugerían esos primeros $0.02 por tarea.

El costo real de ejecutar agentes no es la factura de API. Es la infraestructura, los humanos, el mantenimiento y el trabajo oculto de mantener todo funcionando. Cuente todo, y la decisión que tome será la correcta.

Buscar este blog

forgetfulenthusiast