Cómo testear un prompt antes de producción: metodología en 7 pasos

📅 Publicado 2 may 2026 ⏱ Lectura ~15 min 🔧 Por operadores, no reseñadores

Un prompt que "funciona en demo" y un prompt que "funciona en producción" pueden estar separados por un abismo de meses de retrabajo. La diferencia no es el prompt — es el testing que se le hizo (o no se le hizo) antes de salir. Esta es la metodología en 7 pasos que aplicamos en proyectos para empresas: lo que hace que un prompt llegue a producción con 90%+ de aciertos sin edición humana, en lugar del 50-60% típico de prompts no testeados.

Por qué testear un prompt no es probar 3 inputs

El error más común al testear prompts: probar 3-5 inputs "típicos", ver que la respuesta es razonable, y declarar el prompt listo. Eso no es testing — eso es verificación de demo.

El testing de un prompt empresarial necesita cubrir 3 dimensiones de input que casi siempre se ignoran:

Sin las 3 dimensiones cubiertas, el prompt va a producción y se rompe en cuanto la realidad se aparta del demo. Que es siempre.

Paso 1 — Definir métricas de éxito antes de testear

Si no podés decir cómo medirías que el prompt funciona, no podés testearlo. La métrica de éxito debe ser definida antes de empezar a testear, idealmente con quien va a usar el output en su flujo operativo.

Las métricas dependen del tipo de prompt:

Tipo de promptMétrica de éxito
Clasificación (tickets, leads, mensajes)% de outputs correctos vs etiqueta humana de ground truth
Extracción de informaciónF1 score sobre campos extraídos vs ground truth
Generación de respuestas% de outputs aceptables sin edición humana (juicio de operador)
Decisión / scoringCorrelación con decisión humana sobre el mismo input
Resumen / análisisCoverage de puntos clave + ausencia de hallucinations
Bar mínimo para producciónPara prompts con bajo riesgo (clasificación interna, sugerencias a operador): 90%+ de outputs aceptables sin edición. Para prompts con riesgo financiero o regulatorio (médico, legal, financiero): 95%+ + validación humana obligatoria los primeros 60 días.

Paso 2 — Construir el dataset de prueba (20-30 casos mínimo)

El dataset es el corazón del testing. 20-30 casos es el mínimo para que el resultado sea estadísticamente útil. Composición:

Para cada caso, definí la respuesta esperada. Esa es tu ground truth. Sin ground truth no podés medir si el output es correcto.

Paso 3 — Correr el prompt sobre el dataset (manual primera vez)

Primera pasada: corré los 20-30 inputs uno por uno (manual), guardando inputs + outputs + tu evaluación (correcto / incorrecto / parcial / hallucination). Esto te da una foto base de cómo está el prompt.

Para 20-30 casos, esto toma 1-3 horas. Vale la pena cada minuto: aquí descubrís el 80% de los problemas del prompt antes de cualquier código.

Después de la primera pasada, calculá métricas: ¿cuál es el % de aciertos? ¿En qué tipos de input falla más? ¿Hay un patrón de error?

Paso 4 — Iterar el prompt según los errores observados

Los errores te dicen qué cambiar en el prompt. Patrones típicos:

Cada iteración del prompt se vuelve a correr sobre el dataset completo. Si una iteración mejora unos casos pero rompe otros, la métrica te lo dice. Iterá hasta que el prompt pase el bar mínimo (90%+ o 95%+ según riesgo).

Paso 5 — Test adversarial (intentar romper el prompt)

Una vez que el prompt pasa los casos representativos + edge, viene el test adversarial. Intentás explícitamente romperlo con:

Para prompts con base de conocimiento, hay un test adicional: input que parece estar en la base pero no está. El prompt debe decir "no tengo esa información" en lugar de inventar.

Paso 6 — Test de portabilidad entre modelos (si aplica)

Si el prompt va a correr en producción con un solo modelo (ej: solo Claude), saltá este paso. Si la empresa puede querer migrar entre modelos en el futuro, testeá con los 3 frontier (Claude, GPT, Gemini) usando el mismo dataset.

El bar de portabilidad: el prompt debe lograr 80%+ del % de éxito del modelo principal en los otros 2 modelos sin modificación. Si baja por debajo, documentá las optimizaciones específicas necesarias por modelo en el manual de mantenimiento.

Paso 7 — Documentar y versionar antes de producción

El último paso, y el que diferencia testing serio de testing improvisado: documentar todo.

El paquete de entrega que va a producción incluye:

Sin esta documentación, el prompt vive en la cabeza de quien lo diseñó. Cuando esa persona se va o cambia de proyecto, el prompt se vuelve caja negra que nadie quiere tocar.

Tooling: ¿conviene usar herramientas o hacerlo a mano?

Para los primeros 5-10 prompts de una empresa, hacerlo a mano (planilla Excel/Sheets con inputs + ground truth + outputs + evaluación) es lo más rápido y didáctico. Forzás a entender la metodología antes de comprarla en una herramienta.

Cuando el volumen pasa de 10 prompts en producción, conviene tooling:

La herramienta no reemplaza la metodología. Si los 7 pasos no están claros, ninguna herramienta los suple.

¿Tu empresa testea sus prompts antes de producción?

Diagnóstico de 30 minutos gratis: revisamos los prompts críticos de tu operación + el dataset de testing actual (si existe), y te decimos qué falta para llegar al bar de 90%+ producción.

Hablar por WhatsApp

Preguntas frecuentes

¿Cuántos casos de prueba necesita un prompt antes de producción?

Mínimo 20-30 casos representativos cubriendo el caso normal (~70%), casos edge predecibles (~20%) y casos adversariales (~10%). El prompt debe lograr 90%+ de outputs aceptables sin edición humana antes de ir a producción. Si el prompt es crítico (financiero, legal, médico), el bar sube a 95%+ y se mantiene validación humana en los primeros 60 días.

¿Cómo defino "output correcto" si la tarea es subjetiva (generación de texto)?

Para tareas subjetivas, la métrica es "% de outputs aceptables sin edición humana" — donde "aceptable" lo define quien va a usar el output en su flujo. Un operador de soporte que valida 30 outputs y dice "24 los enviaría tal cual, 4 los editaría poco, 2 los descartaría" da métrica de 80% aceptable. Esa métrica es replicable en testing y monitoreo de producción.

¿Vale la pena testear si voy a usar el prompt 1 vez?

Si es one-shot personal (ej: resumir un PDF), no — usá el output, evaluá manualmente, listo. Si es one-shot empresarial con consecuencias (ej: clasificar 5.000 leads históricos en una sola corrida), sí — un prompt mal testeado clasifica 1.500 mal y nadie se da cuenta hasta meses después. Regla simple: si el costo de un error supera 10× el costo de testear, testeá.

¿Cómo testeo prompts que generan outputs muy largos o complejos?

Dividís el output en componentes evaluables. Para un email de 200 palabras: ¿saludo correcto?, ¿tono adecuado?, ¿menciona el dato del contexto?, ¿CTA correcto?, ¿largo dentro de límite?. Cada componente es booleano o escala 1-3, y la métrica final es promedio ponderado. Esto convierte una tarea "todo o nada" en métrica granular accionable.

¿Qué pasa si sale una versión nueva del modelo (Claude, GPT, Gemini)?

Por eso el dataset de prueba versionado es crítico. Cuando sale un modelo nuevo: 1) corré el dataset existente sobre el modelo nuevo sin tocar el prompt, 2) compará métricas vs modelo anterior, 3) si mejora, cambiás de modelo y mantenés prompt, 4) si baja, ajustás el prompt para optimizarlo al nuevo modelo y volvés a testear. El dataset es el activo durable; el prompt es la lógica adaptable.