¿Qué es el prompting de cadena de pensamiento? | Glosario GEO

La cadena de pensamiento (CoT, por sus siglas en inglés) es una técnica de prompting que hace que un LLM genere un proceso de razonamiento paso a paso antes de su respuesta final. Formalizada por Wei et al. en Google Research en 2022, se ha convertido en la técnica estándar para elevar la precisión de los LLM en tareas de razonamiento complejas.

Por qué importa

Los primeros LLM tenían dificultades con la aritmética, la lógica y el razonamiento de varios pasos. En el artículo original de Wei, PaLM 540B resolvió solo el 17,9 % de los problemas del benchmark de matemáticas escolares GSM8K con prompting básico, pero el 56,9 % con cadena de pensamiento. El mismo modelo, las mismas preguntas, una precisión entre 2 y 3 veces mejor simplemente por darle al modelo "espacio para pensar". Desde entonces, Claude, GPT y Gemini han interiorizado la CoT como un patrón de prompting central.

Cómo funciona

La idea central de la CoT es hacer que el LLM escriba primero su razonamiento y luego enuncie la conclusión, en lugar de saltar directamente a una respuesta. Dado que los transformadores condicionan cada token según los tokens anteriores, emitir un razonamiento intermedio coloca ese contenido en el contexto y eleva la calidad de la respuesta final. Más "tokens de pensamiento" le dan al modelo más "espacio de razonamiento".

Principales variantes

CoT zero-shot: Añade una sola línea como "Pensemos paso a paso", sin ejemplos. Propuesta por Kojima et al. en 2022, es la forma más simple y sorprendentemente efectiva.

CoT few-shot: Incluye de 2 a 3 problemas de ejemplo con su razonamiento paso a paso en el prompt para que el modelo imite la estructura.

Autoconsistencia: Genera varias respuestas de CoT para la misma pregunta y elige la conclusión final más común, una "votación" sobre las rutas de razonamiento, más precisa que una única CoT.

Árbol de pensamientos (ToT): Explora el razonamiento como un árbol en lugar de una línea, expandiendo solo las ramas con mejor puntuación. Útil para la planificación compleja y los acertijos.

ReAct: Razonamiento + Acción (Reasoning + Acting). Combina la CoT con llamadas a herramientas en un bucle de "pensar → actuar → observar → pensar de nuevo". El patrón de prompting estándar para los agentes de IA.

Cuándo ayuda la CoT

La CoT no ayuda por igual en todas las tareas.

Muy efectiva: Matemáticas, acertijos de lógica, razonamiento de varios pasos, toma de decisiones compleja, depuración de código.

Menos efectiva: Clasificación simple, análisis de sentimiento, resumen y traducción, donde la respuesta ya es inmediata y la CoT principalmente añade latencia.

Tendencia 2026: Los modelos de frontera ahora vienen con "modos de razonamiento" integrados (OpenAI o1, el pensamiento extendido de Claude Opus) que ejecutan la CoT automáticamente, por lo que los usuarios ya no necesitan escribir prompts de CoT manualmente. La atención se desplaza hacia otras indicaciones que mejoran la calidad.

Implicaciones para la GEO

La CoT no es una técnica que los redactores de contenido apliquen directamente, pero da forma a qué contenido les resulta más fácil de citar a los LLM. Si una publicación de blog recorre conceptos complejos con una lógica explícita paso a paso, a los LLM les resulta más fácil usar esa sección como grounding para su propio razonamiento. Las explicaciones que desglosan "por qué se sigue esto" superan a las conclusiones de una sola línea cuando la búsqueda con IA elige qué citar.

Sources:

Cadena de Pensamiento

Por qué importa

Cómo funciona

Principales variantes

Cuándo ayuda la CoT

Implicaciones para la GEO