GEO

Chunking

El chunking es el proceso de dividir documentos largos en unidades más pequeñas portadoras de significado (chunks) que los LLM y las bases de datos vectoriales pueden procesar. Es un paso de preprocesamiento obligatorio en los pipelines de RAG antes de que las páginas web, los PDF o los documentos sean convertidos en embeddings, y cada chunk se convierte en la unidad mínima que una IA puede citar en su respuesta.

El chunking es el proceso de dividir documentos largos en unidades más pequeñas portadoras de significado (chunks) que los LLM y las bases de datos vectoriales pueden procesar. Es un paso de preprocesamiento obligatorio en los pipelines de RAG antes de que las páginas web, los PDF o los documentos sean convertidos en embeddings, y cada chunk se convierte en la unidad mínima que una IA puede citar en su respuesta.

Por qué importa

Cuando la búsqueda con IA genera una respuesta, cita el chunk más relevante, no la página completa. Dos versiones de la misma publicación de blog pueden producir citas de IA completamente diferentes según cómo estén divididas en chunks. Los blogs de ingeniería de Anthropic y OpenAI informan que un chunking bien ajustado mejora la precisión de recuperación de RAG entre un 30 % y un 50 % respecto a la línea base. De aquí proviene el principio GEO de "escribir en chunks".

Principales estrategias de chunking

Chunking de tamaño fijo: Divide por un recuento fijo de tokens, como 500 o 1.000. Es simple, pero corta a mitad de oración y pierde contexto.

Recursivo (oración/párrafo): Divide párrafos, luego oraciones y luego palabras, preservando los límites naturales. El valor por defecto en la mayoría de los pipelines de RAG.

Chunking semántico: Usa la similitud de embeddings para detectar cambios de tema y dividir ahí. La mayor calidad, pero costoso a nivel computacional.

Chunking consciente del documento: Usa los encabezados ### de Markdown o HTML como límites. El más efectivo para contenido estructurado como las publicaciones de blog.

Solapamiento: Duplica entre un 10 % y un 20 % del contenido entre chunks adyacentes para que el contexto no se pierda en la unión.

Implicaciones para la redacción GEO

Las secciones deben sostenerse por sí solas: Los chunks suelen corresponder a las secciones ###. Si una sección depende de la anterior para tener sentido, se rompe cuando se cita de forma aislada.

Incluye el sujeto y el contexto dentro de cada sección: Escribe "inblog gestiona…" y no "esta herramienta gestiona…"; cada párrafo debe ser autocontenido.

La longitud adecuada: Las secciones muy cortas carecen de información suficiente para que valga la pena citarlas; las secciones muy largas diluyen el significado de su embedding. De 200 a 500 palabras es el punto ideal.

Encabezados en los cambios de tema: Si una sola sección mezcla temas, los chunkers dividen en lugares incómodos. Añade un encabezado ### claro cada vez que cambie el tema.

Bloques de FAQ: Los pares de pregunta y respuesta forman de manera natural chunks autocontenidos, por lo que dividir las preguntas clave en una sección de FAQ aumenta drásticamente la probabilidad de citación.

Sources: