¿Qué es la fragmentación semántica? | Glosario GEO

La fragmentación semántica es una técnica de división de documentos que corta el texto en los límites de significado en lugar de en conteos fijos de caracteres o tokens. Usa embeddings para detectar cuándo las oraciones adyacentes cambian de tema y luego coloca el corte ahí, de modo que cada fragmento resultante sea internamente coherente y recuperable como una sola idea.

Por qué es importante

La fragmentación ingenua divide cada N tokens o en los saltos de párrafo, ajena al significado. Esto rutinariamente parte un solo argumento por la mitad, colocando la premisa en un fragmento y la conclusión en otro, de modo que el recuperador devuelve fragmentos que no tienen sentido. La fragmentación semántica corrige esto al respetar los cambios de tema. Los informes de evaluación comparativa de LlamaIndex y LangChain de 2024 a 2025 muestran que la fragmentación semántica mejora la calidad de las respuestas de RAG entre un 8 % y un 20 % en preguntas y respuestas de dominio abierto frente a los cortes de tamaño fijo, con las mayores ganancias en documentos técnicos largos.

Cómo funciona

1. Dividir en oraciones: Usa un tokenizador de oraciones para obtener unidades atómicas.

2. Incrustar cada oración: Un pequeño modelo de embedding produce un vector por oración.

3. Calcular las similitudes adyacentes: Para cada par de oraciones, mide la similitud del coseno entre los embeddings.

4. Encontrar los puntos de corte: Cuando la similitud cae por debajo de un umbral (o se sitúa en el percentil inferior), márcalo como un cambio de tema.

5. Agrupar las oraciones entre cortes en fragmentos: Cada fragmento es temáticamente coherente.

6. Límites de tamaño opcionales: Fusiona fragmentos diminutos o divide los enormes para que la recuperación siga siendo práctica.

Semántica vs tamaño fijo vs recursiva

Estrategia	Cómo divide	Coherencia	Costo	Cuándo usarla
Tamaño fijo	Cada N tokens	Baja	Gratis	Prototipado, logs
Recursiva	Párrafo → oración → palabra	Media	Gratis	Opción general por defecto
Semántica	Límites por similitud de embedding	Alta	Costo de embedding	Documentos técnicos, artículos largos
Agentic	El LLM decide por documento	Máxima	Muy alto	Alto riesgo, bajo volumen

La fragmentación semántica se sitúa entre los extremos barato-y-tonto y caro-e-inteligente, una buena opción por defecto una vez que superas la división recursiva.

Parámetros de ajuste

Umbral de similitud: Umbral bajo → más fragmentos, mayor coherencia temática, peor continuidad del contexto. Umbral alto → menos fragmentos y más largos. Comienza alrededor del percentil 15 a 25 de las similitudes adyacentes.

Modelo de embedding: Un modelo de embedding pequeño y barato suele bastar: estás midiendo cambios relativos, no significado absoluto.

Tamaño mínimo de fragmento: Los fragmentos muy cortos (una oración) se recuperan mal porque carecen de contexto. Impón un piso.

Tamaño máximo de fragmento: Acota los fragmentos para que ninguno exceda la ventana de contexto posterior.

Solapamiento: Un pequeño solapamiento de oraciones (1 a 2 oraciones) entre fragmentos adyacentes rescata los casos límite donde la frontera es ambigua.

Cuándo no ayuda

Documentos cortos: Si todo el documento cabe en un fragmento, dividir es sobrecarga.

Texto muy repetitivo: Los logs, listados de productos y tablas tienen poca deriva temática natural; la fragmentación semántica degenera en tamaño fijo.

Contenido estructurado: Las tablas, el código y JSON deben dividirse por estructura, no por significado.

Cuando la recuperación no es el cuello de botella: Si la alucinación proviene del diseño del prompt o del reranking, corregir la fragmentación no ayudará.

Sources:

Fragmentación Semántica

Por qué es importante

Cómo funciona

Semántica vs tamaño fijo vs recursiva

Parámetros de ajuste

Cuándo no ayuda