Skip to content

Pipeline de Procesamiento Documental

Cuando un documento se sube a Queria, atraviesa una pipeline de procesamiento que lo transforma de archivo estatico a contenido buscable, analizable y citable por la IA. Este proceso es completamente automatico y disenado para gestionar cualquier formato documental con la maxima fidelidad.

Vision general del proceso

Archivo original
      |
      v
[1] Upload y validacion
      |
      v
[2] Parsing y extraccion de texto
      |
      v
[3] Analisis linguistico y metadatos
      |
      v
[4] Chunking inteligente
      |
      v
[5] Embedding vectorial
      |
      v
[6] Indexacion multi-modal
      |
      v
Documento listo para la busqueda

Cada fase se monitoriza y el documento atraviesa estados de avance visibles al usuario: Subido, En procesamiento, Listo, o Error si algo va mal.

Fase 1: Upload y validacion

A la llegada del archivo, el sistema ejecuta una serie de controles:

  • Verificacion del formato: el tipo de archivo se valida tanto por la extension como por el analisis del contenido binario (magic bytes). Formatos soportados: PDF, DOCX, PPTX, XLSX, CSV, imagenes (PNG, JPG, TIFF, WEBP) y otros formatos textuales.
  • Limites dimensionales: verificacion de que el archivo encaja en los limites configurados para la organizacion.
  • Integridad: control de que el archivo no este corrupto o truncado.
  • Deduplicacion: identificacion de documentos ya presentes en el sistema para evitar duplicaciones.

El archivo original se archiva de forma segura y persistente, independientemente del procesamiento sucesivo.

Fase 2: Parsing y extraccion de texto

Cada formato se gestiona por un parser especializado que extrae el maximo de informacion estructural.

PDF

Los documentos PDF reciben un tratamiento diferenciado:

  • PDF con texto nativo: extraccion directa del texto con preservacion de la estructura (titulos, parrafos, listas).
  • PDF escaneados: activacion automatica del motor OCR cuando el sistema detecta paginas sin texto seleccionable.
  • PDF mixtos: gestion de documentos que contienen tanto paginas nativas como escaneadas, aplicando OCR solo donde sea necesario.

Documentos Office

  • DOCX: extraccion del contenido respetando la jerarquia (niveles de titulo, parrafos, tablas, listas con vinetas). Los metadatos del documento (autor, fecha, revision) se preservan.
  • PPTX: extraccion del texto de cada diapositiva manteniendo el orden de presentacion.
  • XLSX/CSV: procesamiento tabular con reconocimiento de las cabeceras de columna. Cada fila se trata como una unidad informativa con el contexto de su cabecera.

Imagenes

Las imagenes se procesan por el motor OCR con reconocimiento textual avanzado basado en IA. El sistema soporta documentos escaneados, fotografias de documentos, screenshots y cualquier imagen que contenga texto.

Fase 3: Analisis linguistico y metadatos

El texto extraido se analiza para enriquecer sus metadatos:

  • Deteccion de idioma: identificacion automatica del idioma del documento para optimizar el procesamiento posterior.
  • Extraccion de metadatos: titulo, autor, fecha de creacion, numero de paginas, formato original.
  • Clasificacion tematica: cuando esta configurada, asignacion automatica del documento a una o mas categorias tematicas.

Fase 4: Chunking inteligente

El texto se segmenta en fragmentos (chunks) optimizados para la busqueda semantica. Este es uno de los pasos mas criticos de toda la pipeline: chunks demasiado pequenos pierden contexto, chunks demasiado grandes diluyen el significado.

Segmentacion adaptativa

El sistema usa una estrategia de chunking que se adapta a la estructura del documento:

  • Tamano objetivo: unos 2000 caracteres por chunk, calibrado para equilibrar precision semantica y riqueza de contexto.
  • Superposicion (overlap): el 15% del contenido se comparte entre chunks adyacentes para evitar que informacion entre dos segmentos se pierda.
  • Respeto de la estructura: el sistema intenta alinear los limites de los chunks con los limites naturales del documento (fin de parrafo, fin de seccion, fin de lista).

Chunking especializado para documentos legales

Los documentos normativos requieren un tratamiento dedicado. El chunker legal:

  • Reconoce la estructura articulo-comma-letra tipica de la legislacion italiana
  • Mantiene cada articulo como unidad coherente
  • Preserva las referencias cruzadas entre articulos
  • Gestiona las particiones en titulos, capitulos y secciones
  • Asigna un tipo especifico a cada chunk: articulo, seccion, parrafo, clausula, encabezado, lista, tabla

Preservacion de tablas y listas

Las tablas se tratan como unidades indivisibles: una tabla no se rompe nunca a la mitad entre dos chunks. El mismo principio se aplica a las listas con vinetas y numeradas, que se mantienen integras para preservar el contexto secuencial.

Fase 5: Embedding vectorial

Cada chunk se transforma en una representacion numerica (vector) que captura su significado semantico.

Vectores densos

El modelo de embedding genera vectores de 1024 dimensiones que representan el significado global del texto. Dos fragmentos con significado similar tendran vectores cercanos en el espacio multidimensional, aunque utilicen palabras completamente distintas.

Vectores dispersos

En paralelo, se genera una representacion sparse (BM25) que captura la importancia de las palabras clave individuales. Esta representacion sobresale en la recuperacion de terminos especificos: codigos, siglas, nombres propios, numeros de articulo.

Metadatos indexados

Junto con los vectores, se almacenan informaciones estructuradas que habilitan el filtrado:

  • Titulo del documento de origen
  • Fecha del documento
  • Autor
  • Formato original
  • Tipo de chunk (articulo, parrafo, tabla)
  • Organizacion de pertenencia
  • Topic/categoria

Fase 6: Indexacion multi-modal

Los chunks vectorizados se indexan en un sistema de busqueda que soporta tres modalidades complementarias:

  • Busqueda por similaridad semantica: encuentra chunks con significado similar a la query del usuario, independientemente de las palabras usadas.
  • Busqueda por palabras clave: encuentra chunks que contienen terminos especificos mencionados en la query.
  • Busqueda por filtros estructurados: limita los resultados por fecha, formato, categoria, autor o cualquier metadato indexado.

Las tres modalidades pueden combinarse libremente. Una busqueda tipica usa similaridad semantica y palabras clave de forma hibrida, con filtros estructurados para acotar el perimetro.

Capacidades OCR

El motor OCR de Queria va mas alla del simple reconocimiento de caracteres:

  • Deteccion automatica: el sistema identifica autonomamente las paginas que necesitan OCR, sin intervencion del usuario.
  • Soporte multilingue: reconocimiento textual en italiano, ingles y otros idiomas europeos.
  • Reconocimiento avanzado con IA: el modelo de vision IA interpreta el contenido visual con comprension contextual, mejorando la precision en documentos de baja calidad.
  • Extraccion de tablas desde imagenes: las tablas presentes en documentos escaneados se reconocen y convierten en formato estructurado.
  • Dos pasadas con output Markdown: para documentos complejos, el sistema ejecuta una primera pasada de reconocimiento y una segunda de estructuracion, produciendo output en formato Markdown con tablas correctamente formateadas.

Sincronizacion desde fuentes externas

Queria no se limita al upload manual. El sistema soporta la adquisicion automatica de documentos desde fuentes remotas:

Cloud storage

Conexion a servicios de cloud storage con sincronizacion periodica automatica. El sistema monitoriza las carpetas configuradas e importa automaticamente los documentos nuevos o actualizados.

Carpetas de red (SMB/CIFS)

Para las organizaciones que usan file servers internos, Queria se conecta directamente a las carpetas compartidas mediante el protocolo SMB/CIFS, tambien a traves de tuneles VPN. La monitorizacion se produce con frecuencia configurable.

Actualizaciones incrementales

La sincronizacion es inteligente: solo los archivos nuevos o modificados se reprocessan. Los archivos eliminados de la fuente se marcan en consecuencia en el sistema. Este enfoque minimiza la carga de procesamiento y mantiene la base documental siempre actualizada.

Generacion de documentos (DocGen)

Mas alla del analisis, Queria puede generar nuevos documentos profesionales a partir de los datos extraidos:

Pipeline de generacion

  1. Template: el usuario selecciona un modelo de documento entre los disponibles para su organizacion.
  2. Extraccion de datos: el sistema extrae automaticamente las informaciones necesarias de los documentos fuente. El enfoque es hibrido: extraccion estructurada para datos tabulares (XLSX) e IA para textos no estructurados.
  3. Validacion de schema: los datos extraidos se verifican contra un schema que define los campos obligatorios y los formatos esperados.
  4. Llenado interactivo: si faltan informaciones, el sistema presenta al usuario los campos a completar manualmente.
  5. Generacion: el documento DOCX se produce con formato profesional, encabezados, tablas y maquetacion segun el estandar italiano.

Casos de uso tipicos

  • Generacion de informes de analisis a partir de documentos tecnicos
  • Llenado de formularios estandarizados con datos extraidos de fuentes multiples
  • Creacion de documentos resumen a partir de conjuntos de documentos correlacionados
  • Produccion de comparativas estructuradas entre documentos

El documento generado es un archivo DOCX estandar, modificable con cualquier editor de texto compatible y listo para la distribucion profesional.

Queria - Document Intelligence con Cog-RAG