Skip to content

Gestion de Documentos

Queria ofrece multiples modos para importar documentos en la plataforma. Una vez subidos, los documentos se procesan automaticamente y quedan disponibles para la busqueda IA. Esta guia cubre todas las opciones de subida, los formatos soportados y las herramientas de gestion.

Pipeline de ingestion canvas-native (v3.5.0+)

A partir de la v3.5.0 la pipeline que procesa los documentos (parsing, clasificacion del rol, chunking, vectorizacion) es un canvas DSL que el administrador puede personalizar para su empresa. Ver Ingestion DSL para los detalles tecnicos. Del lado usuario la experiencia de subida se mantiene: arrastras el archivo, la IA hace el resto.

Modos de subida

La pagina Documentos presenta varias pestanas (tabs) para los distintos modos de importacion.

Tab Upload File

El metodo mas directo para subir documentos desde tu ordenador.

  • Drag & drop: arrastra uno o mas archivos al area de carga.
  • Click para seleccionar: haz clic en el area para abrir el selector del sistema operativo.
  • Carga multiple: puedes seleccionar y subir varios archivos a la vez.

Cada archivo se sube con su propia barra de progreso. Al final del upload, el sistema inicia automaticamente el procesamiento.

Tab Cloud Storage

Importa documentos desde tus servicios cloud empresariales:

  • Google Drive: conecta tu cuenta Google y navega entre carpetas y archivos. Puedes seleccionar archivos individuales o carpetas enteras.
  • OneDrive: accede a los archivos de tu cuenta Microsoft OneDrive personal o empresarial.
  • SharePoint: navega por los sitios SharePoint de tu organizacion e importa documentos desde las bibliotecas compartidas.

Una vez conectada una cuenta cloud, puedes habilitar la sincronizacion automatica: Queria comprobara periodicamente las carpetas seleccionadas e importara automaticamente nuevos archivos o versiones actualizadas.

Tab Red Empresarial

Importa documentos directamente desde las carpetas de red de tu organizacion:

  • Carpetas SMB/CIFS: especifica el path de red (por ejemplo \\server\share\carpeta) y las credenciales de acceso.
  • Acceso VPN: si tu red requiere VPN, Queria soporta la configuracion de tunneles para alcanzar los recursos internos.
  • Sincronizacion programada: configura un schedule para la sincronizacion automatica. El sistema detecta nuevos archivos y modificaciones de forma transparente.

Tab URL

Importa el contenido de una pagina web indicando su direccion:

  • Introduce la URL completa.
  • Queria descarga el contenido, lo analiza y lo hace disponible para la busqueda.
  • Util para importar articulos, documentacion online o paginas informativas.

Tab JSONL

Para importaciones masivas de datos pre-estructurados:

  • Sube un archivo en formato JSONL (JSON Lines) donde cada linea representa un documento con sus metadatos.
  • Ideal para migraciones desde otros sistemas o importaciones programaticas.
  • Cada registro puede incluir titulo, contenido, metadatos personalizados y asignacion a topic.

Formatos soportados

FormatoExtensionNotas
PDF.pdfSoporte completo, incluidos PDF escaneados (via OCR)
Word.docxTexto, tablas, imagenes incrustadas
Excel.xlsxMultiples hojas, tablas estructuradas
PowerPoint.pptxTexto de las slides
Texto.txtTexto simple
Markdown.mdFormato preservado
CSV.csvDatos tabulares
JSON.jsonDatos estructurados
OpenDocument.odtFormato abierto
Imagenes.jpg, .png, .tiffProcesamiento automatico con OCR

Estados de procesamiento

Cada documento atraviesa una serie de estados durante el procesamiento:

EstadoIconoDescripcion
SubidoCirculo vacioEl archivo fue recibido por el sistema, en espera de procesamiento.
En procesamientoSpinner animadoEl sistema esta analizando el documento: extraccion de texto, OCR (si hace falta), segmentacion en chunks, generacion de embeddings vectoriales.
ListoTick verdeEl documento se proceso con exito y esta disponible para la busqueda IA.
ErrorTriangulo rojoHubo un problema durante el procesamiento. Puedes ver los detalles e intentar reprocesar.

Tiempos de procesamiento

Un documento de 10-20 paginas se procesa en unos 30 segundos. Documentos mas largos o con muchas imagenes pueden requerir unos minutos.

Monitor de procesamiento

La seccion Monitor te permite seguir en tiempo real el progreso de procesamiento de todos los documentos:

  • Ver cuantos documentos estan en cola, en procesamiento y completados.
  • Controlar el porcentaje de avance por documento.
  • Identificar rapidamente errores y acceder a los detalles para la resolucion.

Acciones sobre los documentos

Para cada documento en la lista puedes realizar varias operaciones:

  • Ver: abre una vista previa del documento original o descargalo.
  • Ver segmentos: consulta como el sistema dividio el documento en chunks para la busqueda. Util para verificar que el procesamiento fue correcto.
  • Reprocesar: relanza el procesamiento del documento. Util si el documento estaba en error o quieres actualizar los segmentos.
  • Archivar: mueve el documento al archivo. Ya no se incluira en las busquedas pero quedara disponible para consulta. Puedes restaurarlo en cualquier momento.
  • Eliminar: elimina el documento (soft delete). Puede recuperarse desde la papelera.
  • Eliminar definitivamente: elimina el documento y todos sus segmentos de forma irreversible (solo admins).

Atencion

La eliminacion definitiva es irreversible. El documento sera eliminado completamente del sistema y de las busquedas.

Rol del documento

No todos los documentos se tratan de la misma manera. Una politica empresarial y una lista de precios hablan idiomas distintos: la politica se lee por conceptos y parrafos, la lista se consulta por filas y valores. Una sentencia debe citarse de forma puntual (articulo, apartado, dispositivo), una FAQ se recupera como ejemplo concreto.

Por eso Queria, mientras procesa un documento, lo clasifica en uno o mas roles. El rol determina como el documento se segmenta, se indexa y luego se recupera en respuesta a una pregunta. La clasificacion es completamente automatica; tu solo subes el archivo. El rol asignado es visible en la ficha del documento y puedes verlo en las citas en la chat.

Los cinco roles son:

TRUTH — Conocimiento autoritativo

Documentos que cuentan "como son las cosas": manuales operativos, documentacion de producto, normativas interpretadas, politicas empresariales, white paper, libros tecnicos.

  • Como se lee: segmentado por parrafos y secciones, manteniendo el contexto narrativo.
  • Que obtienes en la chat: respuestas discursivas que entrelazan informacion de varios parrafos, con citas [N] al pasaje original.
  • Cuando se usa: la mayoria de tus documentos empresariales acaban aqui. Es el rol "default" en ausencia de indicios especificos.

FORMAT — Modelos y formularios

Documentos que muestran una estructura a reproducir mas que informacion para consultar: templates de contratos, formularios vacios, esquemas.

  • Como se lee: el sistema extrae la estructura (campos, secciones, placeholders) separandola del texto generico circundante.
  • Que obtienes en la chat: normalmente no se citan en las respuestas conversacionales. Son en cambio el "combustible" de la Generacion Documentos: cuando pides "genera un contrato de alquiler", el sistema parte del FORMAT correcto y lo rellena con los datos extraidos de otros documentos.
  • Cuando se usa: donde haya un modelo estandar a rellenar repetidamente.

RULES — Reglas vinculantes

El rol mas delicado. Son documentos prescriptivos que establecen obligaciones, sanciones, vencimientos, regulaciones aplicables: sentencias, decretos, regulaciones UE, articulos de ley, ordenes, decisiones administrativas, circulares de la Agencia Tributaria, regulaciones internas con efecto vinculante.

  • Como se lee: el sistema reconoce la estructura articulo - apartado - letra tipica del lenguaje juridico italiano y UE. Cada articulo se mantiene como unidad indivisible. Para las sentencias, se indexan por separado la maxima (la regla establecida) y el dispositivo (lo que el juez decidio).
  • Que obtienes en la chat:
    • Citas puntuales: no un generico "el contrato", sino art. 5 ap. 2 del DLgs 231/2001 o Cass. Sec. Lab. n. 12345/2023.
    • Prioridad de las RULES cuando la pregunta concierne obligaciones o conformidad: si preguntas "puedo despedir a un empleado de baja por enfermedad?", el sistema prefiere articulos de ley y sentencias respecto a una circular HR interna.
    • Filtro automatico de vigencia: normas derogadas se excluyen por defecto (puedes solicitarlas explicitamente para busquedas historicas).
  • Cuando se usa: en despachos legales, fiscalistas, compliance, HR -- cualquier contexto donde "cita la fuente" no es un detalle, sino un requisito.

Doble rol TRUTH + RULES

Una sentencia tiene dos almas: la motivacion (por que el juez decidio asi -- TRUTH) y la maxima/dispositivo (la regla que se deriva -- RULES). El sistema asigna ambos roles e indexa los dos aspectos por separado. Asi cuando preguntas "por que el Tribunal Supremo decidio asi?" obtienes la motivacion; cuando preguntas "que establece sobre el punto X?" obtienes la maxima precisa.

OPERATIONAL — Datos estructurados

Documentos que tienen sentido "por fila" mas que por texto libre: listas de precios, datos maestros proveedores y clientes, fichas de producto, balances en formato tabular, KPI, time sheet, conciliaciones.

  • Como se lee: una fila = una unidad autonoma. Se preservan los valores (ej. producto = Alpha, precio = 120 euros, disponibilidad = en stock).
  • Que obtienes en la chat: el sistema reconoce preguntas agregativas ("cual es la facturacion total de 2025?", "cuantos productos bajo 100 euros tenemos?") y responde con calculos sobre datos estructurados, no con un resumen narrativo. Para analisis puntuales ("cual es el precio del producto Alpha?") la respuesta cita la fila exacta.
  • Cuando se usa: donde el valor de un dato depende de su posicion en la tabla y no solo del texto.

EXAMPLES — Casos y escenarios

Documentos demostrativos que muestran como aplicar un concepto, un procedimiento o una regla: casos de estudio, escenarios de aplicacion, FAQ empresariales, ejercicios resueltos, knowledge base de soporte.

  • Como se lee: un par Q&A o un escenario completo se mantiene como unidad. La integridad del caso individual se preserva.
  • Que obtienes en la chat: el asistente enriquece la respuesta con un ejemplo concreto cuando la pregunta lo permite ("tengo una situacion similar a..."). Las citas de tipo EXAMPLES estan marcadas visualmente de forma distintiva, asi sabes que estas leyendo un caso ejemplo y no una regla absoluta.
  • Cuando se usa: soporte al cliente, onboarding, materiales formativos, knowledge base interna de asistencia.

Documentos multi-rol

Muchos documentos reales son mixtos. Ejemplos:

DocumentoRoles aplicadosPor que
Sentencia con tabla de calculo de danosRULES + OPERATIONALLa maxima es RULES, la tabla de valores es OPERATIONAL
Manual operativo con FAQ en apendiceTRUTH + EXAMPLESEl cuerpo es TRUTH, las FAQ son EXAMPLES
Politica empresarial con modelo adjuntoTRUTH + FORMATEl texto describe la regla (TRUTH), el formulario adjunto es FORMAT
Lista de precios con condiciones generales en cabeceraOPERATIONAL + TRUTHLos precios son OPERATIONAL, las condiciones narrativas son TRUTH

El sistema detecta automaticamente los roles co-presentes y crea segmentos dedicados a cada uno, asi la misma fuente puede citarse de forma distinta segun la pregunta.

Como verificar el rol asignado

  1. Abre la ficha del documento desde la pagina Documentos.
  2. En el panel de detalles veras un campo Rol con uno o mas badges de color.
  3. Haciendo clic en el badge obtienes la explicacion del rol y de los chunks que el sistema genero para ese rol.

Cuando recibes una respuesta en la chat, las citas tambien muestran un icono correspondiente al rol de la fuente (ej. una balanza para RULES, una tabla para OPERATIONAL). Es una forma rapida de entender de donde viene cada informacion.

Que hacer si la clasificacion es incorrecta

La clasificacion automatica funciona bien en la gran mayoria de los casos, pero puede fallar -- especialmente para documentos muy especificos de sector. Tienes dos caminos:

  • Reportalo al administrador: puede forzar el rol manualmente en ese documento o definir una regla por la que todos los documentos de un cierto topic (o con un cierto patron de nombre / path) sean siempre clasificados en un rol especifico. Ver Wizard, Bulk y Path-rules para los detalles operativos.
  • Sobrescribe al vuelo en la fase de subida: usando el Wizard de carga puedes confirmar o cambiar el rol sugerido antes de lanzar el procesamiento. El sistema tambien muestra un puntaje de confianza (ej. "RULES -- 87%") asi entiendes cuan seguro esta de su eleccion.

Por que importa

El rol no es una mera etiqueta. Determina como la IA usara ese documento para responder a tus preguntas. Una lista de precios clasificada por error como TRUTH producira resumenes narrativos cuando querrias calculos; una sentencia clasificada como TRUTH no tendra citas puntuales a articulo y apartado. Cuando los resultados parecen "cercanos pero no centrados", a menudo el problema esta ahi.

Documentos Estandar vs Knowledge Base

Queria distingue entre dos tipologias de documento:

Documentos Estandar

Son los documentos subidos normalmente. Forman parte del archivo empresarial y estan disponibles para las busquedas en funcion de los permisos y topics asignados.

Documentos Knowledge Base

Son documentos marcados como parte del Knowledge Base empresarial. Tienen caracteristicas especiales:

  • Son permanentes y siempre prioritarios en las busquedas.
  • Representan el conocimiento curado y autoritativo de la organizacion.
  • Son accesibles a todos los usuarios con los permisos adecuados.

Para profundizar consulta la guia Knowledge Base.

OCR automatico

Cuando subes un documento escaneado (PDF imagen) o un archivo imagen (JPG, PNG, TIFF), Queria activa automaticamente el reconocimiento optico de caracteres (OCR):

  • El sistema detecta automaticamente si el documento contiene texto real o es una imagen.
  • El motor OCR extrae el texto de las imagenes, incluidas tablas formateadas en Markdown para preservar la estructura.
  • El texto extraido se procesa luego normalmente para la busqueda.
  • Una correccion IA post-OCR mejora la calidad del texto reconocido, arreglando palabras rotas, espacios faltantes y errores comunes.
  • No hace falta ninguna accion manual: el proceso es completamente transparente.

Sincronizacion Cloud y Red

Sincronizacion Cloud

Tras conectar un servicio cloud (Google Drive, OneDrive, SharePoint):

  1. Selecciona las carpetas a monitorizar.
  2. Configura la frecuencia de sincronizacion.
  3. El sistema verifica periodicamente nuevos archivos o versiones actualizadas.
  4. Los nuevos documentos se importan y procesan automaticamente.

Sincronizacion Red Empresarial

Para las carpetas de red:

  1. Configura el path y las credenciales.
  2. Establece el schedule (horario, diario, semanal).
  3. Queria accede a la carpeta en los horarios establecidos e importa novedades.
  4. Los documentos modificados se reprocesan automaticamente.

Deduplicacion

Queria previene los duplicados automaticamente: cada archivo se identifica con un hash unico. Si subes un archivo ya presente en la misma organizacion, el sistema devuelve el documento existente sin crear un duplicado.

Buenas practicas de organizacion

  1. Asigna los topics en la fase de subida: categorizar enseguida los documentos mejora la calidad de las busquedas posteriores. Para los Editor, la asignacion de al menos un topic es obligatoria. Si tienes solo un topic asignado, se selecciona automaticamente.
  2. Usa nombres de archivo descriptivos: Queria tambien usa el nombre del archivo como metadato de busqueda. "Contrato_Rossi_2025.pdf" es mas util que "doc1.pdf".
  3. Prefiere formatos texto: cuando sea posible, sube documentos con texto real (DOCX, PDF texto) en lugar de escaneos. La calidad de la busqueda sera superior.
  4. Verifica los documentos en error: revisa el Monitor para identificar y resolver rapidamente problemas de procesamiento.
  5. Usa el Knowledge Base para los documentos clave: manuales, procedimientos, politicas y otros documentos de referencia deberian estar en el KB.
  6. Aprovecha la sincronizacion automatica: para carpetas que se actualizan a menudo, la sincronizacion automatica evita la subida manual repetitiva.
  7. Archiva en lugar de eliminar: los documentos archivados pueden restaurarse. La eliminacion definitiva es irreversible.
  8. Papelera: los Editor pueden ver y restaurar documentos eliminados en sus topics. La eliminacion permanente y el vaciado de la papelera estan reservados a los Admin.

Queria v3.5.0 -- Ingestion documentos role-aware (canvas DSL)

Queria - Document Intelligence con Cog-RAG