Skip to content

Pipeline di Elaborazione Documentale

Quando un documento viene caricato su Queria, attraversa una pipeline di elaborazione che lo trasforma da file statico a contenuto ricercabile, analizzabile e citabile dall'intelligenza artificiale. Questo processo e' completamente automatico e progettato per gestire qualsiasi formato documentale con la massima fedelta'.

Panoramica del processo

File originale
      |
      v
[1] Upload e validazione
      |
      v
[2] Parsing e estrazione testo
      |
      v
[3] Analisi linguistica e metadati
      |
      v
[4] Chunking intelligente
      |
      v
[5] Embedding vettoriale
      |
      v
[6] Indicizzazione multi-modale
      |
      v
Documento pronto per la ricerca

Ogni fase e' monitorata e il documento attraversa stati di avanzamento visibili all'utente: Caricato, In Elaborazione, Pronto, oppure Errore se qualcosa non va.

Fase 1: Upload e validazione

All'arrivo del file, il sistema esegue una serie di controlli:

  • Verifica del formato: il tipo di file viene validato sia dall'estensione che dall'analisi del contenuto binario (magic bytes). Formati supportati: PDF, DOCX, PPTX, XLSX, CSV, immagini (PNG, JPG, TIFF, WEBP) e altri formati testuali.
  • Limiti dimensionali: verifica che il file rientri nei limiti configurati per l'organizzazione.
  • Integrita': controllo che il file non sia corrotto o troncato.
  • Deduplicazione: identificazione di documenti gia' presenti nel sistema per evitare duplicazioni.

Il file originale viene archiviato in modo sicuro e persistente, indipendentemente dall'elaborazione successiva.

Fase 2: Parsing e estrazione testo

Ogni formato viene gestito da un parser specializzato che estrae il massimo di informazione strutturale.

PDF

I documenti PDF ricevono un trattamento differenziato:

  • PDF con testo nativo: estrazione diretta del testo con preservazione della struttura (titoli, paragrafi, elenchi).
  • PDF scansionati: attivazione automatica del motore OCR quando il sistema rileva pagine prive di testo selezionabile.
  • PDF misti: gestione di documenti che contengono sia pagine native che scansionate, applicando OCR solo dove necessario.

Documenti Office

  • DOCX: estrazione del contenuto con rispetto della gerarchia (titoli di livello, paragrafi, tabelle, elenchi puntati). I metadati del documento (autore, data, revisione) vengono preservati.
  • PPTX: estrazione del testo da ogni slide con mantenimento dell'ordine di presentazione.
  • XLSX/CSV: elaborazione tabellare con riconoscimento delle intestazioni di colonna. Ogni riga viene trattata come un'unita' informativa con il contesto della propria intestazione.

Immagini

Le immagini vengono elaborate dal motore OCR con riconoscimento testuale avanzato basato su AI. Il sistema supporta documenti scansionati, fotografie di documenti, screenshot e qualsiasi immagine contenente testo.

Fase 3: Analisi linguistica e metadati

Il testo estratto viene analizzato per arricchirne i metadati:

  • Rilevamento lingua: identificazione automatica della lingua del documento per ottimizzare l'elaborazione successiva.
  • Estrazione metadati: titolo, autore, data di creazione, numero di pagine, formato originale.
  • Classificazione tematica: quando configurata, assegnazione automatica del documento a una o piu' categorie tematiche.

Fase 4: Chunking intelligente

Il testo viene segmentato in frammenti (chunk) ottimizzati per la ricerca semantica. Questo e' uno dei passaggi piu' critici dell'intera pipeline: chunk troppo piccoli perdono contesto, chunk troppo grandi diluiscono il significato.

Segmentazione adattiva

Il sistema utilizza una strategia di chunking che si adatta alla struttura del documento:

  • Dimensione target: circa 2000 caratteri per chunk, calibrata per bilanciare precisione semantica e ricchezza di contesto.
  • Sovrapposizione (overlap): il 15% del contenuto viene condiviso tra chunk adiacenti per evitare che informazioni a cavallo tra due segmenti vadano perse.
  • Rispetto della struttura: il sistema cerca di allineare i confini dei chunk con i confini naturali del documento (fine paragrafo, fine sezione, fine elenco).

Chunking specializzato per documenti legali

I documenti normativi richiedono un trattamento dedicato. Il chunker legale:

  • Riconosce la struttura articolo-comma-lettera tipica della legislazione italiana
  • Mantiene ogni articolo come unita' coerente
  • Preserva i riferimenti incrociati tra articoli
  • Gestisce le partizioni in titoli, capi e sezioni
  • Assegna un tipo specifico a ogni chunk: articolo, sezione, paragrafo, clausola, intestazione, elenco, tabella

Preservazione di tabelle e elenchi

Le tabelle vengono trattate come unita' indivisibili: una tabella non viene mai spezzata a meta' tra due chunk. Lo stesso principio si applica agli elenchi puntati e numerati, che vengono mantenuti integri per preservare il contesto sequenziale.

Fase 5: Embedding vettoriale

Ogni chunk viene trasformato in una rappresentazione numerica (vettore) che ne cattura il significato semantico.

Vettori densi

Il modello di embedding genera vettori a 1024 dimensioni che rappresentano il significato complessivo del testo. Due frammenti con significato simile avranno vettori vicini nello spazio multidimensionale, anche se utilizzano parole completamente diverse.

Vettori sparsi

In parallelo, viene generata una rappresentazione sparse (BM25) che cattura l'importanza delle singole parole chiave. Questa rappresentazione eccelle nel recupero di termini specifici: codici, sigle, nomi propri, numeri di articolo.

Metadati indicizzati

Insieme ai vettori, vengono memorizzate informazioni strutturate che abilitano il filtraggio:

  • Titolo del documento di origine
  • Data del documento
  • Autore
  • Formato originale
  • Tipo di chunk (articolo, paragrafo, tabella)
  • Organizzazione di appartenenza
  • Topic/categoria

Fase 6: Indicizzazione multi-modale

I chunk vettorializzati vengono indicizzati in un sistema di ricerca che supporta tre modalita' complementari:

  • Ricerca per similarita' semantica: trova chunk con significato simile alla query dell'utente, indipendentemente dalle parole utilizzate.
  • Ricerca per parole chiave: trova chunk che contengono termini specifici menzionati nella query.
  • Ricerca per filtri strutturati: restringe i risultati per data, formato, categoria, autore o qualsiasi metadato indicizzato.

Le tre modalita' possono essere combinate liberamente. Una tipica ricerca utilizza similarita' semantica e parole chiave in modo ibrido, con filtri strutturati per restringere il perimetro.

Capacita' OCR

Il motore OCR di Queria va oltre il semplice riconoscimento di caratteri:

  • Rilevamento automatico: il sistema identifica autonomamente le pagine che necessitano di OCR, senza intervento dell'utente.
  • Supporto multilingue: riconoscimento testuale in italiano, inglese e altre lingue europee.
  • Riconoscimento avanzato con AI: il modello di visione AI interpreta il contenuto visivo con comprensione contestuale, migliorando l'accuratezza su documenti di bassa qualita'.
  • Estrazione tabelle da immagini: le tabelle presenti in documenti scansionati vengono riconosciute e convertite in formato strutturato.
  • Due passaggi con output Markdown: per documenti complessi, il sistema esegue un primo passaggio di riconoscimento e un secondo di strutturazione, producendo output in formato Markdown con tabelle correttamente formattate.

Sincronizzazione da fonti esterne

Queria non si limita all'upload manuale. Il sistema supporta l'acquisizione automatica di documenti da fonti remote:

Cloud storage

Connessione a servizi di archiviazione cloud con sincronizzazione periodica automatica. Il sistema monitora le cartelle configurate e importa automaticamente i documenti nuovi o aggiornati.

Cartelle di rete (SMB/CIFS)

Per le organizzazioni che utilizzano file server interni, Queria si connette direttamente alle cartelle condivise tramite protocollo SMB/CIFS, anche attraverso tunnel VPN. Il monitoraggio avviene con frequenza configurabile.

Aggiornamenti incrementali

La sincronizzazione e' intelligente: solo i file nuovi o modificati vengono rielaborati. I file rimossi dalla sorgente vengono marcati di conseguenza nel sistema. Questo approccio minimizza il carico di elaborazione e mantiene la base documentale sempre aggiornata.

Generazione documenti (DocGen)

Oltre all'analisi, Queria puo' generare nuovi documenti professionali a partire dai dati estratti:

Pipeline di generazione

  1. Template: l'utente seleziona un modello di documento tra quelli disponibili per la propria organizzazione.
  2. Estrazione dati: il sistema estrae automaticamente le informazioni necessarie dai documenti sorgente. L'approccio e' ibrido: estrazione strutturata per dati tabellari (XLSX) e AI per testi non strutturati.
  3. Validazione schema: i dati estratti vengono verificati contro uno schema che definisce i campi obbligatori e i formati attesi.
  4. Compilazione interattiva: se mancano informazioni, il sistema presenta all'utente i campi da completare manualmente.
  5. Generazione: il documento DOCX viene prodotto con formattazione professionale, intestazioni, tabelle e impaginazione secondo lo standard italiano.

Casi d'uso tipici

  • Generazione di report di analisi a partire da documenti tecnici
  • Compilazione di moduli standardizzati con dati estratti da fonti multiple
  • Creazione di documenti riassuntivi da insiemi di documenti correlati
  • Produzione di confronti strutturati tra documenti

Il documento generato e' un file DOCX standard, modificabile con qualsiasi editor di testo compatibile e pronto per la distribuzione professionale.

Queria - Document Intelligence con Cog-RAG