Transkribus è una piattaforma completa per il riconoscimento automatico, la trascrizione e la ricerca di documenti storici. Questo progetto fa parte del più ampio programma chiamato READ (Recognition and Enrichment of Archival Documents) finanziato dalla Commissione europea con i fondi Horizon 2020.

Transkribus è composto da tre parti:

  • Un software da scaricare (per Win e Mac)
  • Un’interfaccia web
  • Un sistema cloud per il salvataggio e l’elaborazione dei dati

L’obiettivo principale di Transkribus è supportare gli utenti impegnati nella trascrizione di documenti stampati o manoscritti.

Transkribus offre numerosi strumenti per l’elaborazione automatizzata di documenti, come ad esempio:

  • Riconoscimento testo scritto a mano (HTR)
  • Analisi Layout
  • Comprensione documento
  • Spotting delle parole chiave
  • Inserimento di metadati
  • OCR con ABBYY Finereader Engine 11

L’aspetto più interessante è la trascrizione automatica (HTR) dei manoscritti. Occorrono almeno 100 immagini correttamente trascritte. Avendo a disposizione questo set di dati, i documenti verrano inviati al Computational Intelligence Technology Lab (CITlab) dell’Università di Rostock.

La creazione del training di dati (come abbiamo visto in “Machine Learning per la trascrizione automatica di manoscritti“) è fondamentale perché permette al software di avviare il riconoscimento dei caratteri.

Guida per imparare ad usare Transkribus

1. Scarica il programma

Vai sul sito Transkribus, registrati e scarica il programma. Se usi MacOS potrebbe apparire un messaggio di errore la prima volta che provi ad aprire Transkribus. In questo caso: clicca con il pulsante destro del Track Pad per aprire il Menu Contestuale e aggiungere una eccezione di sicurezza per Transkribus. Una volta scaricato Transkribus, scompatta il file e salva il contenuto in una cartella.

2. Avvia Transkribus

Fai partire il programma ed effettua il Login con i dati della registrazione.

3. Carica i tuoi documenti

Clicca sull’icona con la cartella e la freccia verde per caricare i tuoi documenti. Puoi lavorare sia in locale che dal server. La piattaforma accetta diversi formati: PDF, JPEG, PNG e file TIFF.

4. Gestisci le collezioni

Cliccando sul pulsante sotto la scritta Collections si ha accesso a tutte le collezioni. Sono presenti quelle utilizzate per imparare ad usare il programma. In questo caso la collezione che ho creato si chiama gianformaggio.

5. Segmentazione e trascrizione

Cliccando sul pulsante Tool, nella scheda in alto a sinistra, puoi segmentare il documento ed avviare il riconoscimento. Se non si tratta di un manoscritto si può scegliere come metodo OCR Abbyy FineReader. In basso a destra è presente la trascrizione, una volta effettuate le correzioni è sufficiente cliccare sull’icona con il floppy disk per salvare.

6. Manoscritti

Se si carica l’mmagine di un manoscritto la trascrizione avviene manualmente. Il programma include una “tastiera virtuale” che permette di inserire abbreviazioni e caratteri speciali.

7. Creazione di un modello HTR

Per iniziare ad effettuare il training di un modello occorrono circa 5000 parole trascritte di testo stampato o 15000 parole di testo scritto a mano. A questo punto si può inviare una email (email@transkribus.eu) chiedendo al Team di Transkribus di realizzare il modello.

8. Utilizzo di un modello HTR

Dal menu a tendina (Text Recognition) si seleziona il modello HTR e si avvia il riconoscimento (delle altre pagine del manoscritto) cliccando su Run.

9. Dati sul modello e curva di apprendimento

Il grafico in basso a destra indica la precisione del modello con il Tasso di Errore del Carattere (CER – Character Error Rate), ovvero la percentuale di caratteri che sono stati trascritti in modo errato dall’HTR. La linea blu rappresenta il progresso del training. La linea rossa rappresenta lo stato di avanzamento delle valutazioni sul set di test dei dati che è stato messo da parte durante il processo di addestramento.

10. Keyword Spotting

Adesso che hai un modello HTR per i tuoi documenti, puoi effettuare ricerche utilizzando la funzione Keyword Spotting. Non si tratta semplicemente di ricercare una parola in un testo, ma di determinare quali sono le parole chiave più rilevanti in un contesto complesso.

Note finali

Transkribus sarà gratuito fino al 2020. Poi diventerà a pagamento, ancora non si conoscono bene i dettagli, ma se vuoi fare una prova ti conviene approfittarne adesso.

[Download PDF]

Ho dato un piccolo contributo al progetto traducendo in italiano la guida “Transkribus in 10 passi”. Clicca sul link per scaricarla.

Condividi su
  • 62
    Shares

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *