Transkribus, un software per la trascrizione di manoscritti

Maximilian Ventura ~ 27 Marzo 2019 ~ Tutorial

Transkribus, un software per la trascrizione di manoscritti

Transkribus è una piattaforma completa per il riconoscimento automatico, la trascrizione e la ricerca di documenti storici. Questo progetto fa parte del più ampio programma chiamato READ (Recognition and Enrichment of Archival Documents) finanziato dalla Commissione europea con i fondi Horizon 2020.

Transkribus è composto da tre parti:

  • Un software da scaricare (per Win e Mac)
  • Un’interfaccia web
  • Un sistema cloud per il salvataggio e l’elaborazione dei dati

L’obiettivo principale di Transkribus è supportare gli utenti impegnati nella trascrizione di documenti stampati o manoscritti. Transkribus offre numerosi strumenti per l’elaborazione automatizzata di documenti, come ad esempio:

  • Riconoscimento testo scritto a mano (HTR)
  • Analisi Layout
  • Comprensione documento
  • Spotting delle parole chiave
  • Inserimento di metadati
  • OCR con ABBYY Finereader Engine 11

L’aspetto più interessante è la trascrizione automatica (HTR) dei manoscritti. Occorrono almeno 100 immagini correttamente trascritte. Avendo a disposizione questo set di dati, i documenti verrano inviati al Computational Intelligence Technology Lab (CITlab) dell’Università di Rostock. La creazione del training di dati (come abbiamo visto in “Machine Learning per la trascrizione automatica di manoscritti“) è fondamentale perché permette al software di avviare il riconoscimento dei caratteri.

5 inchiostri medievali

5 inchiostri medievali riprodotti in laboratorio

Un team di ricerca composto da storici e chimici ha riprodotto 5 inchiostri medievali utilizzando ricette presenti nei trattati medievali.

Come si utilizza Transkribus

1. Scarica il programma

Vai sul sito, registrati e scarica il programma. Se usi MacOS potrebbe apparire un messaggio di errore la prima volta che provi ad aprire Transkribus. In questo caso: clicca con il pulsante destro del Track Pad per aprire il Menu Contestuale e aggiungere una eccezione di sicurezza per Transkribus. Una volta scaricato Transkribus, scompatta il file e salva il contenuto in una cartella.

2. Avvia Transkribus

Fai partire il programma ed effettua il Login con i dati della registrazione.

Avvia Transkribus
Fig. 1 – Avvia Transkribus

3. Carica i tuoi documenti

Clicca sull’icona con la cartella e la freccia verde per caricare i tuoi documenti. Puoi lavorare sia in locale che dal server. La piattaforma accetta diversi formati: PDF, JPEG, PNG e file TIFF.

Carica i documenti su Transkribus
Figura 2 – Carica i documenti su Transkribus

4. Gestisci le collezioni

Cliccando sul pulsante sotto la scritta Collections si ha accesso a tutte le collezioni. Sono presenti quelle utilizzate per imparare ad usare il programma. In questo caso la collezione che ho creato si chiama gianformaggio.

Gestione delle collezioni
Fig. 3 – Gestione delle collezioni

5. Segmentazione e trascrizione

Cliccando sul pulsante Tool, nella scheda in alto a sinistra, puoi segmentare il documento ed avviare il riconoscimento. Se non si tratta di un manoscritto si può scegliere come metodo OCR Abbyy FineReader. In basso a destra è presente la trascrizione, una volta effettuate le correzioni è sufficiente cliccare sull’icona con il floppy disk per salvare.

Segmentazione e trascrizione
Fig. 4 – Segmentazione e trascrizione

6. Manoscritti

Se si carica l’mmagine di un manoscritto la trascrizione avviene manualmente. Il programma include una “tastiera virtuale” che permette di inserire abbreviazioni e caratteri speciali.

Trascrizione manoscritti con Transkribus
Fig. 5 – Trascrizione manoscritti con Transkribus

7. Creazione di un modello HTR

Per iniziare ad effettuare il training di un modello occorrono circa 5000 parole trascritte di testo stampato o 15000 parole di testo scritto a mano. A questo punto si può inviare una email (email@transkribus.eu) chiedendo al Team di Transkribus di realizzare il modello.

8. Utilizzo di un modello HTR

Dal menu a tendina (Text Recognition) si seleziona il modello HTR e si avvia il riconoscimento (delle altre pagine del manoscritto) cliccando su Run.

9. Dati sul modello e curva di apprendimento

Il grafico in basso a destra indica la precisione del modello con il Tasso di Errore del Carattere (CER – Character Error Rate), ovvero la percentuale di caratteri che sono stati trascritti in modo errato dall’HTR. La linea blu rappresenta il progresso del training. La linea rossa rappresenta lo stato di avanzamento delle valutazioni sul set di test dei dati che è stato messo da parte durante il processo di addestramento.

Modello HTR
Fig. 6 – Modello HTR

10. Keyword Spotting

Adesso che hai un modello HTR per i tuoi documenti, puoi effettuare ricerche utilizzando la funzione Keyword Spotting. Non si tratta semplicemente di ricercare una parola in un testo, ma di determinare quali sono le parole chiave più rilevanti in un contesto complesso.

Note finali

Transkribus sarà gratuito per tutto il 2020, poi diventerà a pagamento.

La guida in Italiano di Transkribus

Ho avuto il piacere di parlare con Johanna Walcher dell’Università di Innsbruck, responsabile per la creazione delle guide “How to”, per proporle di tradurre in italiano la guida ufficiale. La traduzione è stata accettata ed è disponibile per il download.

Aggiornamento 2022

Il sito del progetto è stato completamente rinnovato e non è più disponibile il PDF, ma è stata creata la sezione “Resource center” che contiene tutte le informazioni per usare il software.

2 commenti su “Transkribus, un software per la trascrizione di manoscritti”

  1. mario pellizzone

    Programma ottimo anche se ho qualche difficoltà perchè non riesco a caricare le trascrizioni delle parole già riconosciute. Sia in locale che dal serve mi da la prima trascrizione senza le mie correzzioni. Probabilmente il file .xlm dove vedo le correzzioni sono state effettuate non è al posto giusto e non riesco a farlo apparire sul programma.
    Un altro aspetto più importante è il gran numero 15000 delle parole da riconoscere. Non è possibile che il riconoscimento sia graduale. Mi spiego. Se ho individuato un gran nomero di volte una parola (Casa) il programma non potrebbe individuare automaticamente in tutto il testo la parola oppure anche solo il singolo carattere (C). Questo aiuterebbe il riconoscimento di altre parole che iniziano con C e accelerebbe il lungo lavoro di riconoscimento. Grazie.

    1. Ciao Mario e grazie per il commento, ho installato da poco la nuova versione ma non l’ho ancora provata, spero di poterlo fare nei prossimi giorni. Per quanto riguarda il training del riconoscimento non credo ci siano alternative. Hanno dato quel parametro perché avranno notato che con un numero inferiore di parole l’algoritmo non dà buoni risultati.

      Ho sperimentato qualcosa di simile con un altro algoritmo di ML:
      https://fontistoriche.org/machine-learning-manoscritti/

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *