Trefwoorden
De pilot van het Noord-Hollands Archief en Nationaal Archief om handgeschreven documenten full-text te doorzoeken met handschriftherkenningstechnieken (HTR) is zeer succesvol verlopen. Voor de uitvoering is samengewerkt met het programma Transkribus, onderdeel van het door de Europese Unie gesubsidieerde project READ (Recognition and Enrichment of Archival Documents). Vanwege de positieve uitkomsten is inmiddels een vervolgtraject gestart.
Met het pilotproject is Noord-Hollands Archief en Nationaal Archief is duidelijk geworden hoeveel potentie er schuilt in HTR. Door de positieve resultaten is het project in elk geval tot 2020 verlengd, en uitgebreid. De lessons learned worden hierin meegenomen. In het vervolgtraject wordt gekozen voor documenten met veel lopende tekst en weinig afkortingen, symbolen en tabellen. Ook wordt het project opgeschaald. De ambitie is om aan het einde van het project maar liefst twee miljoen handgeschreven pagina’s online tekstueel doorzoekbaar te maken. Nationaal Archief gaat daartoe aan slag met het archief van de Verenigde Oost-Indische Compagnie (VOC) uit de zeventiende en achttiende eeuw. Noord-Hollands Archief start met de archieven van de Haarlemse notarissen uit de negentiende eeuw. Ook de notarisarchieven uit de negentiende eeuw afkomstig uit andere provincies worden doorzoekbaar gemaakt. De getrainde HTR-modellen komen beschikbaar voor andere erfgoedinstellingen en onderzoeksinstituten.
Lees het uitgebreide verslag van de pilot op de website van het Noord-Hollands Archief