De deelnemers aan de landelijke KVAN pilot ‘Tot de bodem! Geautomatiseerd toegankelijk maken van archieven’ kregen een rondleiding door de digitaliseringsstraat van 2dA in Nijmegen. Daar werd duidelijk hoeveel er inmiddels is gebeurd: het grootste deel van de ruim 41 meter fysieke archiefstukken van de 19 deelnemende archiefinstellingen is al gedigitaliseerd. En natuurlijk was het extra leuk om de ‘kar van KVAN’ in het echt te zien tijdens het werkbezoek.
Casus Marietje Kessels als voorbeeld Tijdens de rondleiding gaven Duncan Kuipers en Peter van Anrooij een inhoudelijke toelichting en beantwoordden zij vragen. Aan de hand van archiefmateriaal rondom Marietje Kessels, ingebracht door het Brabants Historisch Informatie Centrum, lieten zij zien wat er technisch allemaal mogelijk is met de gedigitaliseerde stukken.
Van scan naar samenvattende tekst
Een belangrijk deel van de demonstratie ging over de technische flow: hoe kom je van gescande documenten naar automatisch gegenereerde beschrijvingen? 2dA laat zien dat dit volledig lokaal kan worden uitgevoerd, in grote lijnen via de volgende stappen:
1. Tekst uit scans wordt herkend via HTR/OCR-modellen.
2. De herkende tekst wordt omgezet in vectorrepresentaties (embeddings).
3. Een lokaal LLM-model verwerkt deze embeddings.
4. Op basis daarvan wordt een prompt geformuleerd waarmee het model een samenvattende tekst genereert.
Daarbij kunnen automatisch al veel entiteiten worden geëxtraheerd, wat de drempel om archieven beter doorzoekbaar te maken verder verlaagt.
Een van de vragen uit de groep was: “Hoe bepaal je wat de hoogst haalbare kwaliteit is?” Het antwoord: door te benchmarken. De resultaten van verschillende runs worden met elkaar vergeleken, omdat er soms verschillen in de data zitten. Zo ontstaat inzicht in kwaliteit en betrouwbaarheid.
Vision-modellen en agents in de praktijk
Naast tekstverwerking liet 2dA ook zien hoe zij Vision-modellen inzetten om medewerkers te ondersteunen. Via een bril met ObjectDetection kunnen objecten in de omgeving automatisch worden herkend, wat nieuwe manieren van werken mogelijk maakt. Tot slot demonstreerde Peter een setup van ‘agents’ die, op basis van de bestaande infrastructuur, antwoord kan geven op de uitdaging uit fase 1 van de pilot: het automatisch structureren van archiefinformatie. De technische basis staat al stevig; verdere finetuning zal plaatsvinden samen met archief- en domeinexperts.
Het geheel maakte veel indruk op het projectteam. De opgedane inzichten nemen we mee in de verdere afwegingen binnen het pilotproject.
Maandbijeenkomst en vervolg
Aansluitend aan de rondleiding maakten we gebruik van de gastlocatie in Nijmegen voor de maandbijeenkomst met de deelnemers. Handig, nu iedereen toch al voor de rondleiding aanwezig was. Aan het einde van de dag heeft KVAN-programmamanager Ingrid Oostendorp met een kleiner team verder gewerkt aan het aanscherpen van de samenwerking en de concretisering van de opdracht voor de komende periode.
Over de pilot ‘Tot de bodem!’ De ambitie van deze KVAN-pilot? Archieven in de toekomst beschikbaar maken als nutsvoorziening: publiek toegankelijk, betrouwbaar en duurzaam – net zo vanzelfsprekend als water, elektriciteit of internet. Met nu maar liefst 20 (archief)instellingen gaat de landelijke KVAN-pilot ‘Tot de bodem! Geautomatiseerd toegankelijk maken van archieven’ van start. In fase 1 realiseren we met elkaar een digitale werkwijze die het handmatige, tijdsintensieve inventariseren (grotendeels) kan vervangen.
Tijdens de pilot delen we regelmatig updates vanuit de teams en interviews met betrokkenen. Je kunt deze volgen via onze nieuwsberichten en op onze themapagina over de pilot ‘Tot de bodem!’.
Meer informatie > Foto’s Werkbezoek op LinkedIn
> Tijdens de pilot delen we updates vanuit de teams en interviews met de betrokkenen. Je kunt dit alles hier volgen en op onze themapagina