Att forska på digitala medeltida handskrifter

Patrik Granholm, Kungliga biblioteket

Om böcker och deras bruk – ett symposium om medeltida handskrifter
Institutionen för kulturvetenskaper, Lunds universitet, 24 oktober 2019

patrikgranholm.com

Digitala handskrifter på webben

  • Utmaningar och problem
    • Endast en bråkdel av de medeltida handskrifterna är digitaliserade (< 10 %)
    • En global samkatalog för medeltida handskrifter saknas
    • Oförmåga/ovilja att använda standardiserade metadataformat
    • Begränsningar av upphovsrättsliga och tekniska skäl
  • Lösning i sikte?
    • Öppna standarder som TEI och IIIF får allt större genomslag
    • Allt mer digitaliserat material görs fritt tillgängligt (CC0)
    • Möjliggör tekniska lösningar för en söktjänst

Nationella digitala kataloger

Nationella digitala kataloger (2)

Söktjänster

IIIF

Varför använda IIIF?

  • Gör bildbaserade resurser så tillgängliga som möjligt på nätet
  • Levererar högupplösta, zoombara bilder som kan modifieras, annoteras och citeras
  • Gör det möjligt att kombinera och jämföra bildresurser från olika källor
  • Bygger på öppna standarder och länkad data
  • Har ett utbrett stöd i mjukvara för bildvisningsklienter och bildservrar, både produkter med öppen källkod och kommersiella produkter

Före IIIF

Efter IIIF

Vad erbjuder IIIF?

  • IIIF utvecklar och underhåller två core API (= Application programming interface), eller kommunikationsprotokoll, för interaktiv funktionalitet för bildbaserade resurser
    • Image API
    • Presentation API
  • Dessutom finns ytterligare två API:er som används i mindre utsträckning
    • Authentication API
    • Content Search API

Image API

  • API för interoperabel leverans och delning av digitala bilder över webben
  • Teknisk metadata, bildformat, upplösning etc.
  • Möjligt att hämta en specifik region/storlek av en bild med URI parametrar
    • http://www.example.org/iiif/abcd1234/full/full/0/default.jpg
    • http://www.example.org/iiif/abcd1234/125,15,120,140/full/0/default.jpg

Exempel på Image API

Presentation API

  • API för deskriptiv metadata för en bild eller en sekvens av bilder
  • Metadata lagras i JSON-LD format i en s.k. manifest-fil
    • Basinformation, t.ex. samling, signum, titel, författare
    • Dokumentstruktur, innehållsförteckning
    • Sekvenser (ursprunglig, nuvarande)
    • OCR, transkriptioner, översättningar, kommentarer

Exempel på Presentation API

Image API

Presentation API

Länkar

IIIF pussel

Manuscripta

  • En digital katalog över medeltida och tidigmoderna handskrifter i svenska bibliotek

  • Utvecklas och förvaltas av Kungliga biblioteket

  • TEI används för handskriftsbeskrivningarna
  • IIIF för de digitaliserade handskrifterna
  • Nuvarande status
    • 130 grekiska och 233 medeltida fornsvenska handskrifter
    • ca 50 000 digitaliserade handskriftssidor
    • ca 12 000 auktoritetsposter för personer, organisationer, platser och verk samt bibliografiska poster
    • ca 700 000 rader XML-kodad metadata

Bakgrund

  • Utvecklingen startade i ett projekt med målet att katalogisera och digitalisera alla grekiska handskrifter i Sverige (2012–2016)
    • Skapades som en ad hoc lösning för att publicera detaljerade handskriftsbeskrivningar kodade i TEI
    • Skräddarsytt kodningsschema i TEI
  • Utvecklingen har fortsatt i TTT-projektet: katalogisera medeltida fornsvenska handskrifter vid KB och UUB (2016–2020)
  • Fortsättningen följer i TTT2-projektet: katalogisera eftermedeltida fornsvenska handskrifter vid KB och UUB (2020–2023)

TEI - Text Encoding Initiative

  • Standard för uppmärkning av text i digital form baserad på XML 
  • TEI lämpar sig väl för detaljerade handskriftsbeskrivningar
    • Den hierarkiska strukturen i TEI motsvarar de fyra delar som används i handskriftskatalogisering: 
      • Beskrivning av innehåll
      • Kodikologisk beskrivning
      • Proveniens
      • Bibliografi
    • TEI har stöd för beskrivningar av kodikologiska enheter
  • Beskrivningar kan länkas till bilder och auktoritetsposter
  • TEI taggning möjliggör avancerade sökningar
  • TEI kan enkelt konverteras till andra format

Infrastruktur

  • Byggd med öppen programvara
    • eXist-db, en XML databas som har funktioner för indexering och sökning, samt för konvertering av TEI till HTML och PDF
    • Bilderna levereras med IIPImage Server
    • Diva.js och Mirador används för bildvisning
    • React.js för redigeringsgränssnittet
  • Källkod och TEI filer finns på GitHub
  • Bilderna är fritt tillgängliga utan restriktioner (CC0 Public Domain)

Framtida planer

  • Infrastruktur
    • Vokabulär för termer
    • Auktoritetsposter för verk
  • Innehåll
    • Ett urval av digitaliserade medeltida och tidigmoderna handskrifter på KB
    • Ca 70 Isländska handskrifter på KB
    • Ca 70 medeltida handskrifter vid Lunds universitetsbibliotek
    • Databas över illuminerade medeltida handskrifter i Sverige
    • Tryckta kataloger (OCR)

Demo

Frågor?

patrik.granholm@kb.se

patrikgranholm.com