Ontopia: The Topic Map Company

Emnekart og norsk elektronisk innhold


Dette dokumentet er et innspill til NHD (Nærings- og handelsdepartementet) i forbindelse med eNorge-planen. Innspillet fremhever betydningen av standardisering, strukturering og semantisk koding for å øke verdien av elektronisk innhold gjennom forbedret gjenfinning, gjenbruk og sammenkopling. Det beskriver hvilken rolle emnekart (topic maps) kan spille i dette og skisserer et prosjekt for å lage en prototyp på den nasjonale kunnskapsbase.


Norsk elektronisk innhold og tjenester

Innspill til handlingsplan/strategi for norsk elektronisk innhold og tjenester
(ref. 2001/1760 IT-ITN – PGR)

og

Forslag til prosjekt på
Prototyp på den nasjonale kunnskapsbase

Steve Pepper, pepper@ontopia.net (Ontopia AS)
Pål Steigan, steigan@artemisia.no (Artemisia AS)

Innhold:

I dette dokumentet peker vi på at den fulle verdien av et digitalt innhold først lar seg hente ut dersom det er lett å finne det innholdet man søker etter, lett å gjenbruke det, og lett å koble det sammen med annet digitalt innhold. Det er først og fremst staten som kan legge til rette for den nødvendige standardisering, strukturering og semantisk kodinga av innholdet som gjør det lett tilgjengelig for brukerne. Vi fremmer her konkrete forslag til hvordan dette kan gjøres. (Se anbefalingene.)

Anbefalinger:

Det er ingen uoverkommelig oppgave å komme i gang med å skape infrastrukturen til en nasjonal kunnskapsbase. I punkt 5 fremmer vi et konkret forslag til et prosjekt for å utvikle en prototyp for en slik base i henhold til de føringer som nå kommer fra Stortinget.

Innledning

Nærings- og handelsdepartementet planlegger å utarbeide en handlingsplan for norsk elektronisk innhold og har bedt om innspill fra aktuelle miljøer (ref. 2001/1760 IT-ITN - PGR). Ontopia AS og Artemisia AS har gått sammen om å levere dette innspillet, som fokuserer på følgende hoved­områder:

  • Brukbarhetskrav som må stilles til elektronisk innhold
  • Statens rolle som tilrettelegger

Departementet påpeker at elektronisk innhold vil få en vesentlig betydning i utviklingen av informasjonssamfunnet og vil bidra til å videreutvikle norsk språk og kultur, effektivisere den offentlige sektor, samt stimulere næringsutvikling. En rekke prinsipielle problemstillinger blir nevnt, inkludert ansvar for digitalisering av analoge data, prising, opphavsrettslige forhold, sikkerhet og tillit. Slike problemstillinger er viktige, men etter vår mening er de av underordnet betydning i forhold til en klynge med problemstillinger som knytter seg til brukbarheten av det digitale innhold.

Innspillet konkluderer med følgende anbefalinger:

  • Staten må støtte aktivt opp om arbeid som fremmer bruk av standarder og strukturering
  • Staten må spille en hovedrolle i etablering av en konseptuell infrastruktur for sammenkobling av digitalt innhold

Det digitale innholds brukbarhet

Digitalt innhold i seg selv har bare en potensiell verdi. Denne verdien blir først utløst, realisert, når dette digitale innholdet lett kan gjenfinnes, gjenbrukes, og sammenkobles med annet digitalt innhold.

Gjenfinning

Påstand: Verdien av digitalt innhold er lik null dersom brukeren ikke er i stand til å finne det raskt og effektivt.

Et av de fremste kjennetegn ved informasjonsalderen er vanskeligheten med å finne informasjon. Jo mer digital informasjon vi omgir oss med, desto vanskeligere blir det å finne akkurat det vi trenger når vi trenger det. En velfundert strategi for å øke tilbudet av digitalt innhold må ta høyde for denne problematikken.

Enten man søker på hele nettet, på et enkelt nettsted, eller ens egen harddisk, er resultatet sjelden godt nok: det blir for mange irrelevante treff, og noen av de mest relevante treff blir ikke funnet i det hele tatt. Problemet skyldes at den mest brukte søketeknologien, fulltekstsøk, ikke kan håndtere det faktum at ett navn kan vise til flere emner, at ett emne kan benevnes med flere navn; at mye innhold ikke er tekstlig; samt vanskeligheten med å indeksere på tvers av ulike systemer.

Problemet kan kun løses ved hjelp av semantisk indeksering, som i sin tur forutsetter semantisk koding av digitalt innhold (se avnsitt 2.3).

Gjenbruk

Påstand: Verdien av digitalt innhold er svært begrenset dersom det ikke kan gjenbrukes over tid og på tvers av applikasjoner.

Det er sjelden slik at informasjon kun kan brukes i én sammenheng. Som regel finnes det et potensial til å gjenbruke den samme informasjon i en rekke ulike sammenhenger, på tvers av applikasjoner og brukergrupper, og ikke minst, over tid. Prisen man betaler for ikke å gjøre det mulig å gjenbruke informasjon er suboptimal utnyttelse, duplisering eller regelrett spill av de ressursene som frembringer informasjon. En velfundert strategi for å øke tilbudet av digitalt innhold må legge til rette for størst mulig grad av gjenbruk.

Den vanligste grunnen til at digitalt innhold ikke lar seg gjenbruke er at det er blitt for tett bundet til én bestemt applikasjon, særlig gjennom bruk av lukkede og proprietære formater som ikke kan utnyttes av flere applikasjoner. En annen vanlig årsak er gjenfinningsproblematikken som er nevnt i avsnittet foran.

Sammenkobling

Påstand: Digitalt innhold når ikke sin optimale verdi dersom den ikke kan kobles sammen med annen informasjon.

Informasjon og kunnskap blir til i mange organisasjoner og fora, som hver for seg bygger isolerte øyer av kunnskap, til tross for at det er en meget stor grad av overlapping når det gjelder emneområder. Informasjonsbaser som norge.no, kulturnett.no, forskning.no, samt tradisjonelle informasjonsbaser som Statens kartverk og Statistisk sentralbyrå osv. har i dag ingen felles struktur eller noen metode for aksess på tvers. De har heller ikke særlig tilknytning til andre kunnskapsbaser.

Det er et potensial for enorme synergieffekter dersom det blir bygget broer mellom disse kunn­skaps­øyene, og slike bruer vil igjen føre til økt gjenbruk, mindre duplisering, og mindre spill av ressurser. En velfundert strategi for å øke tilbudet av digitalt innhold må legge til rette for størst mulig samspill mellom alle slike baser, med tiltak som oppmuntrer til gjenbruk av informasjon, unngår unødvendig duplisering, letter gjenfinning på tvers av basene, og muliggjør smidig navigering fra én base til en annen.

Hvordan øke det digitale innholds verdi?

De viktigste virkemidler for å løse problemer knyttet til gjenfinning, gjenbruk og sammenkobling er:

  • Standardisering
  • Strukturering
  • Semantisk koding

Standardisering

Uten utstrakt bruk av åpne, internasjonale standardformater vil alle forsøk på å fremme utbredelsen av norsk digitalt innhold være forgjeves.

Proprietære formater (som f.eks. Microsoft Word og PDF) låser det digitale innholdet til én bestemt type programvare (f.eks. Microsoft Office eller Adobe Acrobat). Slike formater binder også innholdet til én type bruksområde og vanskeliggjør dermed gjenbruk. Dessuten endres proprietære formater over tid, etter hvert som programvareleverandøren utvikler produktet sitt, med den følge at det digitale innholdet må stadig oppdateres til nye formater eller risikere å bli utilgjengelig etter få år.

Åpne, internasjonale standarder, særlig de som er utviklet av den internasjonale standardiserings­organisasjonen (ISO), er den beste garantien for at digitalt innhold blir tilgjengelig over tid og på tvers av applikasjoner. Bruk av slike standarder bidrar derfor til å fremme både gjenfinning, gjenbruk og sammenkobling av informasjon.

Noen av de viktigste standarder er

  • XML (basert på ISO 8879 SGML) – tekst, dokumenter
  • XML Topic Maps (ISO 13250) – semantikk, indekser
  • JPEG (ISO 10918) – bilder
  • MPEG (ISO 11172, 13818, 14496, 15938 og 18034) – multimedia

Norske aktører har spilt en ledende rolle i utviklingen av flere av disse standarder, men deltakelsen i standardiseringsarbeid har vært dalende i de siste år takket være redusert statlig støtte til Norsk Teknologistandardisering (NTS) og dets arbeid.

Anbefaling vedr. standardisering

Staten bør støtte opp under prosjekter som fremmer standardisering og bruk av internasjonale standarder. Dette inkluderer:

  • støtte til deltakelse i standardiseringsarbeid (gjennom NTS)
  • støtte til prosjekter som munner direkte ut i digitalt innhold i standardformater
  • støtte til prosjekter som skaper infrastrukturer som forenkler bruken av standarder

Strukturering

Digitalt innhold som er godt strukturert er lettere å gjenbruke, fordi slikt innhold kan prosesseres automatisk og dermed billigere. Automatisk prosessering forutsetter “forutsigbarhet” i informasjonen, dvs. at den er kodet opp i henhold til kjente regler. Det er vanskelig (og dyrt) å skrive dataprogrammer som prosesserer ustrukturert informasjon fordi programmet vet aldri hva det skal forvente. Relasjonelle databaser er ett eksempel på strukturert data. Slike systemer har fått stor utbredelse innen regnskapsføring, lagerstyring, fakturering, kundestøtte og andre anvendelser hvor det elektroniske innholdet i stor grad er numerisk. Tekst og multimediale applikasjoner krever imidlertid andre former for strukturering, som f.eks. XML, XML Topic Maps, osv.

I noen tilfeller er detaljert strukturering av selve innholdet for kostbart. I slike situasjoner er bruk av strukturert metadata et alternativ som er sterkt å anbefale. Dette krever i sin tur at det finnes felles vedtatte vokabularer, eller semantiske koder, som kan benyttes til metadataverdiene.

Staten har lagt ned en del ressurser i strukturering av offisiell informasjon, for eksempel gjennom MUP-prosjektet i Administrasjonsdepartementet, men informasjonen er i liten grad blitt gjort tilgjengelig for almuen i strukturert form. For eksempel har Norges statskalender blitt produsert i strukturert form siden 1993, men er aldri blitt gjort allment tilgjengelig i denne formen.

Anbefaling vedr. strukturering

Staten bør oppmuntre til mest mulig bruk av strukturert informasjon og strukturert metadata, spesielt i statsadministrasjon og gjennom støtte til prosjekter utenfor staten. Der offisiell informa­sjon finnes i strukturert form bør den gjøres mest mulig tilgjengelig for almuen i denne formen.

Semantisk koding

Det viktigste tiltak for å løse problemene med gjenfinning, gjenbruk og sammenkobling er semantisk koding.

Hensikten med semantisk koding er å si noe om hva et stykke informasjon eller digitalt innhold betyr eller hvilken semantikk det bærer:

  • Skal man kunne finne relevant innhold er det ikke nok å bruke navn fordi ett navn kan referere til flere emner og ett emne kan ha flere navn. Det trengs mekanismer som kan gjøre det mulig å treffe riktig emne uten hensyn til hvilket navn det har.
  • Skal man kunne gjenbruke innhold, må man kunne finne det og vite at det dreier seg om ønsket emne (f.eks. landet Norge, ikke kongeskipet Norge) og at det har det ønskede forhold til dette emne (f.eks. et kart over Norge, og ikke en tekstlig beskrivelse av et aspekt ved Norge).
  • Skal man kunne koble sammen innhold fra ulike kilder om ett og samme emne, må man igjen kunne slå fast at de ulike aktører faktisk snakker om det samme emnet.

Dette krever en felles konseptuell infrastruktur for identifisering av emner, m.a.o. et rammeverk for publisering av unike identifikatorer for emner (her inkludert objekter, personer, begrep, osv.). Staten har en viktig rolle å spille som pådriver ved etablering av en slik infrastruktur.

Krav til en slik infrastruktur er at den må være både åpen, fleksibel, distribuert og utvidbar – og at den må være basert på en internasjonal standard. XML Topic Maps (ISO 13250) er en standard som egner seg svært godt til dette formål. Norge har spilt en ledende rolle i utviklingen av denne standarden og noen av verdens fremste ekspertise på området sitter her til lands.

Anbefalinger vedr. semantisk koding

1) Staten bør ta et initiativ for å etablere en felles konseptuell infrastruktur som muliggjør semantisk koding av digitalt innhold, basert på XML Topic Maps (“emnekart”). Dette tiltaket kan kobles sammen med spørsmålet om en Nasjonal kunnskapsbase ved at det tas utgangspunkt i Store Norske Leksikon, som har en godt strukturert grunnstamme av ca. 150.000 temaer.

(2) Det igangsettes et pilotprosjekt med sikte på å lage en fungerende prototyp på en slik infrastruktur. Dette prosjektet er omtalt i seksjon 4.

Emnekart-standarden og elektronisk innhold

En av de ferskeste internasjonale IKT-standarder heter ISO/IEC 13250:2000 Topic Maps (på norsk, emnekart). Denne standarden er blitt utviklet nettopp for å løse problemene knyttet til gjenfinning, gjenbruk og sammenkobling av informasjon og kunnskap.

Emnekart er en form for kunnskaps­representasjon med særlig anvendelse innen informasjons­håndtering. Et emnekart kan sees på som et uhyre raffinert stikkordregister, som gjør det lett å finne frem i store informasjons­mengder, men det er også mye mer enn det.

Emnekartmodellen består av to lag. I det nederste laget er innholdet, som ofte er digitalt, men behøver ikke å være det; det kan være tekstdokumenter, websider, bilder, lyd, video, verdier i en database eller regneark, eller bøker på en bokhylle. Oppå dette laget ligger et annet “abstrakt” lag som består av emner (f.eks. “Henrik Ibsen” og “Hedda Gabler”) og assosiasjoner (f.eks. “Hedda Gabler er skrevet av Henrik Ibsen”). Et emne kan ha mange navn, f.eks. på ulike språk, og det er mulig å skjelne mellom ulike emner med samme navn. Assosiasjonene angir koblinger, eller relasjoner, mellom emner.

Emnekartmodellen: En “kunnskapsvev” av emner og assosiasjoner over et distribuert sett av informasjonsressurser

Et emnekart består altså av en kunnskapsvev av emner og assosiasjoner – et slags semantisk nettverk – som er meget lett å navigere i fordi den avspeiler den assosiative måten vi mennesker tenker på. Kartet inneholder også pekere til informasjonsressurser (i laget under) som er forekomster av de enkelte emner. Et emne kan ha mange forekomster, og en ressurs kan være en forekomst av mange emner.

Emnekart som stammer fra ulike kilder kan flettes sammen. Dette gjør dem velegnet til å støtte sammenkobling av digitalt innhold, og for å løse utfordringen med f.eks. distribuerte kunn­skaps­baser. Fletting (eller “merging” på engelsk) muliggjøres gjennom en kraftig mekanisme som heter temaidentitet (“subject identity”). Det er temaidentitet som gjør det mulig å vite at ulike aktører snakker om ett og samme tema, enten de kaller det “Norge”, “Noreg” eller “Norga” (samisk), for det saks skyld; og det er temaidentitet som gjør det mulig å benevne flere temaer “Norge” (landet, kongeskipet, krigsskipet, aksjeselskapet) og likevel holde dem fra hverandre.

Emnekart, og temaidentitet, lanseres som den mest passende løsning for det systemet av unike identifikatorer som skal til for å fremme semantisk koding av digitalt innhold.

En annen vesentlig og revolusjonerende egenskap ved emnekart er deres evne til å romme ulike verdensanskuelser og perspektiver. Med emnekart er det mulig å beskrive at “Norga” er et gyldig navn for emnet Norge innenfor perspektivet Samisk; at en bestemt innholdsressurs (forekomst) er gyldig i perspektivet VG1 (Videregående 1); og at assosiasjonen mellom emnene Dinosaur og Robot gir mening i perspektivet til en 10-år gammel gutt! Ved sammenkobling av innhold og kunnskap som stammer fra ulike kilder er denne evnen til å romme ulike perspektiver meget viktig.

Til tross for at standarden kun er litt over ett år gammel finnes det allerede verktøy for å lage emne­kart. Noe av programvaren er gratis, og mye av det er til og med norsk (se f.eks. www.ontopia.net/omnigator).

Emnekart er allerede blitt tatt i bruk av statlige organer og institusjoner som ITU (Det nasjonale forsknings- og kompetansenettverk for IT i utdanning) og Norges forskningsråd for hhv. nettstedene http://www.itu.no/ og http://www.forskning.no/.

Mer informasjon om emnekart finnes på nettstedet til Ontopia AS ( http://www.ontopia.net/).

Prosjektforslag:
Prototyp på den nasjonale kunnskapsbase

Samfunnet investerer store summer på informasjonsbaser av ulike slag, som norge.no, kulturnett.no, forskning.no, samt tradisjonelle informasjonsbaser som Statens kartverk og Statistisk sentralbyrå osv. NRKs arkiver kan også betraktes som en slik informasjonsbase, som dersom den blir digitalisert ville kunne ha stor kulturell og pedagogisk betydning.

Disse basene har i dag ingen felles struktur eller noen metode for aksess på tvers. De har heller ikke særlig tilknytning til andre kunnskapsbaser. Statens primære oppgave bør være å legge til rette for størst mulig samspill mellom alle slike baser, med tiltak som oppmuntrer til gjenbruk av informasjon, unngår unødvendig duplisering, letter gjenfinning på tvers av basene, og muliggjør smidig navigering fra én base til en annen.

En distribuert løsning for nasjonal kunn­skaps­base forutsetter et reisverk, eller “infrastruktur”, som gjør at ulike aktører kan fastslå hvorvidt deres bidrag skal knyttes til et gitt emne (uansett hva de kaller det). Dette løses ved at emner tildeles unike identifikatorer. Etableringen av en slik mekanisme bør sees på som en statlig oppgave.

Selv om nasjonal kunnskapsbase skal være distribuert, trenger den likevel sentrale inngangs­porter, som er tilpasset ulike brukergruppers behov. Opprettelsen av én eller flere slike nøytrale “kunnskapsportaler” bør være en statlig oppgave, men den bør ikke være til hinder for opprettelsen av private eller kommersielle portaler i tillegg.

De føringene som er lagt i Stortingets undervisningskomité peker på at de folkevalgte ønsker at det utvikles en nasjonal kunnskapsbase med gode systemer for gjenfinning og sammenkobling av innholdet i ulike baser. For å realisere dette, foreslår vi at staten sikrer seg retten til å bruke metadataene i Store Norske Leksikon, f.eks. som motytelse mot å subsidiere leksikonets fortsatte vedlikehold i en periode fremover.

Med dette utgangspunktet bør det gjennomføres et prosjekt for å utvikle en fungerende prototyp for en nasjonal kunnskapsbase.

Når prototypen er ferdigstilt, vil det bli mulig å utarbeide, offentliggjøre og vedlikeholde et standard sett av emner og identifikatorer, med utgangs­punkt i emnene i Store Norske Leksikon. Disse vil kunne danne utgangspunktet for en felles infrastruktur for sammenkobling av ulike informasjonsbaser. I prototypen vil det også finnes prinsipper for ulike betalingsmodeller for kjøp av rettighetsbelagt innhold.

Prosjektet vil omfatte både leksikalsk arbeid og arbeid med emnekart/struktur. En omtrentlig fordeling av arbeidet i prosjektet framgår av tabellen:

Analyse,
kravspek. oa.

Utvikling av
prototyp

Testing,
evaluering

Sum

Leksikalsk arbeid

6 %

16 %

3 %

25 %

XML/emnekart

16 %

31 %

6 %

53 %

Øvrig

3 %

16 %

3 %

22 %

SUM

25 %

63 %

13 %

100 %

Vårt estimat på kostnadene med et slikt prosjekt er 1,5 mill. kroner og varigheten ville være ca. et halvt år.

Dersom NHD skulle være interessert et å utvikle en slik prototyp, kan vi gjerne påta oss å gjennomføre det, for eksempel under overvåkning av Norges forskningsråd.

Om Ontopia AS

Ontopia AS ble grunnlagt i 2000 av Steve Pepper, Geir Ove Grønmo og Lars Marius Garshol. Firmaet har hovedfokus på emnekart og ligger i fremste rekke internasjonalt når det gjelder strukturering av informasjon og kunnskap.

Steve Pepper har ledet Norges delegasjon til ISO-komitéen SC34 siden 1996. (Denne komitéen har ansvaret for “dokument­beskrivelsesspråk og tilknyttede standarder”, inkludert SGML og Topic Maps.) Han er redaktør av XML Topic Maps (XTM) spesifikasjonen og medforfatter av boken SGML Buyer’s Guide sammen med oppfinneren av SGML og XML, Charles Goldfarb. Lars Marius Garshol er medlem av Norges delegasjon til SC34, forfatter av boken Definitive XML Application Development, og redaktør av spørrespråket TMQL. Geir Ove Grønmo er forfatter av en rekke Open Source programvare, spesielt rettet mot prosessering av XML og emnekart.

Til sammen har teamet bak Ontopia spilt en nøkkelrolle i en rekke statlige prosjekter for strukturering av informasjon, inkludert Norges første offentlige SGML-prosjekter i stats­administrasjonen (Statskalenderen, NOU-prosjektet og MUP-prosjektet) og forsvaret (CALS-prosjektene). De var også ansvarlige for strukturering av Store Norske Leksikon i henhold til SGML-standarden, inklusiv konvertering av hele tekstbasen til SGML. I forlengelse av dette arbeidet deltok de i en teknologigruppe bestående bl.a. av sjefsredaktørene for nasjonal­encyklo­pediene i Norge, Danmark, Sverige, Polen og Tyskland i perioden 1998-99, og er derfor godt kjent med problemstillingene som knytter seg til leksikonproduksjon og kunnskapsstrukturering.

Om Artemisia AS

Artemisia AS ble grunnlagt i 1999 av Pål Steigan, mangeårig redaktør av Cappelens leksikon, og utgiver av Europas første leksikon på CD-ROM (1987) og Nordens første multimedialeksikon (1991), og den som skapte informasjonsstukturen i Cappelens leksikon.

Artemisia AS har blant annet vært rådgiver for:

  • Statens informasjonstjeneste (kvalitetskrav til offentlige nettsteder),
  • Norsk språkråd (handlingsplan for norsk språk og IKT),
  • Verdikommisjonen (utviklet kommisjonens CD-ROM)
  • Telenor (strategi for e-læring)
  • NRK (strategi for bruk av NRKs innhold i nettbasert læring, NRK Kunnskap),
  • Norad (evaluering av systemer for formidling og salg av rettighetsbelagt musikk via internett).


Relatert: