En åpen og demokratisk kunnskapsbase |
||||||
Debatten om en nasjonal kunnskapsbase har bølget i hele høst etter
at undervisningsminister Kristin Clemet forkastet begge anbudene som var
sendt departementet. Konsulent og tidligere redaktør for Cap Lex Pål Steigan og daglig leder Steve Pepper i
informasjonsstrukturerings-firmaet Ontopia presenterer her et detaljert
forslag til hvordan en brukervennlig kunnskapsbase kan
organiseres. Da Denis Didérot og Jean d'Alembert skapte Den store encycklopedien i Frankrike på 1700-tallet hadde de som mål å samle all sin tids kunnskap i dette verket. Deres erklærte hensikt var å bryte elitenes kunnskapsmonopol og bringe kunnskapen til folkeflertallet, slik at det kunne bane vei for et folkestyre. I vår innbød Kulturdepartementet til en anbudskonkurranse om å skape en nasjonal kunnskapsbase, et nasjonalt løft i de franske encyclopedistenes ånd. To grupperinger kom til finalen, Kunnskapsforlaget og en gruppering rundt Cappelens forlag, og stor var overraskelsen og skuffelsen da undervisningsminister Kristin Clemet erklærte at hun hadde forkastet begge anbudene. Men kanskje det er von i hangande snøre. 19. november sa Clemet at hun "oppfordrer både eksisterende og nye aktører til å tenke fritt og uavhengig av dagens teknologi og kommersielle begrensninger." Undertegnede, en tidligere leksikonredaktør og en kunnskapsarkitekt, tar i mot utfordringen. De ulike partene i dette lille dramaet har gode argumenter på hver sin måte. Kunnskapsforlaget har helt rett i at det ville være en tragedie om det store innholdet og den kompetansen som Stor Norske Leksikon representerer skulle gå tapt. Cappelen-gruppa har rett i at det ville være galt om bare ett forlag skulle bidra til en nasjonal kunnskapsbase og Clemet har rett i at staten ikke bør bli et forlagsmonopol. Men ingen har egentlig svart på hvordan man så skal kunne skape en nasjonal kunnskapsbase. En nasjonal kunnskapsbase må være noe mer enn en nasjonalencyklopedi, det må være noe mer enn et stort statsfinansiert leksikon. For det første, og det er utrolig viktig, finnes det mange miljøer som bearbeider informasjon og utvikler kunnskap. Tenk på forskningsmiljøene, tenk på biblioteker, museer, arkiver, tenk på statlige nettsatsninger som norge.no, kulturnett, osv., tenk på små og store forlag eller for den del ressurspersoner og fagmiljøer ellers. For det andre, for å sitere den store amerikanske tenkeren Frank Zappa: "informasjon er ikke kunnskap og kunnskap er ikke visdom." Et leksikon bygger på kunnskap, men er først og fremst en informasjonsbase. Det de to anbyderne har gjort er å legge fram interessante forslag til oppbygging av store informasjonsbaser med to ulike leksikonbaser som kjerne. Det som trengs er å stille enda mer ambisiøse mål, å gjenta Didérots og d'Alemberts bedrift med det 21. århundres teknologi og forutsetninger. Tenk deg:
Slik er visjonen. Vi tror at det er en drøm som kan realiseres, og dét innenfor en forholdsvis kort tidsrom og akseptabel prisramme. Grunnen til vår optimisme er en ny kunnskapsteknologi som synes å ha vært ukjent for de som skrev KUFs tilbudsdokument. Denne teknologien åpner for helt andre muligheter enn de som er beskrevet i anbudene fra Kunnskapsforlaget og Cappelen. Teknologien går under det engelske navnet "Topic Maps". Noen etablert terminologi finnes foreløpig ikke på norsk, så vi foreslår og vil bruke begrepet "emnekart". Emnekart er beskrevet i en internasjonal standard (ISO 13250) og ble utviklet av den samme komitéen som sto for idéene bak XML (Extensible Markup Language). Norge har spilt en sentral rolle i utviklingen av emnekart-standarden gjennom Norsk teknologistandardisering og dens deltakelse i ISO-komitéen SC34. Noen av verdens fremste ekspertise på området sitter her til lands. Hva går så teknologien ut på? Kort beskrevet er emnekart en form for kunnskapsrepresentasjon med særlig anvendelse innen informasjonshåndtering. Et emnekart kan sees på som en uhyre raffinert og svært kraftig stikkordregister, som gjør det meget enkelt å navigere og finne frem i store informasjonsmengder, men det er også mye mer enn det. Emnekart har en rekke egenskaper som gjør at de er i stand til å realisere visjonene ovenfor, men deres grunnleggende prinsipper er likevel svært enkle. I emnekartmodellen opererer man med to lag. I det nederste laget ligger informasjonsressurser. De kan være hva som helst: tekstdokumenter, websider, bilder, lyd, video, til og med verdier i en database eller regneark. Oppå dette laget, og adskilt fra informasjonsressursene, ligger et annet "abstrakt" lag, som består av emner ("topics") og assosiasjoner ("associations"). Typiske emner ville være Henrik Ibsen, Edvard Grieg, skuespillet Peer Gynt, Griegs scenemusikk til Peer Gynt, skikkelsene Peer og Åse, osv. Et emne kan ha mange navn (synonymer), f.eks. på ulike språk, og det er mulig å skilne mellom emner som har det samme navn (homonymer). Assosiasjonene angir koblinger mellom de ulike emner, som f.eks. "Peer Gynt er skrevet av Henrik Ibsen", "Ibsen var født i Skien", "Griegs scenemusikk er basert på skuespillet Peer Gynt", osv. Emner og assosiasjoner utgjør et indekseringslag, eller kunnskapsvev om man vil, som avspeiler den assosiative måten vi mennesker tenker på og er derfor meget lett å navigere i. Laget inneholder også lenker som peker til informasjonsressurser (i laget under) som er forekomster ("occurrences") av de enkelte emner. Et emne kan ha mange forekomster, og en ressurs kan være en forekomst av mange emner. Kunnskapsnett. Indekseringslaget av emner og assosiasjoner er en form for semantisk nett, eller kunnskapsnettverk. Semantiske nett er blitt brukt i flere tiår av forskere innen kunstig intelligens nettopp for å representere kunnskap i en form som er tilgjengelig for maskiner. Lenkene fra emner til informasjonsressurser (altså, forekomstene) utgjør en slags bro mellom kunnskap og informasjon. Det er dette som i første rekke rettferdiggjør vår påstand om at emnekart - topic maps - kan og bør danne grunnlaget for en virkelig nasjonal kunnskapsbase. Modellen som vi har beskrevet så langt er allerede svært anvendelig, men emnekart har flere egenskaper som gjør dem i stand til å realisere visjonene våre. Fletting. For det første er det mulig å flette sammen to eller flere emnekart som kommer fra ulike kilder. Dette skjer på grunnlag av en mekanisme som heter emneidentitet, eller "subject identity". Emneidentitet har noe til felles med URN-mekanismen som er foreslått brukt i Cappelens anbud, men er betydelig mer fleksibelt. Den gjør det mulig å vite at vi snakker om én og samme ting, selv om vi kaller det "Norge" i et emnekart, "Noreg" i et annet, eller "Norway", "Norga" (samisk) for den saks skyld. Evnen til å flette sammen emnekart er helt avgjørende for en distribuert kunnskapsbase der også andre aktører har mulighet til å komme med sine bidrag. Perspektiver. En annen vesentlig og revolusjonerende egenskap ved emnekart er deres evne til å romme ulike verdensanskuelser og perspektiver. Dette gjøres ved hjelp av en fasilitet som heter perspektiv ("scope"). Et emnekart består av en rekke påstander ("assertions"); enhver tilegnelse av et navn, en assosiasjon, eller en forekomst til et emne er en påstand som ansees å ha gyldighet innenfor et bestemt perspektiv. Perspektiv uttrykkes som et sett av emner; hvis ikke en påstands perspektiv er spesifisert, ansees påstanden å være almengyldig innenfor dette emnekart. Således brukes perspektiv til å angi at "Norga" er et gyldig navn for emnet Norge innenfor perspektivet Samisk; at en bestemt forekomst (informasjonsressurs) er gyldig i perspektivet VG1 (videregående, 1. trinn); og at assosiasjonen mellom emnene Dinosaur og Robot gir mening i perspektivet til en 10-år gammel gutt! Standard. Det er ikke tvil om at emnekart er anvendelige nok til å kunne realisere vår visjon. Det faktum at det dreier seg om en internasjonal ISO-standard bør også veie tungt; det betyr at vår kunnskapsbase vil kunne nyttes av et stort og variert utvalg av programvare, og ikke være låst til én proprietær teknologi. Det betyr også at kunnskapsbasen er sikret for fremtiden, idet ISO-standarder varer mye lengre enn andre formater, potensielt i all evighet. La dette seg gjennomføre? Vil det ikke være for kostbart? Verktøy. Til det er å si: Ja, verktøyene finnes, til tross for at standarden kun er ett år gammel. Noe av programvaren er gratis, og mye av det er til og med norsk. Demonstrasjoner av noen sider ved denne teknologien kan sees på Ontopias hjemmesider, http://www.ontopia.net/omnigator. Dessuten er jobben med å skape emnekart absolutt overkommelig. Store Norske Leksikon gir allerede et meget godt utgangspunkt. Vi kan begynne der og la kartet vokse innover og utover. Når vi har skapt et ryggrad av emner og assosiasjoner vil andre kunne komme med sine bidrag, for eksempel vil Ibsen-instituttet kunne fylle ut bildet av Ibsen som allerede står i SNL. Erfaring viser at emnekart har en egen evne til å vokse organisk (gjennom bidrag fra enkeltpersoner) og kvantitativt gjennom sammenslåing med emnekart som stammer fra eksisterende baser (f.eks. hos Statistisk Sentralbyrå). Det betyr blant annet at vi ikke behøver å løse hele oppgaven i ett jafs. Fremgangsmåte. Hvordan bør vi går frem? Vårt forslag er følgende:
Det er fullt mulig å ha førsteversjonen av basen i prøvedrift innen neste sommer, forutsett klarsignal i årets budsjett. I mellomtiden bør nettversjonen av SNL opprettholdes. Etter ett år kan man være klar til å ta imot bidrag fra andre, både i form av nye forekomster av eksisterende emner (f.eks. innhold fra et urdu leksikon, kjøpt inn med midler fra innvandrerorganisasjoner og den pakistanske regjering), og i form av andre emnekart (fra ITU, NFR, SSB, osv.) som flettes inn. I løpet av denne tiden vil forhåpentligvis andre aktører, som aviser, fjernsyn og forlag, ha fått tilstrekkelig orden på sitt materiale til også å kunne bidra med innhold. Det blir opp til de enkelte; ingen blir forfordelt. Her vil Cappelen kunne bidra på like linje med Kunnskapsforlaget, men også Samlaget, Pax, TV2 eller Norsk filateliforening. Finansiering. Hva så med prisen? Vi våger påstanden at emnekart-teknologien gjør det mulig å oppnå langt mer enn de foreliggende løsningsforslag uten å bruke flere statlige midler. Kostnadene kan spres på flere aktører og resultatet kan gjenbrukes på en rekke måter. På forholdsvis kort sikt vil basen kunne gi inntekter som går ut over hva et nettleksikon vil kunne forvente.
*** Med dette kan vi bære arven fra Diderot og d'Alembert inn i et nytt århundre og tilpasset vår tids samfunnsforhold og teknologi. Norge har de fleste forutsetninger for å lykkes: et utmerket utgangspunkt i SNL; toppmoderne infrastruktur; ekspertise i verdensklasse når det gjelder den aktuelle teknologien; en tradisjon med nasjonal dugnad som svarer godt til behovet for en distribuert løsning bygget på samarbeid mellom mange aktører; et lynne som gjør at vi kan godta den disiplinen som er nødvendig for å lykkes; og en økonomi som gjør at vi sannelig har råd til å ta de initielle investeringer. En av grunnen til at Diderot og d'Alembert lyktes i sitt prosjekt var støtten de fikk fra Russlands eneveldige, men samtidig opplyste hersker, Katarina den Store. Dagens enevoldsherskere er tvilsomme kandidater til denne rollen. Men kanskje kan Kristin Clemet fylle den? Vårt forslag tar vare på de store verdiene som ligger i SNL, det tar vare på innvendingene fra Cappelen og det tar vare på betenkelighetene som Kristin Clemet har reist. Så da er det bare for ministeren å vise det vidsyn og initiativ som stunden krever... Relatert:
|