Artikel
Teknik@ Kultur Nyhedscenter om håndværk og industri. For museer og historisk interesserede.


Jørgen Burchardt

Kulturarw3

- et svensk forbillede

I Sverige startede Kungl. Biblioteket indsamlingen fra Internettet allerede i 1996. De første forsøg lagde hurtigt grunden til modellen Kulturarw3, som indsamler med robot.

Den danske indsamlingsmetode af Internettet koncentrerer sig om få men udvalgte udgivelser. Svenskerne har til gengæld satset på en metode, hvor man søger at få fat på alt. Målet er at høste hele den svenske del af Internettet en del gange om året. Det giver hvert år et par tværsnit af nettets aktuelle situation.

Ud fra denne metode er Internettet siden 1996 blev høstet 6 gange, og en 7. runde er ved at blive udført. Selve arbejdet bliver udført af en arbejdsstation med et program, som populært kaldes en indsamlingsrobot. Det aktuelle program var oprindelig udviklet til det nordiske projekt Nordic WebIndex, og efter tilretning har den udført arbejdet med at lede links op og gemme de tilhørende sider.

Feje-runder

Første indsamling gav materiale fra 15.779 domainer stort set alle med .se som topdomaine. Ved den efterfølgende høstning (eller svep, fejning som de kalder det i Sverige) var antallet af domainer udvidet til 27.948. Udvidelsen skete både gennem sider fra flere svenske domainer, men også ved at tage svensk materiale med, der ligger i andre topdomainer herunder selvfølgelig de internationale som .com og .org, men også fra andre landes domainer inkl. den lille stat, der har domaine .nu.

I den seneste færdiggjorte runde fra foråret 1999 er høstet 37.000 netsteder med domainenavn .se. Hertil er kommet et større antal sider fra udenlandske domainer - omkring 25.600 fra ikke-.se servere. Ialt blev 15 millioner filer samlet fra 7,5 millioner sider. Det hele fylder 300 Gbyte, hvilket faktisk ikke er ret meget, når man tænker på hvor billigt lagermedier er blevet i dag.

Alt ønskes samlet

I princippet ønsker man at samle alle sider fra Internettet. Man ønsker at erhverve både de afsluttede sider men især også de dynamiske dokumenter. Først og fremmest prioriteres selve de elektroniske dokumenter på WWW, men på et tidspunkt vil man også medtage f.eks. usenetgrupper, diskussionsgrupper baseret på e-postlister, ftp-arkiver og databaser for publisering på Internettet.

Erfaringerne har dog også medført, at man ønsker at udvide indsamlingsmetode til også at omfatte lidt af den bevidste indsamling, som udføres i Danmark. Således er der planer om at sætte robotter til dagligt at indhente sider fra dagbladenes netsteder og månedligt fra månedspublikationer etc. Det vil reducere det manglende materiale en del.

Ingen afklaring af offentlighedens adgang

Den store brede indsamling kræver ikke meget mandskab i forhold til det meget materiale, der indsamles. Indsamlingsarbejdet udføres af robotter, som dog kun tager den helt åbne del af Internettet. Hvis der skal indtastes et password eller gives et søgeord, springer robotten videre.

Det indsamlede materiale er heller ikke blevet registreret. Svenskerne venter at få udviklet automatiske metoder til genfinding af oplysninger.

Det indsamlede materiale kan ikke benyttes af offentligheden - endnu. Der findes ingen afklaring af ophavsretten omkring offentlighedens brug af materialet. I Sverige har de imidlertid besluttet at starte deres indsamling inden denne afklaring. Internettets oplysninger er blevet reddet; så kan jura'en falde på plads senere.

Initiativer i andre lande

Det svenske initiativ har fået følgeskab i en del andre lande. I USA har den private stiftelse Internet Archive startet høst af alle offentligt tilgængelige sider - ved siden af den indsamling, de har gjort siden 1996 med at modtage arkiver fra f.eks. de firmaer, som driver søgemaskiner.

Senere har Finland startet en tilsvarende indsamling i deres EVA projekt.

I Canada (EPPP - verdens første projekt fra 1994) og Australien (PANDORA) arbejder man mere målrettet for at indhente bestemte informationer, som til gengæld kan blive publiceret med det samme.

Det må også nævnes, at der på nordisk plan findes et samarbejde gennem Nordic Web Archive, hvor et pågående projekt skal udarbejde fælles retningslinier for hvorledes netsider kan blive arkiveret og senere fremfundet.

På europæisk plan har NEDLIB, Networked European Deposit Library siden 1998, blandt mange andre aktiviteter udvikling af software for arkivering af sider fra Internettet på programmet.

Kilder:

Kulturarw3's netsted: kulturarw3.kb.se/

Johan Mannerheim: The WWW and our digital heritage - the new perservation tasks of the library community: (www.ifla.org/IV/ifla66/papers/158-157e.ht)

Allan Arvidson, Krister Persson og Johan Mannerheim: The Kulturarw3 Project (www.ifla.org/IV/ifla66/papers/154-157e.htm)

Krister Persson: The Cultural Project - The Swedish Royal Web Archive

Internet Archive, netsted: www.archive.org/

Antal registrerede domainenavne Sverige http://www.nic-se.se/tillvaxt.shtml

Nordic Web Archive: www.kb.dk/kb/proj/nwa/


Denne side har URL: http://www.teknik-og-kultur.dk/8-121.htm.
Teknik @ Kulturs Artikel - Jørgen Burchardt: Kulturarw3
Udgivet 29. oktober 2000.


Copyright © 2000, T@ K. Dette arbejde kan kopieres for non-profit formål, når både forfatteren og T@K krediteres.
Tilladelse til anden benyttelse - kontakt venligst Teknik @ Kultur.