Den danske indsamlingsmetode af Internettet koncentrerer sig om få men
udvalgte udgivelser. Svenskerne har til gengæld satset på en metode, hvor man
søger at få fat på alt. Målet er at høste hele den svenske del af Internettet en
del gange om året. Det giver hvert år et par tværsnit af nettets aktuelle
situation.
Ud fra denne metode er Internettet siden 1996 blev høstet 6 gange, og en 7.
runde er ved at blive udført. Selve arbejdet bliver udført af en arbejdsstation
med et program, som populært kaldes en indsamlingsrobot. Det aktuelle program
var oprindelig udviklet til det nordiske projekt Nordic WebIndex, og efter
tilretning har den udført arbejdet med at lede links op og gemme de tilhørende
sider.
Feje-runder
Første indsamling gav materiale fra 15.779 domainer stort set alle med .se
som topdomaine. Ved den efterfølgende høstning (eller svep, fejning som de
kalder det i Sverige) var antallet af domainer udvidet til 27.948. Udvidelsen
skete både gennem sider fra flere svenske domainer, men også ved at tage svensk
materiale med, der ligger i andre topdomainer herunder selvfølgelig de
internationale som .com og .org, men også fra andre landes domainer inkl. den
lille stat, der har domaine .nu.
I den seneste færdiggjorte runde fra foråret 1999 er høstet 37.000 netsteder
med domainenavn .se. Hertil er kommet et større antal sider fra udenlandske
domainer - omkring 25.600 fra ikke-.se servere. Ialt blev 15 millioner filer
samlet fra 7,5 millioner sider. Det hele fylder 300 Gbyte, hvilket faktisk ikke
er ret meget, når man tænker på hvor billigt lagermedier er blevet i dag.
Alt ønskes samlet
I princippet ønsker man at samle alle sider fra Internettet. Man ønsker at
erhverve både de afsluttede sider men især også de dynamiske dokumenter. Først
og fremmest prioriteres selve de elektroniske dokumenter på WWW, men på et
tidspunkt vil man også medtage f.eks. usenetgrupper, diskussionsgrupper baseret
på e-postlister, ftp-arkiver og databaser for publisering på Internettet.
Erfaringerne har dog også medført, at man ønsker at udvide indsamlingsmetode
til også at omfatte lidt af den bevidste indsamling, som udføres i Danmark.
Således er der planer om at sætte robotter til dagligt at indhente sider fra
dagbladenes netsteder og månedligt fra månedspublikationer etc. Det vil reducere
det manglende materiale en del.
Ingen afklaring af offentlighedens adgang
Den store brede indsamling kræver ikke meget mandskab i forhold til det meget
materiale, der indsamles. Indsamlingsarbejdet udføres af robotter, som dog kun
tager den helt åbne del af Internettet. Hvis der skal indtastes et password
eller gives et søgeord, springer robotten videre.
Det indsamlede materiale er heller ikke blevet registreret. Svenskerne venter
at få udviklet automatiske metoder til genfinding af oplysninger.
Det indsamlede materiale kan ikke benyttes af offentligheden - endnu. Der
findes ingen afklaring af ophavsretten omkring offentlighedens brug af
materialet. I Sverige har de imidlertid besluttet at starte deres indsamling
inden denne afklaring. Internettets oplysninger er blevet reddet; så kan
jura'en falde på plads senere.
Initiativer i andre lande
Det svenske initiativ har fået følgeskab i en del andre lande. I USA har den
private stiftelse Internet Archive startet høst af alle offentligt tilgængelige
sider - ved siden af den indsamling, de har gjort siden 1996 med at modtage
arkiver fra f.eks. de firmaer, som driver søgemaskiner.
Senere har Finland startet en tilsvarende indsamling i deres EVA projekt.
I Canada (EPPP - verdens første projekt fra 1994) og Australien (PANDORA)
arbejder man mere målrettet for at indhente bestemte informationer, som til
gengæld kan blive publiceret med det samme.
Det må også nævnes, at der på nordisk plan findes et samarbejde gennem Nordic
Web Archive, hvor et pågående projekt skal udarbejde fælles retningslinier for
hvorledes netsider kan blive arkiveret og senere fremfundet.
På europæisk plan har NEDLIB, Networked European Deposit Library siden 1998,
blandt mange andre aktiviteter udvikling af software for arkivering af sider fra
Internettet på programmet.
Kilder:
Kulturarw3's netsted: kulturarw3.kb.se/
Johan Mannerheim: The WWW and our digital heritage - the new perservation
tasks of the library community: (www.ifla.org/IV/ifla66/papers/158-157e.ht)
Allan Arvidson, Krister Persson og Johan Mannerheim: The Kulturarw3 Project
(www.ifla.org/IV/ifla66/papers/154-157e.htm)
Krister Persson: The Cultural Project - The Swedish Royal Web Archive
Internet Archive, netsted: www.archive.org/
Antal registrerede domainenavne Sverige http://www.nic-se.se/tillvaxt.shtml
Nordic Web Archive: www.kb.dk/kb/proj/nwa/