
|
Artikel |
Jørgen Burchardt Hvor stort er det danske Internet?Er der 20 mio sider eller 2 mia? |
I det følgende vil jeg sandsynliggøre, at det danske Internet i dag er på godt 19 millioner sider (19.800.000) - og sandsynligvis er meget større.
Udgangspunktet er beregninger over hele Internettets størrelse. Her har Lawrence og Giles i det anerkendte tidsskrift Nature i 1999 offentliggjort en undersøgelse fra foråret 1999. De fandt da 800 mio. sider på nettets 3 million servere, og ialt var mængden af informationer 6 terabytes tekst (en tera er et ét-tal efterfulgt af 12 nuller, som også kaldes en billion; det er store tal, vi skal lære at regne med).
Undersøgelsen havde set på indholdet af et repræsentativt udsnit af nettets servere kombineret med forskellige tal fra søgemaskiner.
Undersøgelsen blev som nævnt udført for mere end 1½ år siden - hvilket er lang tid i Internet-tid - og andre har søgt at følge udviklingen. Det har Moore og Murray, hvor de i juli 2000 fandt, at antallet af sider nu var nået 2 milliarder med en tilgang på 7,3 millioner sider om dagen. Lige så interessant er deres resultat, at væksten ikke kun er stabil men sandelig også stigende. Internettets største vækstperiode er langt fra nået endnu. Her ultimo oktober 2000 skulle Internettet ifølge dem have 3 milliarder (3.000.000.000) sider.
Det er det åbne net, der hidtil er blevet talt om. Det er den del af nettet, som vi kan komme til uden videre, og som søgerobotter kan læse. Det er den del vi kan søge efter i søgemaskinerne, og det er de sider, der kan høstes automatisk for arkivering.
Der findes imidlertid yderligere en del af internettet. Her kræver det lidt mere af surferen at komme til. Det kan være, at der skal gives et password for at udnytte et site's oplysninger. Det er naturligt ved betalingstjenester, men også ved mange gratis netsteder, hvor udgiveren vil have styr på adgangen (faktisk er mere end 75% af det dybe net's oplysninger offentligt tilgængelige uden betaling eller andre restriktioner). Den besværlige adgang er tillige tilfældet ved tjenester, hvor man for at søge i en database skal udfylde et felt med søgeord. Især databaser er fyldt med informationer.
Denne 'dybe' web (i modsætning til den lettilgængelige, overfladiske web) indeholder yderligere mange oplysninger ud over de nævnte 3 mia. sider. Her har Bergman i sommeren 2000 undersøgt et stort udvalg, og hans resultat viser, at på mere end 100.000 servere i den dybe del indeholder så meget information, at det virkelig bliver besværligt at holde styr på nullerne. Hold nu fast. Denne del skulle indeholde mere end 500 gange den informationsmængde, der ligger i den lettilgængelige del. Det er en af de påstande, man normalt vil afvise som en sensationsmagers ønske om opmærksomhed, men i hans rapport er faktisk med navns nævnelse angivet de største netsteder, og det vises, at blot de 60 største af dem alene er 40 gange større end det åbne net.
Det kan godt være, at de 500 gange er lidt for meget, for der er en del dobbelt oplysninger, når databaser med de samme telefonnumre er talt to gange og når flere servere findes i en tro kopi i flere verdensdele (mirror for at spare trafik). Men imponerende er det at se Amazon.com, Microsoft, JSTOR, IBM patentcenter og tilsvarende store netsteder. De største - og dem, der virkelig tæller i statistikken - er de store videnskabelige databaser med forskningsinformation til forskning i klima, oceanografi, astrofysik o.l. Alene National Climatic Data Center i USA stiller 366 terabytes af data til rådighed.
Det er mange informationer, og de findes på det dybe net, hvor søgemaskinerne som nævnt ikke kan høste resultater. Hvor man tidligere gik og troede, at søgetjenesterne fra at have dækket ca. 38% af nettets oplysninger i 1998 til 16% i 1999, ødelægger Bergman's rapport mønsteret og reducerer søgetjenesterne til kun at få øje på brøkdele af den tilgængelige information.
I vores forbindelse med indsamling og bevaring af Internettet har det den tilsvarende konsekvens: en automatisk indsamling med robot vil altså kun optimalt kunne indsamle 1/500 af hele nettets informationer.
Det bliver værre endnu. Ved siden af det offentlige Internet findes de helt eller delvist lukkede netværk, hvor kun et firmas ansatte samt evt. dets kunder kan benytte informationerne. Af hensyn til konkurrencen er oplysningerne lukket inde bag firewalls og passwords.
Hvor stort dette net er, er svært at angive. Et kvalificeret skøn er, at der findes så mange firmaer, der har etableret interne net, at det let kan måle sig med det åbne Internet. Alene de store medicinalvarefabrikker har enorme mængder i arkiv – anslået måleresultater og optegnelser i tera-størrelsen.
Indførelse af Internettets teknologi internt i private erhvervsvirksomheder suppleret med kommende standarder for udveksling af oplysninger (f.eks. XML) kan få stor betydning for bevaring af informationer. Hvor de store mængder af information, som virksomheder i flere årtier har opsamlet i databaser, hidtil har været svært at benytte på grund af egne udarbejdede systemer, bliver de nu ofte lokalt konverteret til disse standardiserede formater. Hvad tidligere ville have været praktisk uhåndterbart for historiske arkiver, kan snart være overkommeligt.
Set i et bevaringsperspektiv er det tilfældigt og ligegyldigt, om en information findes på en offentlig forskningsinstitution eller i en privatejet virksomheds intranet. Dens værdi for fremtiden er lige stor.
Nu har vi grundmaterialet for at beregne det danske Internet, for mængden er beregnet som en vis andel af verdenens samlede informationsmasse. Det antages nemlig, at strukturen af informationerne i Danmark ikke adskiller sig særlig meget fra den struktur, der findes i den øvrige del af verdenen.
Procenttallet er fremkommet ved en analyse af databasen i søgemaskinen Northern Light d. 23/10 2000. Der er brugt en metode at søge på, som også L & G benyttede i deres undersøgelse. Ved at søge på et ord, man med bestemthed ved ikke findes, kan man få søgemaskinen til at angive det samlede antal sider det ikke er. Ved at benytte den boolske betegnelse NOT ('findes ikke i databasen') sammenholdt med landets domainenavn (efternavnet .DK) nævnes 2.206.104 sider, som sammenholdt med søgemaskinens totale antal sider på 353 mio. viser, at Danmark står for 0,62% af det samlede antal sider. Det antages nemlig, at de knap 10 gange så mange sider i det åbne net har samme fordelingen på lande i virkeligheden som i søgemaskinen.
Dette tal gælder alene den åbne del af Internettet, og uden at medtage de danske sider, der findes hos andre domainer. En undersøgelse samme dag på søgemaskinen Alta Vista viste, at der på domainerne COM, ORG, NET, EDU og nationale (hovedsagelig nabolandene) findes yderligere mange danske sider - en 6% forøgelse, hvilket ialt giver 6,6% sider af verdens totale antal, som har dansk domaine eller er på dansk. Det er herefter let at regne ud, at der i vil være omkring 9.800.000 sider i den danske del af Internettet.
Hvis den dybe del yderligere skal med, skal der ganges med et tal af betragtelig størrelse. 500 er måske i overkanten, hvis der ikke findes tilsvarende store forskningsinstitutioner som de nævnte, men 'bare' 160 gange giver et tal på mere end 2 mia sider.
Forskellige undersøgelser viser, at hver internetside indeholder omkring 10.000 bogstaver tekst. Det vil sige, at der ialt findes en informationsmængde på mellem 198.000.000.000 og 20.000.000.000.000 bogstaver og tal.
Og hertil kommer den information, der befinder sig i intra- og extranet.
Registrerede danske domainer: >optælling= på www.dkhostmaster.dk/
Steve Lawrence; C. Lee Giles: Accessibility of information on the web. Nature Volume 400 Number 6740 Page 107 (1999) (kan fås ved personlig henvendelse til Steve Lawrence: lawrence@research.nj.nec.com Subject: Request for: Accessibility of Information on the Web
Alvin Moore og Brian H. Murray: Sizing the Internet. www.cyveillance.com/newsroom/whitepaper1.asp
Michael K. Bergman: The Deep Web: Surfacing Hidden Value. www.completeplanet.com/Tutorials/DeepWeb/index.asp
|
Denne side har URL: http://www.teknik-og-kultur.dk/8-119.htm. Teknik @ Kulturs Artikel - Jørgen Burchardt: Hvor stort er det danske Internet? Udgivet 29. oktober 2000. |
![]() |
Copyright © 2000, T@
K. Dette arbejde kan kopieres for non-profit formål, når både forfatteren og T@K krediteres. Tilladelse til anden benyttelse - kontakt venligst Teknik @ Kultur. |