Završeno šesto harvestiranje hrvatskog weba

Objavljeno 11.1.2017.

Nacionalna i sveučilišna knjižnica u Zagrebu u sklopu programa Hrvatski arhiv weba (HAW) provela je u razdoblju od 25. prosinca 2016. do 2. siječnja 2017. šesto harvestiranje hrvatskog weba.
Harvestiranje je za Nacionalnu i sveučilišnu knjižnicu u Zagrebu obavio Sveučilišni računski centar Sveučilišta u Zagrebu (Srce).

Prikupljeni su i arhivirani javno dostupni sadržaji sa svih web sjedišta na vršnoj .hr domeni uključujući from.hr i .com.hr. Ukupno je prikupljeno i arhivirano više od 77 milijuna datoteka ukupne veličine 7 TB.
Kao ishodišna točka korišten je popis aktivnih domena koji je Nacionalnoj i sveučilišnoj knjižnici u Zagrebu dostavio Registar .hr domena. Harvestiranje je provedeno pomoću pomagala otvorenog koda Heritrix dorađenog u Srcu.

Za razliku od prethodnih godina, u 2016. godini počele su se koristiti domene s dijakritičkim znakovima, kao što je npr. http://www.đurđevac.hr i za očekivati je da će takvih stranica u budućnosti biti sve više.

Svi prikupljeni sadržaji bit će dostupni na stranici Hrvatskoga arhiva weba.