Završeno osmo harvestiranje nacionalne domene

Objavljeno 11.1.2019.

Nacionalna i sveučilišna knjižnica u Zagrebu u suradnji sa Sveučilišnim računskim centrom Sveučilišta u Zagrebu (Srce) provela je od 31. prosinca 2018. do 9. siječnja 2019. godine osmo harvestiranje hrvatskoga weba. Prikupljeni su i pohranjeni javno dostupni sadržaji svih mrežnih sjedišta na vršnoj .hr domeni, uključujući from.hr i .com.hr.

Uspješno je odrađeno 110 572 521 upit i harvestiranjem preuzeto 15 TB sadržaja spremljenoga u format WARC. WARC datoteke komprimirane su te zauzimaju 8,4 TB diskovnoga prostora.

Korišten je popis aktivnih domena koji je Nacionalnoj i sveučilišnoj knjižnici u Zagrebu dostavila CARNet-ova DNS služba, a pobiranje je provedeno pomoću alata otvorenoga koda Heritrix. Robot koji je provodio harvestiranje predstavljao se kao Mozilla/5.0 (compatible; heritrix/3.3.0-SNAPSHOT-2018-12 18T20:23:17Z+http://haw.nsk.hr/faq).

Sadržaj osmoga harvestiranja .hr domene bit će uskoro dostupan na stranici Hrvatskoga arhiva weba, gdje se mogu pregledavati sadržaji pohranjeni u prethodnih sedam harvestiranja, tematska harvestiranja, kao i sadržaji prikupljeni selektivnim pobiranjima.