digi.kansalliskirjasto.fi
digi.kansalliskirjasto.fi
digi.kansalliskirjasto.fi

Digitalia (2017-2019) kehityskohteet

EU - Euroopan aluekehitysrahastoVipuvoimaa EU:lta 2014-2020
Tällä sivulla kerrotaan Digitalia - digitaaliset aineistot käyttöön (2017-2019)-projektin myötä digissä näkyvistä muutoksista: artikkelien, kuvitusten, nimien poiminnasta ja näitä tukevasta tekstinkorjauksesta. Kehitys keskittyy nyt yhteen lehteen, eli Uuteen Suomettareen, josta voi nyt havaita joitakin muutoksia.

Miksi Uusi Suometar?

Uusi Suometar on ollut Digitalia-projektissa kohdelehti, josta lähtien olemme rakentaneet uusia ratkaisuja aineistojen parantamiseen ja rikastamiseen. Valitsimme Uusi Suometar-lehden, useastakin syystä johtuen:
  • Lehti on yksi kautta aikojen käytetyimmistä lehdistä Kansalliskirjaston Digissä.
  • Lehden aikajana ulottuu vuodesta 1869 aina vuoteen 1918, joten lehti on kokenut kaikenlaista. Esimerkiksi artikkelinpoiminnassa huomattiin, kuinka palstamäärät ovat kasvaneet kahdesta aina yhdeksään ja sitten taas vähentyneet.
  • Lehti on sopivan ikäinen, vanhin aineisto on tekijänoikeuksista vapaata ja voimme käyttää sitä muidenkin tutkimusryhmien kanssa vertailuun.
  • Lehti on sopivan kokoinen, siinä on yli 80.000 sivua, joten aineistomäärä on sopiva kattavuuden kannalta – oletus on että erilaiset erikoistilanteet (eri laatuiset alkuperäisaineiston lajit, sivut joilla on vain kuvia, jne.) tulevat jo tässä sivumäärässä esille.

Artikkelinpoiminta

Artikkelinpoiminnassa on käytetty Rouenin yliopiston kehittämää Pivaj-ohjelmistoa (License Université de Rouen Normandie), joka opetusaineiston avulla tulkitsee lehden sivurakenteen ja merkitsee siitä artikkelialueet, pyrkien seuraamaan myös lukujärjestystä. Artikkelialueet on sitten yhdistetty yhtenäisemmiksi ja tallennettu digiin ja löydät ne nyt leikkeiksi merkittyinä. 1800-luvun artikkelinpoiminnan leikkeet ovat onnistuneempia, verrattuna 1900-luvun leikkeisiin. Alla esimerkkikuva Uuden Suomettaren vuoden 1872 lehdestä. Kyseisen lehden artikkelinpoiminnan tuloksia on mahdollista tarkastella tarkemmin tästä linkistä. Leikkeet saa näkyviin sivunäkymässä, kun valitset "Korosta leikkeet" valikosta. Tarkempi ohjevideo artikkelinpoiminnan tulosten tarkastelusta on nähtävillä tästä linkistä.
Voit tutkia Uuden Suomettaren leikkeitä. Tutkimusartikkeli: Uusi Suometar 12.02.1872

Nimien poiminta

Nimien poiminta tunnistaa tekstisivulta erisnimet ja ottaa talteen henkilöiden nimet ja paikkakunnat. Näet visualisoinnin nimistä sisältösivun uudesta sivutoiminnosta. paikannimet ja henkilönimien ikonit esimerkkisivu.
Nimissä haasteena on tekstintunnistuksen virheet, joten Uusi Suometar on ajettu myös tekstintunnistusprosessin läpi, joka voi muuttaa hakutuloksia. Osa aiemmin tunnistetuista sanoista voi jäädä löytymättä, mutta myös osa sanoista jotka on tunnistettu väärin voidaan nyt saada oikeellisemmin ulos. Voit lukea lisää nimien tunnistuksesta tutkimuspapereistamme: Nimien poimintaan liittyen Uudelle Suomettarelle tehtiin myös tekstintunnistus uudestaan. Projektissa luotiin tekstintunnistukselle ja aineistojen korjausten käsittelyyn menetelmä, joka on toistettavissa muihinkin lehtiin ja hyödynnettävissä jatkossakin.

Nimien poiminnan yhteydessä tehtiin kokeellinen Nimiapuri - työkalu jolla voi etsiä nimiä (tai erilaisia nimimuotoja) Uuden Suomettaren aineiston avulla.

Kuvitusten poiminta

Kuvitusten poiminnassa on otettu digitoinnin jälkikäsittelyssä kuva-alueiksi tunnistetut ja luotu niistäkin leikkeet. Näille kuville on koneoppimisen keinoin tehty yksinkertainen kuvien luokittelu josta saadut tulokset on talletettu kuvan asiasanoihin.Kuvitusten luokittelussa voi olla virheitä, löydät alta taulukon luokitusvirheiden todennäköisyyksistä.

Tulos maalaus valokuva piirros/painokuva nuotit muut teksti/mainos N recall precision F1
maalaus 876 92 32 0 4 0 1004 0,811111111 0,87250996 0,840690979
valokuva 85 934 22 0 22 0 1063 0,758732738 0,878645343 0,814298169
piirros/painokuva 114 69 4307 123 169 102 4884 0,920692604 0,881859132 0,900857561
nuotit 0 0 6 764 0 0 770 0,815368196 0,992207792 0,895137668
muut 5 24 140 11 3884 95 4159 0,921252372 0,933878336 0,927522388
teksti/mainos 0 0 171 39 137 10236 10583 0,981117608 0,967211566 0,97411496
summa -> 22463 0,868045771 0,921052022 0,892103621 <- keskiarvo
Löydät
Uuden Suomettaren kuvitukset tällä haulla. Käyttämällä "digilougi" avainsanaa haun rajauksessa, saat hakutulokseen kaikki automaattisesti luodut kuvitukset. Hakutulokset on myös mahdollista rajata valokuviin käyttämällä avainsanaa "valokuva" ja piirros tai painokuviin käyttämällä avainsanaa "piirros/painokuva". Tarkempi ohje kuvien poiminnan tulosten tarkastelusta on nähtävissä tästä linkistä. Kuvitusten poiminnassa kaikkia usein toistuvia kuvituksia tai hyvin pieniä kuvituksia ei ole merkitty leikkeiksi. Erityisesti valokuvat ja piirros/painokuvat ovat osuvimpia luokkia.

Huomioitavaa

Tekstintunnistus, tai eri osakohteiden poimintavaiheet voivat sisältää virheitä. Malleja ja menetelmiä voi kuitenkin opettaa paremmiksi. Jos huomaat korjattavaa lähetä Palautetta digin Palaute-lomakkeella, niin pyrimme katsomaan voiko jatkokehityksessä asiaa korjata.

Logo: Digitalia - Digitaalisen tiedonhallinnan tutkimus- ja kehityskeskus


Voit lukea lisää eri teemoista Kansalliskirjaston
Digitalia-blogista.