Suomen kielen kaikki sanat, nimet ja paikannimet taivutuksineen avoimena datana

Pyynnön vastaanottaja:
Kotimaisten kielten keskus Kotus
Käytetty laki:
Julkisuuslaki
Tämän tietopyynnön tila:
Tietoa ei ole
Pyynnön yhteenveto
Mistä löydän suomen kielen sanat, nimet ja etenkin paikannimet taivutuksineen helposti koneluettavassa muodossa? Esimerkiksi Helsinki, Helsinkiin, Helsinkiläinen, Helsinkiläisiä jne. Tuon kaltainen rajapinta ja/tai koneluettava tietokanta kaikille suomen kielen sanoille olisi suomen kielen säilyvyyden kannalta käytännössä elinehto. Se olisi myös potentiaalisesti kansantaloudellisesti merkittävä asia markkinoinnin mennessä jatkuvasti automatisoidumpaan suuntaan jolloin myös markkinointimateriaali tuotetaan koneellisesti. Kyseinen rajapinta ehdottomasti helpottaisi merkittävästi myös koneellisia käännöksiä ja yleisesti suomen kielen ymmärrystä niin kotimaassa kuin ulkomaillakin. Jos teillä ei vielä ole avoimia rajapintoja (API, apeja) suomen kielelle niin olisi korkea aika toteuttaa sellainen. Etenkin suomen kielessä tällainen rajapinta olisi aivan ehdoton, sillä taivutuksia harvoin voi tuottaa luotettavasti koneellisesti suomen kielen taivutuksen monimutkaisuudesta johtuen. Optimitilanteessa voisin hakea rajapinnasta vaikka kaikki suomen kaupungit taivutuksineen, tai sanapohjaisesti esim. hakusanalla "Helsinki", jolloin rajapinta palauttaisi mm. "Helsinkiin", "Helsingistä", "Helsinkiläiset", "Helsinkiläisten", "Helsingin" jne jne jne. koneluettavassa muodossa. Teillä kuitenkin pakostikin on tällainen tietokanta jo olemassa, joten se on vain toteutuksesta kiinni saada se avoimeksi. Parhaassa tapauksessa tämä rajapinta sekä data itsessään olisi täysin avointa lähdekoodia, joihin kuka tahansa voisi ehdottaa siihen vaivattomasti korjauksia ja lisäyksiä.

Viestit tässä tietopyynnössä

Lähettäjä
<< Nimi ei julkinen >>
Otsikko
Suomen kielen kaikki sanat, nimet ja paikannimet taivutuksineen avoimena datana [#443]
Päivämäärä
10. elokuuta 2017 kello 14.39
Vastaanottaja
Kotimaisten kielten keskus Kotus
Tila
Odotetaan vastausta

Hyvä vastaanottaja, Tämä on julkisuuslakiin (http://www.finlex.fi/fi/laki/ajantasa/1999/19990621) perustuva tietopyyntö. Sähköposti on lähetetty http://tietopyynto.fi-sivustolta. Tähän sähköpostiin vastaamalla lähetät vastauksen tietopyyntöön.
Mistä löydän suomen kielen sanat, nimet ja etenkin paikannimet taivutuksineen helposti koneluettavassa muodossa? Esimerkiksi Helsinki, Helsinkiin, Helsinkiläinen, Helsinkiläisiä jne. Tuon kaltainen rajapinta ja/tai koneluettava tietokanta kaikille suomen kielen sanoille olisi suomen kielen säilyvyyden kannalta käytännössä elinehto. Se olisi myös potentiaalisesti kansantaloudellisesti merkittävä asia markkinoinnin mennessä jatkuvasti automatisoidumpaan suuntaan jolloin myös markkinointimateriaali tuotetaan koneellisesti. Kyseinen rajapinta ehdottomasti helpottaisi merkittävästi myös koneellisia käännöksiä ja yleisesti suomen kielen ymmärrystä niin kotimaassa kuin ulkomaillakin. Jos teillä ei vielä ole avoimia rajapintoja (API, apeja) suomen kielelle niin olisi korkea aika toteuttaa sellainen. Etenkin suomen kielessä tällainen rajapinta olisi aivan ehdoton, sillä taivutuksia harvoin voi tuottaa luotettavasti koneellisesti suomen kielen taivutuksen monimutkaisuudesta johtuen. Optimitilanteessa voisin hakea rajapinnasta vaikka kaikki suomen kaupungit taivutuksineen, tai sanapohjaisesti esim. hakusanalla "Helsinki", jolloin rajapinta palauttaisi mm. "Helsinkiin", "Helsingistä", "Helsinkiläiset", "Helsinkiläisten", "Helsingin" jne jne jne. koneluettavassa muodossa. Teillä kuitenkin pakostikin on tällainen tietokanta jo olemassa, joten se on vain toteutuksesta kiinni saada se avoimeksi. Parhaassa tapauksessa tämä rajapinta sekä data itsessään olisi täysin avointa lähdekoodia, joihin kuka tahansa voisi ehdottaa siihen vaivattomasti korjauksia ja lisäyksiä.
Pyydän toimittamaan aineiston jäljennöksen viivytyksettä sähköisessä muodossa liitetiedostona vastauksena tähän viestiin. Tietoaineistot avoimena rakenteellisena datana, eli .xls-, .csv-, .sql-, tai muussa rakenteellisessa muodossa. Dokumentit pyydän uudelleenkäytettävässä muodossa, kuten .doc, odf-, .ppt tai pdf/a-muodossa. Olisi toivottavaa että aineisto olisi lisäksi julkisuuslain hengen mukaan vastedes saatavilla organisaationne web-sivulla. Pyydän toimittamaan tiedot julkl 16 § mukaisesti pyydetyllä tavalla pyydetyssä muodossa tai perustelemaan sähköpostitse viivytyksettä mikäli on syy toimittaa toisella tavalla. Huomioittehan että myös käsitelyyn liittyvien virkamiesten nimet on julkisia, "Virkamiehen on esiinnyttävä omalla nimellään." (EOA 686/4/09) Huomioittehan että julkl. 34§ mukaan asiakirjan antamisesta ei peritä maksua, kun julkinen sähköisesti talletettu asiakirja lähetetään tiedon pyytäjälle sähköpostitse. Pyydän toimittamaan tiedot viivytyksettä julkl. 14.4§ mukaisesti, enintään 2 viikon määräajan kuluessa, tai perustelemaan ensi tilassa mikäli tietojen toimittamiseen tarvitaan pidempi kuukauden toimitusaika. Mikäli pyyntöä ei voida täyttää, pyydän 14.4§ mukaisessa 2 viikon määräajan kuluessa valituskelpoisen päätöksen. Pyydän viivytyksettä kuittaamaan viestin vastaanotetuksi ja kertomaan asian diaarinumeron. Ystävällisin terveisin, << Name removed >> << Name removed >> <<email address>> Post Address: << Name removed >> << Name removed >> << Address removed >> -- Legal Note: This mail was sent through a Freedom Of Information Portal. Replies might be published automatically. If large files are requested, you can upload them at: http://tietopyynto.fi/r/443/up/6581cf364a84445efa6ce36f203fd1f99de627a3/
Ystävällisin terveisin, << Nimi ei julkinen >>
  1. 1 vuosi, 4 kuukautta sitten10. elokuuta 2017 kello 14.40: Käyttäjä << Nimi ei julkinen >> lähetti viestin viranomaiselle Kotimaisten kielten keskus Kotus.
Lähettäjä
"Heikkinen Vesa (Kotus)" <vesa.heikkinen@kotus.fi> – Kotimaisten kielten keskus Kotus
Otsikko
Tietopyyntö vastaanotettu
Päivämäärä
10. elokuuta 2017 kello 15.14
Tila
Tietopyyntö ratkaistu

Olemme vastaanottaneet tietopyyntöviestisi. Asian diaarinumero on 124/110/17. Vesa Heikkinen Kotimaisten kielten keskus
Lähettäjä
"Heikkinen Vesa (Kotus)" <vesa.heikkinen@kotus.fi> – Kotimaisten kielten keskus Kotus
Otsikko
Vastaus tietopyyntöön (diaarinumero: 124/110/17)
Päivämäärä
15. elokuuta 2017 kello 12.48

<< Nimi poistettu >> << Nimi poistettu >> Asia: Kotimaisten kielten keskuksen vastaus tietopyyntöön Tietopyyntö 10.8.2017 Diaarinumero: 124/110/17 Kysytte tietopyynnössänne "Mistä löydän suomen kielen sanat, nimet ja etenkin paikannimet taivutuksineen helposti koneluettavassa muodossa?" ja jatkatte "Tuon kaltainen rajapinta ja/tai koneluettava tietokanta kaikille suomen kielen sanoille olisi suomen kielen säilyvyyden kannalta käytännössä elinehto." Kotimaisten kielten keskuksella (Kotus) ei hallussaan tietokantaa, joka sisältäisi kaikki suomen kielen sanat, eikä siten myöskään kysytyn kaltaista rajapintaa. Keskuksen tehtäviä ovat suomen ja ruotsin kielen huolto, neuvonta ja sanakirjatyö sekä kielenhuoltoon ja sanakirjoihin liittyvä tutkimus. Lisätietoja tehtävistämme: https://www.kotus.fi/kotus/organisaatio. Lisätietoja sanakirjoistamme: https://www.kotus.fi/sanakirjat. Kotuksessa on laadittu nykysuomen sanalista, joka on xml-muotoisena pakettina osoitteessa http://kaino.kotus.fi/sanat/nykysuomi/. Sanalistassa on taivutusindeksit ja astevaihteluindeksit, joten se sisältää sen tiedon, mikä taivutusten tuottamiseen tarvitaan, vaikkakaan ei suoranaisia taivutuksia. Johdosten suhteen siinä ovat mukana vain leksikaalistuneet tapaukset. Helsingin yliopiston nykykielten laitoksella on Kotuksen sanalistan pohjalta tehty hfst-työkaluilla suomen kielen kaksitasomalli, Omorfi, joka on vapaasti käytettävissä. Omorfilla voi analysoida ja vastaavasti tuottaa kaikki suomen sanamuodot ja johdokset. Sanalistaa on tiettävästi myös täydennetty yleisimmillä paikan- ja henkilönnimillä. Nykykielten laitoksen sivu aiheesta: http://blogs.helsinki.fi/language-tec... Omorfin demo (toimii satunnaisesti): http://www.ling.helsinki.fi/cgi-bin/o... Omorfin lähdekoodihakemisto: https://github.com/flammie/omorfi Ystävällisin terveisin Ulla-Maija Forsberg, Kotuksen johtaja <<sähköpostiosoite>>
  1. 1 vuosi, 2 kuukautta sitten9. lokakuuta 2017 kello 16.26: Vastaanotti sähköpostin viranomaiselta Kotimaisten kielten keskus Kotus.
  2. 1 vuosi, 2 kuukautta sitten9. lokakuuta 2017 kello 16.26: Vastaanotti sähköpostin viranomaiselta Kotimaisten kielten keskus Kotus.
  3. 1 vuosi, 2 kuukautta sitten9. lokakuuta 2017 kello 21.33: Käyttäjä << Nimi ei julkinen >> asetti tilaksi 'Tietoa ei ole'.