Suomen kielen kaikki sanat, nimet ja paikannimet taivutuksineen avoimena datana

Pyynnön vastaanottaja:
Kotimaisten kielten keskus Kotus
Käytetty laki:
Julkisuuslaki
Tämän tietopyynnön tila:
Tietoa ei ole
Pyynnön yhteenveto

Mistä löydän suomen kielen sanat, nimet ja etenkin paikannimet taivutuksineen helposti koneluettavassa muodossa? Esimerkiksi Helsinki, Helsinkiin, Helsinkiläinen, Helsinkiläisiä jne.

Tuon kaltainen rajapinta ja/tai koneluettava tietokanta kaikille suomen kielen sanoille olisi suomen kielen säilyvyyden kannalta käytännössä elinehto. Se olisi myös potentiaalisesti kansantaloudellisesti merkittävä asia markkinoinnin mennessä jatkuvasti automatisoidumpaan suuntaan jolloin myös markkinointimateriaali tuotetaan koneellisesti. Kyseinen rajapinta ehdottomasti helpottaisi merkittävästi myös koneellisia käännöksiä ja yleisesti suomen kielen ymmärrystä niin kotimaassa kuin ulkomaillakin.

Jos teillä ei vielä ole avoimia rajapintoja (API, apeja) suomen kielelle niin olisi korkea aika toteuttaa sellainen. Etenkin suomen kielessä tällainen rajapinta olisi aivan ehdoton, sillä taivutuksia harvoin voi tuottaa luotettavasti koneellisesti suomen kielen taivutuksen monimutkaisuudesta johtuen. Optimitilanteessa voisin hakea rajapinnasta vaikka kaikki suomen kaupungit taivutuksineen, tai sanapohjaisesti esim. hakusanalla "Helsinki", jolloin rajapinta palauttaisi mm. "Helsinkiin", "Helsingistä", "Helsinkiläiset", "Helsinkiläisten", "Helsingin" jne jne jne. koneluettavassa muodossa. Teillä kuitenkin pakostikin on tällainen tietokanta jo olemassa, joten se on vain toteutuksesta kiinni saada se avoimeksi.

Parhaassa tapauksessa tämä rajapinta sekä data itsessään olisi täysin avointa lähdekoodia, joihin kuka tahansa voisi ehdottaa siihen vaivattomasti korjauksia ja lisäyksiä.


Viestit tässä tietopyynnössä

Lähettäjä << Nimi ei julkinen >>
Otsikko Suomen kielen kaikki sanat, nimet ja paikannimet taivutuksineen avoimena datana [#443]
Päivämäärä 10. elokuuta 2017 kello 14.39
Vastaanottaja Kotimaisten kielten keskus Kotus
Tila Odotetaan vastausta

Hyvä vastaanottaja, Tämä on julkisuuslakiin (http://www.finlex.fi/fi/laki/ajantasa/1999/19990621) perustuva tietopyyntö. Sähköposti on lähetetty http://tietopyynto.fi-sivustolta. Tähän sähköpostiin vastaamalla lähetät vastauksen tietopyyntöön.
Mistä löydän suomen kielen sanat, nimet ja etenkin paikannimet taivutuksineen helposti koneluettavassa muodossa? Esimerkiksi Helsinki, Helsinkiin, Helsinkiläinen, Helsinkiläisiä jne. Tuon kaltainen rajapinta ja/tai koneluettava tietokanta kaikille suomen kielen sanoille olisi suomen kielen säilyvyyden kannalta käytännössä elinehto. Se olisi myös potentiaalisesti kansantaloudellisesti merkittävä asia markkinoinnin mennessä jatkuvasti automatisoidumpaan suuntaan jolloin myös markkinointimateriaali tuotetaan koneellisesti. Kyseinen rajapinta ehdottomasti helpottaisi merkittävästi myös koneellisia käännöksiä ja yleisesti suomen kielen ymmärrystä niin kotimaassa kuin ulkomaillakin. Jos teillä ei vielä ole avoimia rajapintoja (API, apeja) suomen kielelle niin olisi korkea aika toteuttaa sellainen. Etenkin suomen kielessä tällainen rajapinta olisi aivan ehdoton, sillä taivutuksia harvoin voi tuottaa luotettavasti koneellisesti suomen kielen taivutuksen monimutkaisuudesta johtuen. Optimitilanteessa voisin hakea rajapinnasta vaikka kaikki suomen kaupungit taivutuksineen, tai sanapohjaisesti esim. hakusanalla "Helsinki", jolloin rajapinta palauttaisi mm. "Helsinkiin", "Helsingistä", "Helsinkiläiset", "Helsinkiläisten", "Helsingin" jne jne jne. koneluettavassa muodossa. Teillä kuitenkin pakostikin on tällainen tietokanta jo olemassa, joten se on vain toteutuksesta kiinni saada se avoimeksi. Parhaassa tapauksessa tämä rajapinta sekä data itsessään olisi täysin avointa lähdekoodia, joihin kuka tahansa voisi ehdottaa siihen vaivattomasti korjauksia ja lisäyksiä.
[Näytä koko teksti] Ystävällisin terveisin, << Nimi ei julkinen >>
  1. 2 kuukautta, 1 viikkoitten10. elokuuta 2017 kello 14.40: Käyttäjä << Nimi ei julkinen >> lähetti viestin viranomaiselle Kotimaisten kielten keskus Kotus.
Lähettäjä "Heikkinen Vesa \(Kotus\)" <vesa.heikkinen@kotus.fi> – Kotimaisten kielten keskus Kotus
Otsikko Tietopyyntö vastaanotettu
Päivämäärä 10. elokuuta 2017 kello 15.14
Tila Tietopyyntö ratkaistu

Olemme vastaanottaneet tietopyyntöviestisi. Asian diaarinumero on 124/110/17. Vesa Heikkinen Kotimaisten kielten keskus
Lähettäjä "Heikkinen Vesa \(Kotus\)" <vesa.heikkinen@kotus.fi> – Kotimaisten kielten keskus Kotus
Otsikko Vastaus tietopyyntöön (diaarinumero: 124/110/17)
Päivämäärä 15. elokuuta 2017 kello 12.48

<< Nimi poistettu >> << Nimi poistettu >> Asia: Kotimaisten kielten keskuksen vastaus tietopyyntöön Tietopyyntö 10.8.2017 Diaarinumero: 124/110/17 Kysytte tietopyynnössänne "Mistä löydän suomen kielen sanat, nimet ja etenkin paikannimet taivutuksineen helposti koneluettavassa muodossa?" ja jatkatte "Tuon kaltainen rajapinta ja/tai koneluettava tietokanta kaikille suomen kielen sanoille olisi suomen kielen säilyvyyden kannalta käytännössä elinehto." Kotimaisten kielten keskuksella (Kotus) ei hallussaan tietokantaa, joka sisältäisi kaikki suomen kielen sanat, eikä siten myöskään kysytyn kaltaista rajapintaa. Keskuksen tehtäviä ovat suomen ja ruotsin kielen huolto, neuvonta ja sanakirjatyö sekä kielenhuoltoon ja sanakirjoihin liittyvä tutkimus. Lisätietoja tehtävistämme: https://www.kotus.fi/kotus/organisaatio. Lisätietoja sanakirjoistamme: https://www.kotus.fi/sanakirjat. Kotuksessa on laadittu nykysuomen sanalista, joka on xml-muotoisena pakettina osoitteessa http://kaino.kotus.fi/sanat/nykysuomi/. Sanalistassa on taivutusindeksit ja astevaihteluindeksit, joten se sisältää sen tiedon, mikä taivutusten tuottamiseen tarvitaan, vaikkakaan ei suoranaisia taivutuksia. Johdosten suhteen siinä ovat mukana vain leksikaalistuneet tapaukset. Helsingin yliopiston nykykielten laitoksella on Kotuksen sanalistan pohjalta tehty hfst-työkaluilla suomen kielen kaksitasomalli, Omorfi, joka on vapaasti käytettävissä. Omorfilla voi analysoida ja vastaavasti tuottaa kaikki suomen sanamuodot ja johdokset. Sanalistaa on tiettävästi myös täydennetty yleisimmillä paikan- ja henkilönnimillä. Nykykielten laitoksen sivu aiheesta: http://blogs.helsinki.fi/language-tec... Omorfin demo (toimii satunnaisesti): http://www.ling.helsinki.fi/cgi-bin/o... Omorfin lähdekoodihakemisto: https://github.com/flammie/omorfi Ystävällisin terveisin Ulla-Maija Forsberg, Kotuksen johtaja <<sähköpostiosoite>>
  1. 1 viikko, 6 päivääitten9. lokakuuta 2017 kello 16.26: Vastaanotti sähköpostin viranomaiselta Kotimaisten kielten keskus Kotus.
  2. 1 viikko, 6 päivääitten9. lokakuuta 2017 kello 16.26: Vastaanotti sähköpostin viranomaiselta Kotimaisten kielten keskus Kotus.
  3. 1 viikko, 6 päivääitten9. lokakuuta 2017 kello 21.33: Käyttäjä << Nimi ei julkinen >> asetti tilaksi 'Tietoa ei ole'.