Suomen kielen kaikki sanat, nimet ja paikannimet taivutuksineen avoimena datana

Request to:
Kotimaisten kielten keskus Kotus
Law used:
Julkisuuslaki
Status of this request:
Information not held
Summary of Request
Mistä löydän suomen kielen sanat, nimet ja etenkin paikannimet taivutuksineen helposti koneluettavassa muodossa? Esimerkiksi Helsinki, Helsinkiin, Helsinkiläinen, Helsinkiläisiä jne. Tuon kaltainen rajapinta ja/tai koneluettava tietokanta kaikille suomen kielen sanoille olisi suomen kielen säilyvyyden kannalta käytännössä elinehto. Se olisi myös potentiaalisesti kansantaloudellisesti merkittävä asia markkinoinnin mennessä jatkuvasti automatisoidumpaan suuntaan jolloin myös markkinointimateriaali tuotetaan koneellisesti. Kyseinen rajapinta ehdottomasti helpottaisi merkittävästi myös koneellisia käännöksiä ja yleisesti suomen kielen ymmärrystä niin kotimaassa kuin ulkomaillakin. Jos teillä ei vielä ole avoimia rajapintoja (API, apeja) suomen kielelle niin olisi korkea aika toteuttaa sellainen. Etenkin suomen kielessä tällainen rajapinta olisi aivan ehdoton, sillä taivutuksia harvoin voi tuottaa luotettavasti koneellisesti suomen kielen taivutuksen monimutkaisuudesta johtuen. Optimitilanteessa voisin hakea rajapinnasta vaikka kaikki suomen kaupungit taivutuksineen, tai sanapohjaisesti esim. hakusanalla "Helsinki", jolloin rajapinta palauttaisi mm. "Helsinkiin", "Helsingistä", "Helsinkiläiset", "Helsinkiläisten", "Helsingin" jne jne jne. koneluettavassa muodossa. Teillä kuitenkin pakostikin on tällainen tietokanta jo olemassa, joten se on vain toteutuksesta kiinni saada se avoimeksi. Parhaassa tapauksessa tämä rajapinta sekä data itsessään olisi täysin avointa lähdekoodia, joihin kuka tahansa voisi ehdottaa siihen vaivattomasti korjauksia ja lisäyksiä.

Messages in this request

From
<< Name Not Public >>
Subject
Suomen kielen kaikki sanat, nimet ja paikannimet taivutuksineen avoimena datana [#443]
Date
Aug. 10, 2017, 2:39 p.m.
To
Kotimaisten kielten keskus Kotus
Status
Awaiting response

Hyvä vastaanottaja, Tämä on julkisuuslakiin (http://www.finlex.fi/fi/laki/ajantasa/1999/19990621) perustuva tietopyyntö. Sähköposti on lähetetty http://tietopyynto.fi-sivustolta. Tähän sähköpostiin vastaamalla lähetät vastauksen tietopyyntöön.
Mistä löydän suomen kielen sanat, nimet ja etenkin paikannimet taivutuksineen helposti koneluettavassa muodossa? Esimerkiksi Helsinki, Helsinkiin, Helsinkiläinen, Helsinkiläisiä jne. Tuon kaltainen rajapinta ja/tai koneluettava tietokanta kaikille suomen kielen sanoille olisi suomen kielen säilyvyyden kannalta käytännössä elinehto. Se olisi myös potentiaalisesti kansantaloudellisesti merkittävä asia markkinoinnin mennessä jatkuvasti automatisoidumpaan suuntaan jolloin myös markkinointimateriaali tuotetaan koneellisesti. Kyseinen rajapinta ehdottomasti helpottaisi merkittävästi myös koneellisia käännöksiä ja yleisesti suomen kielen ymmärrystä niin kotimaassa kuin ulkomaillakin. Jos teillä ei vielä ole avoimia rajapintoja (API, apeja) suomen kielelle niin olisi korkea aika toteuttaa sellainen. Etenkin suomen kielessä tällainen rajapinta olisi aivan ehdoton, sillä taivutuksia harvoin voi tuottaa luotettavasti koneellisesti suomen kielen taivutuksen monimutkaisuudesta johtuen. Optimitilanteessa voisin hakea rajapinnasta vaikka kaikki suomen kaupungit taivutuksineen, tai sanapohjaisesti esim. hakusanalla "Helsinki", jolloin rajapinta palauttaisi mm. "Helsinkiin", "Helsingistä", "Helsinkiläiset", "Helsinkiläisten", "Helsingin" jne jne jne. koneluettavassa muodossa. Teillä kuitenkin pakostikin on tällainen tietokanta jo olemassa, joten se on vain toteutuksesta kiinni saada se avoimeksi. Parhaassa tapauksessa tämä rajapinta sekä data itsessään olisi täysin avointa lähdekoodia, joihin kuka tahansa voisi ehdottaa siihen vaivattomasti korjauksia ja lisäyksiä.
Pyydän toimittamaan aineiston jäljennöksen viivytyksettä sähköisessä muodossa liitetiedostona vastauksena tähän viestiin. Tietoaineistot avoimena rakenteellisena datana, eli .xls-, .csv-, .sql-, tai muussa rakenteellisessa muodossa. Dokumentit pyydän uudelleenkäytettävässä muodossa, kuten .doc, odf-, .ppt tai pdf/a-muodossa. Olisi toivottavaa että aineisto olisi lisäksi julkisuuslain hengen mukaan vastedes saatavilla organisaationne web-sivulla. Pyydän toimittamaan tiedot julkl 16 § mukaisesti pyydetyllä tavalla pyydetyssä muodossa tai perustelemaan sähköpostitse viivytyksettä mikäli on syy toimittaa toisella tavalla. Huomioittehan että myös käsitelyyn liittyvien virkamiesten nimet on julkisia, "Virkamiehen on esiinnyttävä omalla nimellään." (EOA 686/4/09) Huomioittehan että julkl. 34§ mukaan asiakirjan antamisesta ei peritä maksua, kun julkinen sähköisesti talletettu asiakirja lähetetään tiedon pyytäjälle sähköpostitse. Pyydän toimittamaan tiedot viivytyksettä julkl. 14.4§ mukaisesti, enintään 2 viikon määräajan kuluessa, tai perustelemaan ensi tilassa mikäli tietojen toimittamiseen tarvitaan pidempi kuukauden toimitusaika. Mikäli pyyntöä ei voida täyttää, pyydän 14.4§ mukaisessa 2 viikon määräajan kuluessa valituskelpoisen päätöksen. Pyydän viivytyksettä kuittaamaan viestin vastaanotetuksi ja kertomaan asian diaarinumeron. Ystävällisin terveisin, << Name removed >> << Name removed >> <<email address>> Post Address: << Name removed >> << Name removed >> << Address removed >> -- Legal Note: This mail was sent through a Freedom Of Information Portal. Replies might be published automatically. If large files are requested, you can upload them at: http://tietopyynto.fi/r/443/up/6581cf364a84445efa6ce36f203fd1f99de627a3/
Kind Regards, << Name Not Public >>
  1. 1 year, 10 months agoAug. 10, 2017, 2:40 p.m.: << Name Not Public >> sent a message to Kotimaisten kielten keskus Kotus.
From
"Heikkinen Vesa (Kotus)" <vesa.heikkinen@kotus.fi> – Kotimaisten kielten keskus Kotus
Subject
Tietopyyntö vastaanotettu
Date
Aug. 10, 2017, 3:14 p.m.
Status
Request resolved

Olemme vastaanottaneet tietopyyntöviestisi. Asian diaarinumero on 124/110/17. Vesa Heikkinen Kotimaisten kielten keskus
From
"Heikkinen Vesa (Kotus)" <vesa.heikkinen@kotus.fi> – Kotimaisten kielten keskus Kotus
Subject
Vastaus tietopyyntöön (diaarinumero: 124/110/17)
Date
Aug. 15, 2017, 12:48 p.m.

<< Nimi poistettu >> << Nimi poistettu >> Asia: Kotimaisten kielten keskuksen vastaus tietopyyntöön Tietopyyntö 10.8.2017 Diaarinumero: 124/110/17 Kysytte tietopyynnössänne "Mistä löydän suomen kielen sanat, nimet ja etenkin paikannimet taivutuksineen helposti koneluettavassa muodossa?" ja jatkatte "Tuon kaltainen rajapinta ja/tai koneluettava tietokanta kaikille suomen kielen sanoille olisi suomen kielen säilyvyyden kannalta käytännössä elinehto." Kotimaisten kielten keskuksella (Kotus) ei hallussaan tietokantaa, joka sisältäisi kaikki suomen kielen sanat, eikä siten myöskään kysytyn kaltaista rajapintaa. Keskuksen tehtäviä ovat suomen ja ruotsin kielen huolto, neuvonta ja sanakirjatyö sekä kielenhuoltoon ja sanakirjoihin liittyvä tutkimus. Lisätietoja tehtävistämme: https://www.kotus.fi/kotus/organisaatio. Lisätietoja sanakirjoistamme: https://www.kotus.fi/sanakirjat. Kotuksessa on laadittu nykysuomen sanalista, joka on xml-muotoisena pakettina osoitteessa http://kaino.kotus.fi/sanat/nykysuomi/. Sanalistassa on taivutusindeksit ja astevaihteluindeksit, joten se sisältää sen tiedon, mikä taivutusten tuottamiseen tarvitaan, vaikkakaan ei suoranaisia taivutuksia. Johdosten suhteen siinä ovat mukana vain leksikaalistuneet tapaukset. Helsingin yliopiston nykykielten laitoksella on Kotuksen sanalistan pohjalta tehty hfst-työkaluilla suomen kielen kaksitasomalli, Omorfi, joka on vapaasti käytettävissä. Omorfilla voi analysoida ja vastaavasti tuottaa kaikki suomen sanamuodot ja johdokset. Sanalistaa on tiettävästi myös täydennetty yleisimmillä paikan- ja henkilönnimillä. Nykykielten laitoksen sivu aiheesta: http://blogs.helsinki.fi/language-tec... Omorfin demo (toimii satunnaisesti): http://www.ling.helsinki.fi/cgi-bin/o... Omorfin lähdekoodihakemisto: https://github.com/flammie/omorfi Ystävällisin terveisin Ulla-Maija Forsberg, Kotuksen johtaja <<sähköpostiosoite>>
  1. 1 year, 8 months agoOct. 9, 2017, 4:26 p.m.: Received an email from Kotimaisten kielten keskus Kotus.
  2. 1 year, 8 months agoOct. 9, 2017, 4:26 p.m.: Received an email from Kotimaisten kielten keskus Kotus.
  3. 1 year, 8 months agoOct. 9, 2017, 9:33 p.m.: << Name Not Public >> set status to 'Tietoa ei ole'.