PRINCIPLE project

Velkomin(n) á heimasíðu
PRINCIPLE-verkefnisins

PRINCIPLE (Providing Resources in Irish, Norwegian, Croatian and Icelandic for Purposes of Language Engineering) er samvinnuverkefni fimm aðila sem er ætlað að safna málföngum og þróa máltækni fyrir írsku, norsku, króatísku og íslensku:

Meðlimir í hópi: Dyflinnarháskóli (Dublin City University) sem einnig er samræmingaraðili verkefnisins, Háskóli Íslands, Hugvísinda- og félagsfræðideild háskólans í Zagreb (Sveučilišta u Zagrebu), Landsbókasafn Noregs (Nasjonalbiblioteket), Iconic Translation Machines Ltd.

PRINCIPLE er tveggja ára verkefni fjármagnað af Sjóði fyrir samtengda Evrópu (Connecting Europe Facility, CEF)  (Aðgerð 2018-EU-IA-0050, styrktarsamningur nr. INEA/CEF/ICT/A2018/1761837) þar sem aðalmarkmiðið er að greina, safna og vinna úr hágæða málföngum (e. Language Resources) fyrir fjögur evrópsk tungumál þar sem slík tilföng skortir: 

  • króatísku
  • íslensku
  • írsku
  • norsku (bókmál og nýnorsku)

Vinna við verkefnið hófst í september árið 2019 og lýkur í ágúst árið 2021.  

PRINCIPLE mun útbúa hágæða málföng og nota sviðsbundin vélþýðingarkerfi (CEF eTranslation engines) til að bæta gæði þýðinga í grunnvirkjum fyrir stafræna þjónustu (DSI) með áherslu á rafrænt réttarkerfi og rafræn innkaup.

Eftirfarandi ferli verður notað til að greina málföng af miklum gæðum:  

  • Margar innlendar stofnanir og hagsmunaaðilar í Króatíu, Írlandi, Noregi og á Íslandi hafa samþykkt að láta PRINCIPLE-verkefninu málföng í té og gegna hlutverki snemmbúins notanda (e. early adopters)
  • Iconic Translation Machines þróar þýðingarvélar sem notast við tauganet með það að markmiði að ganga úr skugga um gæði málfanganna sem lögð voru til verkefnisins.  Snemmbúnir notendur fá aðgang að þýðingarvélum á meðan á verkefninu stendur til að meta gæði úttaksins í alvöru notandaumhverfi og koma með ábendingar.

Í kjölfarið verða málföngin gerð aðgengileg rafrænum þýðingavélum Sjóðs fyrir samtengda Evrópu (CEF eTranslation engines) um gáttina ELRC-SHARE

PRINCIPLE-verkefnið útskýrt

  1. Málföngum er safnað hjá eigendum gagna og snemmbúnum notendum í löndunum fjórum (á sviði rafræns réttarkerfis og rafrænna innkaupa)
  2. Vélþýðingarkerfi eru búin til úr málföngunum og þau metin til að tryggja að úttakið sé af miklum gæðum
  3. Snemmbúnir notendur fá endurgjaldslausan aðgang að þýðingarvélunum á meðan á verkefninu stendur
  4. Snemmbúnir notendur nota vélþýðingarkerfin og koma með ábendingar
  5. Á grundvelli úttaks frá þýðingarvél og endurgjafar frá snemmbúnum notendum má bera kennsl á þau málföng sem eru af miklum gæðum 
  6. Til að betrumbæta sjálfvirka eTranslation-þýðingarkerfið er samhliða textaheildum af miklum gæðum hlaðið upp í ELRC-SHARE-gáttina.

Eftirfarandi eru helstu viðfangsefni PRINCIPLE sem verður náð í áföngum á meðan á verkefninu stendur. 

  • Viðfangsefni 1: Verkefni komið í framkvæmd
  • Viðfangsefni 2: Greining á notkunardæmum og kröfum sem gerðar eru til gagna og undirbúnings þeirra
  • Viðfangsefni 3: Þróun, mat og innleiðing vélþýðingarkerfa
  • Viðfangsefni 4: Greining, söfnun og sameining málfanga
  • Viðfangsefni 5: Hagnýting og sjálfbærni
  • Viðfangsefni 6: Upplýsingamiðlun 

Málföngum var safnað hjá fjölda aðila sem bjuggu yfir gögnum sem og hjá snemmbúnum notendum í löndunum fjórum. Gögnin undirgengust greiningu og undirbúning fyrir þróun vélþýðingakerfa samkvæmt fyrirfram ákveðnum notkunardæmum. Iconic Translation Machines þjálfaði sérsniðin vélþýðingakerfi sem notast við tauganet fyrir 10 snemmbúna notendur: 

  • National University of Ireland Galway (Írland)
  • CIKLOPEA D.O.O. (Króatía) 
  •  Þýðingamiðstöð utanríkisráðuneytisins (Ísland)
  • Standard Norge (Noregur) 
  • Utenriksdepartementet (Noregur)
  • Rannóg an Aistriúcháin (Þýðingamiðstöð írska þingsins)
  • Foras na Gaeilge
  • Ministarstvo vanjskih i europskih poslova (Utanríkis- og evrópumálaráðuneyt Króatíu)
  • Staðlaráð Íslands
  • Veðurstofa Íslands

 Við þróun þessara kerfa var unnt að bera kennsl á gögn af miklum gæðum og verður þeim gögnum hlaðið upp í ELRC-SHARE gagnabankann í júní árið 2021.

Tengt Efni

Tengt efni: 

Gagnlegir tenglar:

Atburðir

Dagsetningar málstofa:

Verkefninu var hleypt af stokkunum í löndunum fjórum árið 2021:

🇭🇷  Króatía: PRINCIPLE-verkefnið var kynnt í Króatíu 1. Júlí, 2021. Kynningin var haldin sem hluti af málþingi fagkennara í króatísku sem annað og erlent tungumál (SIH) í annarri lotu á fyrsta degi, og bar heitið „Kynningar á verkefnum og bókum“. Dagskrá SIH-málþingsins er að finna hér.

PRINCIPLE – Söfnun málfanga og þróun máltækni fyrir írsku, norsku, króatísku og íslensku – Filip Klubička kynnti PRINCIPLE-verkefnið með áherslu á málföng fyrir Króatísku. Hann útskýrði hvernig hægt er að finna og greina málföng sem eru til staðar í opinbera geiranum og einkageiranum. Snemmbúnir notendur og aðrir eigendur gagna sem ljáðu verkefninu lið voru kynntir, sem og málföngin sem þeir afhentu (t.d. stærð, svið o.s.frv.). Helstu viðfangsefni voru kynnt og þeim lýst, allt frá því hvernig hægt er að bera kennsl á gagnagjafa í opinbera geiranum og einkageiranum í Króatíu til úrvinnslu þeirra málfanga sem söfnuðust.

🇮🇸  Ísland: PRINCIPLE-verkefnið var kynnt á Íslandi 18. Maí, 2021. Kynningin var á dagskrá netráðstefnu sem var send út á Ruv.is, vefsvæði Ríkissjónvarpsins. Ráðstefnan var haldin á vegum SÍM og Almannaróms og fjallaði um máltækni, gervigreind og notkun háskólarannsókna í daglega lífinu.

Gauti Kristmannsson frá HÍ kynnti PRINCIPLE-verkefnið með áherslu á þau ferli sem voru notuð til að bera kennsl á málföng af miklum gæðum sem og þá snemmbúnu notendur sem tóku þátt í verkefninu. Níels Rúnar Gíslason frá HÍ kynnti niðurstöður sjálfvirks og manngerðs mats á þýðingavélum, merkingu niðurstaðanna sem og mikilvægi þess að fyrirtæki og opinberir aðilar leggi fram gögn til máltækniþróunar. Dagskrá ráðstefnunnar er að finna hér. Myndband af kynningunni var forunnið og klippt til fyrir birtingu á netráðstefnunni og er að finna hér. Glærusýninguna sem notuð var fyrir upptökuna er að finna hér.

Sama dag og ráðstefnan var send út héldu Gauti Kristmannsson og Níels Rúnar Gíslason fyrirlestur á ársfundi félags löggiltra dómtúlka og skjalaþýðenda (á netfundi). Þeir tóku einnig þátt í umræðum að loknum fundinum og svöruðu fyrirspurnum. Upptöku af fundinum er að finna hér.

🇮🇪  Írland: PRINCIPLE-verkefnið var kynnt á Írlandi 24. Júní, 2021. Kynningin var haldin sem hluti af ELRC-vinnustofunni fyrir Írland og var á dagskrá sem þriðji hluti: Máltækni á Írlandi: Notkunardæmi PRINCIPLE-verkefnisins. Dagskrá ELRC-vinnustofunnar er að finna hérHaldnar voru þrjár kynningar um PRINCIPLE-verkefnið í þriðja hluta:

  1. Yfirlit yfir PRINCIPLE-verkefnið – Jane Dunne frá DCU (Dyflinnarháskóla) veitti yfirlit yfir PRINCIPLE-verkefnið og sýndi dæmi um hvernig opinberi geirinn á Írlandi nýtir sér máltækni. Hún útskýrði hvernig gagnasöfnun og forvinnsla gagna fer fram og hvernig unnt var að leggja mat á vélþýðingarkerfin sem hönnuð voru fyrir 10 snemmbúna notendur í löndunum fjórum, með sjálfvirkum og handvirkum hætti
  2. Notkunardæmi fyrir máltækni í opinbera geiranum – Micheál Ó Maolruanaigh frá Foras na Gaeilge fjallaði um reynslu stofnunarinnar af því að taka að sér hlutverk snemmbúins notanda í PRINCIPLE-verkefninu (á írsku). Hann ræddi um hvers konar þýðinga er þörf á (t.d. umsóknareyðublöð, ársskýrslur, stefnur, samfélagsmiðlar, o.s.frv.) og útskýrði einnig hvaða þýðingarforrit þýðendur þeirra innanhúss nota (MemoQ og SDLTrados). Upplifun Micheál á verkefninu og þátttöku í því var jákvæð og hann sagði að þau hefðu lært heilmikið um þýðingarmáltækni og hvernig unnið er að manngerðu mati á úttaki þýðingarkerfa.
  3. Írsk máltækni: Lítil og meðalstór fyrirtæki og opinberi geirinn – Róisin Moran frá Language Weaver (áður Iconic Translation Machines) fór yfir hlutverk fyrirtækisins í verkefninu, lýsti því hvernig vélþýðingarkerfi voru þjálfuð og metin og hvernig þau stóðu sig í samanburði við aðrar almennar þýðingarvélar á netinu, en heilt yfir stóðu þær sig umtalsvert betur.

🇳🇴  Noregur: PRINCIPLE-verkefnið var kynnt í Noregi 3. Mars, 2021. Kynningin var hluti af Vinnustofu ELRC í Noregi en dagskrána er að finna hér. Tveir af fyrirlestrum vinnustofunnar tengdust PRINCIPLE-verkefninu:

  1. Notkun vélþýðinga í Utanríkisráðuneytinu – Stein Gabrielsen frá Utanríkisráðuneyti Noregs fjallaði um reynslu stofnunarinnar af því að hafa gegnt hlutverki snemmbúins notanda í PRINCIPLE-verkefninu. Stein ræddi um þýðingar á lagatextum sem falla undir samninginn um Evrópska efnahagssvæðið (að mestu þýðingar á lögum ESB yfir á norsku), fyrri notkun á þýðingartólum (SDLTrados), stutta prófun á notkun vélþýðinga og núverandi upplifun af því að nota þýðingavél sem Iconic þróaði fyrir PRINCIPLE-verkefnið. Stein sagði að upplifun þeirra fram til nú hafi verið mjög jákvæð: vélin skili góðum niðurstöðum sem auka afkastagetu þýðingamiðstöðvarinnar og að samstarfið við Iconic um að þróa og bæta vélina hafi verið gott og uppbyggjandi.
  2. Hvað eru málleg gögn og hvernig söfnum við þeim? – Magnus Breder Birkenes frá Språkbanken hjá Nasjonalbiblioteket í Noregi fjallaði um tvö dæmi um gagnasöfnun sem bæði leiddu til framlags á málföngum til PRINCIPLE-verkefnisins. Fyrsta dæmið sneri að söfnun á norskum útboðum sem birt eru á DOFFIN (norsk síða þar sem birtar eru tilkynningar um opinber innkaup) og þýðingar á þeim sem birtar eru á útboðsvefnum TED (vefur ESB fyrir opinber innkaup). Gögnin voru afhent á XML-sniði ásamt auðkennum skjala. Magnus lýsti því hvernig gögnunum var skipt í setningar sem síðan voru samtvinnaðar og loks vistaðar sem TMX-skrár. Annað dæmið sneri að notkun skriðla (e. crawlers) á vefsíðum opinberra stofnana í Noregi. Aðalmarkmið verkefnisins er að meta umfang upplýsinga sem til eru á bæði nýnorsku og bókmáli, sem eru bæði opinber skrifleg tungumál í Noregi, til að ganga úr skugga um að ríkisstofnanir fari að lögum um norska tungu. Þó finnast einnig tvímála textar á norsku og ensku í gögnunum sem verða flutt út og gerð aðgengileg sem hluti af PRINCIPLE-verkefninu.

Hvenær PRINCIPLE tók/mun taka þátt í ráðstefnum:

PRINCIPLE var kynnt á veggspjaldasýningu sautjándu vélþýðingarráðstefnunnar sem haldin var í Dublin City University á Írlandi dagana 19. til 23. ágúst árið 2019 og birtist þessi grein í ráðstefnuritinu: www.aclweb.org/anthology/W19-6718.pdf

PRINCIPLE var kynnt á EAMT-ráðstefnunni í Nóvember árið 2020. Tveggja blaðsíðna grein sem kallast „Progress of the PRINCIPLE project: Promoting MT for Croatian, Icelandic, Irish and Norwegian“ birtist í ráðstefnuriti EAMT 2020-ráðstefnunnar (bls. 465-466): https://eamt2020.inesc-id.pt/proceedings-eamt2020.pdf

PRINCIPLE var kynnt á rafrænni veggspjaldasýningu META-FORUM 3. Desember árið 2020. 

PRINCIPLE var boðið að halda kynningu á fimmtu ELRC-ráðstefnunni 10. Mars árið 2021

Tengiliðir

Dublin City University (Írland) – Andy Way, samræmingarstjóri verkefnis, andy.way@adaptcentre.ie

Iconic Translation Machines Ltd. (Írland) – Dana Davis Sheridan, dana@iconictranslation.com

Hugvísinda- og félagsfræðideild háskólans í Zagreb (Sveučilišta u Zagrebu) – Petra Bago, samræming gagnasöfnunar, pbago@ffzg.hr

Háskóli Íslands – Gauti Kristmannsson, gautikri@hi.is 

Landsbókasafn Noregs (Nasjonalbiblioteket) – Jon Arild Olsen, jon.olsen@nb.no