Dobrodošli na
internetsku stranicu
projekta PRINCIPLE
PRINCIPLE je kratica za Providing Resources in Irish, Norwegian, Croatian and Icelandic for Purposes of Language Engineering (Izrada resursa za irski, norveški, hrvatski i islandski u svrhu jezičnog inženjeringa), a provodi ga konzorcij od pet partnera:
Partneri: Sveučilište Dublin City (Dublin City University) (koordinator), Sveučilište na Islandu (University of Iceland), Filozofski fakultet Sveučilišta u Zagrebu, Nacionalna knjižnica Norveške (National Library of Norway), Iconic Translation Machines d.o.o.
PRINCIPLE je dvogodišnji projekt (Akcija 2018-EU-IA-0050, Financijska potpora br. INEA/CEF/ICT/A2018/1761837) financiran od strane Instrumenta za povezivanje Europe (Connecting Europe Facility, CEF), čiji je cilj identificirati, prikupiti i obraditi kvalitetne jezične resurse za četiri nedovoljno razvijena europska jezika:
- hrvatski
- islandski
- irski
- norveški (bokmål i nynorsk)
Projekt je započet u rujnu 2019. godine, a trajat će do kolovoza 2021. godine.
Projekt PRINCIPLE razvit će visokokvalitetne jezične resurse radi unaprjeđenja kvalitete prijevoda u infrastrukturi digitalnih usluga (Digital Service Infrastructures, DSIs) ePravosuđa (eJustice) i eNabave (eProcurement) putem sustava za strojno prevođenje razvijenih posebno za navedene domene.
Ti visokokvalitetni jezični resursi bit će identificirani sljedećim postupkom:
- Nekolicina nacionalnih tijela i lokalnih dionika diljem Hrvatske, Islanda, Irske i Norveške dostavit će jezične resurse konzorciju PRINCIPLE-a te postati „rani prisvajatelji”.
- Iconic Translation Machines razvit će sustave za neuronsko strojno prevođenje iz doniranih jezičnih resursa radi ovjeravanja kvalitete resursa. „Rani prisvajatelji” imat će pristup sustavima za strojno prevođenje za vrijeme trajanja projekta kako bi potvrdili kvalitetu u stvarnim poslovnim procedurama te kako bi prikupili povratne informacije.
- Jezični resursi bit će postavljeni na portal ELRC-SHARE za CEF-ov sustav eTranslation.
Pregled projekta PRINCIPLE
prikupiti jezične resurse od stvaratelja podataka i „ranih prisvajatelja” iz svake od četiri država uključenih u projekt (u specifičnim područjima ePravosuđa i eNabave)
proizvesti i evaluirati sustave za strojno prevođenje (machine translation, MT) iz navedenih jezičnih resursa radi osiguravanja visoke kvalitete
omogućiti „ranim prisvajateljima” besplatan pristup MT sustavima za trajanje projekta
„rani prisvajatelji” koriste MT sustave te pružaju povratne informacije
identificirati kvalitetne jezične resurse na temelju evaluacije izlaznog prijevoda MT sustava i povratnih informacija „ranih prisvajatelja”
postaviti paralelne visokokvalitetne jezičnih resursa na portal ELRC-SHARE kako bi se unaprijedio automatski sustav strojnog prevođenja eTranslation
Ključne aktivnosti projekta PRINCIPLE:
- Aktivnost 1: Provedba projekta
- Aktivnost 2: Use-case analiza, zahtjevi u pogledu podataka i priprema podataka
- Aktivnost 3: Razvoj, evaluacija i implementacija MT sustava
- Aktivnost 4: Identifikacija, prikupljanje i konsolidacija jezičnih resursa
- Aktivnost 5: Iskoristivost i održivost
- Aktivnost 6: Diseminacija
Prikupljeni su jezični resursi od brojnih stvaratelja podataka i ranih prisvajatelja iz 4 partnerske države. Podaci su analizirani i pripremljeni za razvoj sustava za strojno prevođenje na temelju “use-case” analiza. Iconic Translation Machines je izradio specijalizirane neuronske sustave za strojno prevođenje za 10 ranih prisvajatelja:
- Nacionalno sveučilište Irske u Galwayu (Irska)
- CIKLOPEA d.o.o. (Hrvatska)
- Ministarstvo vanjskih poslova (Island)
- Norveški zavod za norme (Norveška)
- Ministarstvo vanjskih poslova (Norveška)
- Odjel za prevođenje parlamenta Irske (Irska)
- Institut za irski jezik (Irska)
- Ministarstvo vanjskih i europskih poslova (Hrvatska)
- Islandski zavod za norme (Island)
- Islandski meteorološki ured (Island)
Tijekom razvoja sustava za strojno prevođenje identificirat će se visokokvalitetni podaci koji će biti pohranjeni na ELRC-SHARE repozitorij u lipnju 2021.
Resursi
Resursi:
Korisne poveznice:
- CEF ‒ internetska stranica: https://ec.europa.eu/digital-single-market/en/connecting-europe-facility
- eTranslation ‒ internetska stranica: https://ec.europa.eu/cefdigital/wiki/display/CEFDIGITAL/eTranslation
- INEA ‒ internetska stranica: https://ec.europa.eu/inea/
- ELRC ‒ internetska stranica: http://www.lr-coordination.eu/
- ELRC-SHARE Repository ‒ internetska stranica: https://elrc-share.eu/
- ELRI ‒ internetska stranica: http://www.elri-project.eu
Događaji
Datumi radionica:
Predstavljanje projekta održano je u 2021. godini u sve četiri partnerske zemlje.
Hrvatska: Projekt PRINCIPLE predstavljen je 1. srpnja 2021. godine u sklopu Stručnog i znanstvenog savjetovanja za lektore kao inoga jezika prvog dana u 2. sekciji: Predstavljanje projekata i knjiga. Dnevni red SIH-a dostupan je ovdje.
Izrada resursa za irski, norveški, hrvatski i islandski u svrhu jezičnog inženjeringa (PRINCIPLE) – Filip Klubička predstavio je pregled projekta PRINCIPLE s naglaskom na hrvatskim jezičnim resursima razvijenim u sklopu projekta. Objašnjen je postupak identifikacije jezičnih resursa u javnom i poslovnom sektoru. Predstavljeni su rani prisvajatelji i donatori jezičnih podataka te detaljno opisani jezični resursi koje su donirali (npr. veličina, domena itd.). Također su predstavljeni i opisani glavni problemi, od identifikacije donatora jezičnih podataka u javnom i poslovnom sektoru u Hrvatskoj do obrade prikupljenih jezičnih resursa.
Island: Projekt PRINCIPLE na Islandu predstavljen je 18. svibnja 2021. Predstavljanje projekta je bilo na dnevnom redu online konferencije koja je emitirana na internetskoj stranici islandske nacionalne televizije Ruv.is. Konferenciju su organizirali SÍM (Consortium for island LT) i Almannarómur (Centar za jezične tehnologije), a obuhvaćala je teme kao što su jezične tehnologije, umjetna inteligencija i iskorištavanje sveučilišnih istraživanja u svakodnevnom životu.
Gauti Kristmannsson iz UoI-ja dao je pregled PRINCIPLE projekta s naglaskom na proces kojim se identificiraju kvalitetni jezični resursi i rani prisvajatelji koji su sudjelovali na projektu. Níels Rúnar Gíslason iz UoI-ja predstavio je automatsku i ljudsku evaluaciju, objasnio je njihovo značenje, kao i važnost toga da poduzeća i javna tijela doniraju podatke iz različitih struka. Raspored konferencije dostupan je ovdje. Predstavljanje projekta unaprijed je snimljeno i uređeno ta videokonferenciju, a dostupno je ovdje. Prezentaciju korištenu tijekom snimanja možete pronaći ovdje.
Istog dana, Gauti Kristmannsson i Níels Rúnar Gíslason održali su predavanja za stručnjake u industriji na godišnjem sastanku Udruge islandskih sudskih tumača i prevoditelja (putem telekonferencije). Sudjelovali su i na Q&A sesiji. Snimku ovog sastanka možete pronaći ovdje.
Irska: Projekt PRINCIPLE u Irskoj predstavljen je 24. lipnja 2021. Predstavljanje je održano u 3. sesiji “Jezične tehnologije u Irskoj: use-case projekta PRINCIPLE” u sklopu radionice ELRC za Irsku. Dnevni red ELRC radionice dostupan je ovdje. Tijekom 3. sesije predstavljena su tri prezentacije o projektu PRINCIPLE:
- Pregled projekta PRINCIPLE – Jane Dunne iz DCU-a predstavila je pregled projekta PRINCIPLE kao primjer kako se jezične tehnologije koriste u javnom sektoru u Irskoj. Objašnjeno je prikupljanje i prethodna obrada podataka, kao i automatska i ljudska evaluacija različitih sustava za strojno prevođenje koji su izgrađeni za 10 ranih prisvajatelja u četiri partnerske zemlje.
- Use-case jezičnih tehnologija u javnom sektoru – Micheál Ó Maolruanaigh iz Foras na Gaeilge predstavio je iskustvo organizacije u ulozi ranog prisvajatelja u sklopu projekta PRINCIPLE (za irski jezik). Raspravljalo se o potrebama za prevođenjem (npr. obrasci za podnošenje zahtjeva, godišnja izvješća, pravilnici, društveni mediji itd.), nakon čega je uslijedilo objašnjenje alata za prijevodnu memoriju kojima se koriste njihovi interni prevoditelji (MemoQ i SDLTrados). Povratne informacije o iskustvu sudjelovanja u projektu bile su pozitivne, a Micheál je objasnio kako su naučili mnogo o prevoditeljskoj tehnologiji i o ljudskoj evaluaciji rezultata prevoditeljskih sustava.
- Jezične tehnologije za irski jezik: MSP-ovi i javni sektor – Róisin Moran iz RWS Language Weaver (nekadašnji Iconic Translation Machines) raspravljala je o ulozi tvrtke u projektu, opisala kako su trenirani i evaluirani sustavi za strojno učenje te kakve su rezultate postigli u usporedbi s drugim online generičkim sustavima za strojno prevođenje. Rezultati sustava za strojno prevođenje razvijeni u sklopu projekta uglavnom su postizali znatno bolje rezultate.
Norveška: Projekt PRINCIPLE u Norveškoj je predstavljen 3. ožujka 2021. Predstavljanje je održano u sklopu radionice ELRC za Norvešku, a dnevni red dostupan je ovdje. Dvije prezentacije na radionici odnosile su se na projekt PRINCIPLE:
- Korištenje strojnog prevođenja u Odjelu za vanjske poslove
Stein Gabrielsen iz norveškog Ministarstva vanjskih poslova predstavio je iskustvo organizacije u ulozi ranog prisvajatelja u sklopu projekta PRINCIPLE. Stein je opisao poslove prevođenja Stručne skupine za poslove Europskog gospodarskog prostora (uglavnom prijevod prava EU-a na norveški), prethodnu upotrebu alata za računalno potpomognuto prevođenje (SDLTrados) i kratko iskustvo sa strojnim prevođenjem te njihovo trenutačno iskustvo u korištenju sustava za strojno prevođenje kojeg je razvio Iconic u okviru projekta PRINCIPLE. Stein je objasnio da je njihovo iskustvo dosad bilo vrlo pozitivno. Sustav proizvodi dobre rezultate koji povećavaju produktivnost odjela, a dijalog s Iconicom u razvoju i poboljšanju sustava bio je dobar i konstruktivan. - Što su jezični podaci i kako ih prikupljamo? – Magnus Breder Birkenes iz Norveške jezične banke u Nacionalnoj knjižnici Norveške predstavio je dva primjera prikupljanja podataka koji doprinose projektu PRINCIPLE. Prvi primjer bila je zbirka norveških natječaja objavljenih na DOFFIN-u (norveška baza podataka obavijesti o javnoj nabavi) i njihovi prijevodi na engleski jezik objavljeni na TED-u (Europski časopis o javnoj nabavi). Podaci su primljeni u XML formatu s identifikacijskim oznakama dokumenata. Magnus je opisao kako su podaci sravnjeni na razini rečenice te konvertirani u TMX format. Drugi primjer bilo je puzanje internetskih stranica norveških javnih organizacija na državnoj razini. Primarni cilj projekta je procijeniti količinu informacija na nynorsku i bokmålu, dva službena norveška pisana jezika, kako bi se osiguralo da državne organizacije slijede norveški jezični zakon. Međutim, iz navedenog skupa podataka izdvojit će se paralelni tekstovi na norveškom i engleskom jeziku te učiniti dostupnima u sklopu projekta PRINCIPLE.
Datumi konferencija na kojima je prezentiran/će se prezentirati PRINCIPLE:
Projekt PRINCIPLE predstavljen je u obliku postera na konferenciji XVII Machine Translation Summit koja je održana na Sveučilištu Dublin City (Irska) 19.-23. kolovoza 2019., a rad je objavljen u zborniku radova: www.aclweb.org/anthology/W19-6718.pdf
Projekt PRINCIPLE predstavljen je na konferenciji EAMT 2020 u studenom 2020. Kratki rad od 2 stranice s naslovom Progress of the PRINCIPLE Project: Promoting MT for Croatian, Icelandic, Irish and Norwegian (Napredak projekta PRINCIPLE: Promocija strojnog prevođenja za hrvatski, islandski, irski i norveški jezik) objavljen je u zborniku radova konferencije EAMT 2020 i dostupan je ovdje (str. 465-466): https://eamt2020.inesc-id.pt/proceedings-eamt2020.pdf
Projekt PRINCIPLE predstavljen je kao virtualni poster na konferenciji META-FORUM 2020 3. prosinca 2020.
Projekt PRINCIPLE pozvan je da održi izlaganje na 5. ELRC konferenciji 10. ožujka 2021.
Kontakti
Sveučilište Dublin City (Dublin City University) (Irska) ‒ Andy Way, Koordinator projekta, andy.way@adaptcentre.ie
Iconic Translation Machines d.o.o. (Irska) ‒ Dana Davis Sheridan, dana@iconictranslation.com
Filozofski fakultet Sveučilišta u Zagrebu (Hrvatska) ‒ Petra Bago, koordinatorica prikupljanja podataka, pbago@ffzg.hr
Sveučilište na Islandu (University of Iceland) (Island) ‒ Gauti Kristmannsson, gautikri@hi.is
Nacionalna knjižnica Norveške (National Library of Norway) (Norveška) ‒ Jon Arild Olsen, jon.olsen@nb.no