PRINCIPLE project

Dobrodošli na
internetsku stranicu
projekta PRINCIPLE

PRINCIPLE je kratica za Providing Resources in Irish, Norwegian, Croatian and Icelandic for Purposes of Language Engineering (Izrada resursa za irski, norveški, hrvatski i islandski u svrhu jezičnog inženjeringa), a provodi ga konzorcij od pet partnera:

Partneri: Sveučilište Dublin City (Dublin City University) (koordinator), Sveučilište na Islandu (University of Iceland), Filozofski fakultet Sveučilišta u Zagrebu, Nacionalna knjižnica Norveške (National Library of Norway), Iconic Translation Machines d.o.o.

PRINCIPLE je dvogodišnji projekt (Akcija 2018-EU-IA-0050, Financijska potpora br. INEA/CEF/ICT/A2018/1761837) financiran od strane Instrumenta za povezivanje Europe (Connecting Europe Facility, CEF), čiji je cilj identificirati, prikupiti i obraditi kvalitetne jezične resurse za četiri nedovoljno razvijena europska jezika:

  • hrvatski
  • islandski
  • irski
  • norveški (bokmål i nynorsk)

Projekt je započet u rujnu 2019. godine, a trajat će do kolovoza 2021. godine.

Projekt PRINCIPLE razvit će visokokvalitetne jezične resurse radi unaprjeđenja kvalitete prijevoda u infrastrukturi digitalnih usluga (Digital Service Infrastructures, DSIs) ePravosuđa (eJustice) i eNabave (eProcurement) putem sustava za strojno prevođenje razvijenih posebno za navedene domene.

Ti visokokvalitetni jezični resursi bit će identificirani sljedećim postupkom:

  • Nekolicina nacionalnih tijela i lokalnih dionika diljem Hrvatske, Islanda, Irske i Norveške dostavit će jezične resurse konzorciju PRINCIPLE-a te postati „rani prisvajatelji”.
  • Iconic Translation Machines razvit će sustave za neuronsko strojno prevođenje iz doniranih jezičnih resursa radi ovjeravanja kvalitete resursa. „Rani prisvajatelji” imat će pristup sustavima za strojno prevođenje za vrijeme trajanja projekta kako bi potvrdili kvalitetu u stvarnim poslovnim procedurama te kako bi prikupili povratne informacije.
  • Jezični resursi bit će postavljeni na portal ELRC-SHARE za CEF-ov sustav eTranslation.

Pregled projekta PRINCIPLE

  1. prikupiti jezične resurse od stvaratelja podataka i „ranih prisvajatelja” iz svake od četiri država uključenih u projekt (u specifičnim područjima ePravosuđa i eNabave)

  2. proizvesti i evaluirati sustave za strojno prevođenje (machine translation, MT) iz navedenih jezičnih resursa radi osiguravanja visoke kvalitete

  3. omogućiti „ranim prisvajateljima” besplatan pristup MT sustavima za trajanje projekta

  4. „rani prisvajatelji” koriste MT sustave te pružaju povratne informacije

  5. identificirati kvalitetne jezične resurse na temelju evaluacije izlaznog prijevoda MT sustava i povratnih informacija „ranih prisvajatelja”

  6. postaviti paralelne visokokvalitetne jezičnih resursa na portal ELRC-SHARE kako bi se unaprijedio automatski sustav strojnog prevođenja eTranslation

Ključne aktivnosti projekta PRINCIPLE:

  • Aktivnost 1: Provedba projekta
  • Aktivnost 2: Use-case analiza, zahtjevi u pogledu podataka i priprema podataka
  • Aktivnost 3: Razvoj, evaluacija i implementacija MT sustava
  • Aktivnost 4: Identifikacija, prikupljanje i konsolidacija jezičnih resursa
  • Aktivnost 5: Iskoristivost i održivost
  • Aktivnost 6: Diseminacija

U prvoj polovici projektnog razdoblja sakupljeni su jezični resursi od brojnih stvaratelja podataka i ranih prisvajatelja iz 4 partnerske države. Podaci su analizirani i pripremljeni za razvoj sustava za strojno prevođenje na temelju “use-case” analiza. Do danas je Iconic Translation Machines izradio specijalizirane neuronske sustave za strojno prevođenje za potrebe sljedećih ranih prisvajatelja:

  • Nacionalno sveučilište Irske u Galwayu (Irska)
  • CIKLOPEA d.o.o. (Hrvatska)
  • Ministarstvo vanjskih poslova (Island)
  • Standard Norge (Norveška)
  • Ministarstvo vanjskih poslova (Norveška)

Trenutno je u tijeku evaluacija izrađenih sustava, a očekuje se da će se dodatni rani prisvajatelji priključiti izradi i korištenju sustava u drugoj polovici projektnog razdoblja, koji završava u kolovozu 2021.

Resursi

Resursi

Korisne poveznice:

Događaji

Kalendar radionica:
  • Uskoro

Kalendar događaja na kojima je predstavljen projekt PRINCIPLE:

  • PRINCIPLE je predstavljen posterom na skupu XVII Machine Translation Summit, koji je održan na Sveučilištu Dublin City (Irska) 19. ‒ 23. kolovoza 2019., a rad objavljen u zborniku konferencije dostupan je na poveznici www.aclweb.org/anthology/W19-6718.pdf
  • Projekt PRINCIPLE bit će predstavljen na konferenciji EAMT 2020 u studenom 2020. Publikacija s naslovom “Progress of the PRINCIPLE Project: Promoting MT for Croatian, Icelandic, Irish and Norwegian” (“Napredak u projektu PRINCIPLE: Promocija strojnog prevođenja za hrvatski, islandski, irski i norveški jezik”) objavljena je u zborniku konferencije EAMT 2020 te je dostupna na sljedećoj poveznici (rad se nalazi na stranicama 465-466): https://eamt2020.inesc-id.pt/proceedings-eamt2020.pdf

Kontakti

Sveučilište Dublin City (Dublin City University) (Irska) ‒ Andy Way, Koordinator projekta, andy.way@adaptcentre.ie

Iconic Translation Machines d.o.o. (Irska) ‒ Dana Davis Sheridan, dana@iconictranslation.com

Filozofski fakultet Sveučilišta u Zagrebu (Hrvatska) ‒ Petra Bago, koordinatorica prikupljanja podataka, pbago@ffzg.hr

Sveučilište na Islandu (University of Iceland) (Island) ‒ Gauti Kristmannsson, gautikri@hi.is 

Nacionalna knjižnica Norveške (National Library of Norway) (Norveška) ‒ Jon Arild Olsen, jon.olsen@nb.no