PRINCIPLE project

Velkommen til
PRINCIPLE-prosjektets
nettsted

PRINCIPLE står for Providing Resources in Irish, Norwegian, Croatian and Icelandic for Purposes of Language Engineering og drives av et konsortium med fem medlemmer:

Konsortium: Dublin City University (prosjektkoordinator), Universitetet på Island, Fakultetet for humaniora og samfunnsvitenskap ved Universitetet i Zagreb, Nasjonalbiblioteket, Iconic Translation Machines Ltd.

PRINCIPLE er et toårig prosjekt med midler fra EU-programmet Connecting Europe Facility (CEF) (Action 2018-EU-IA-0050, Grant Agreement No. INEA/CEF/ICT/A2018/1761837). Målet for prosjektet er å finne, samle inn og bearbeide språkressurser av høy kvalitet for fire underrepresenterte europeiske språk i EUs automatiske oversettelsestjeneste eTranslation:

  • Irsk
  • Islandsk
  • Kroatisk
  • Norsk (bokmål og nynorsk)

Prosjektet begynte i september 2019 og avsluttes i august 2021. 

PRINCIPLE vil produsere språkressurser av høy kvalitet for å styrke kvaliteten til EUs digitale tjenesteinfrastrukturer eJustice, og eProcurement ved hjelp av domenespesifikke oversettelsesmaskiner innenfor EUs eTranslation.

Språkressurser av høy kvalitet vil bli skaffet til veie gjennom følgende prosess:

  • Flere statlige og private virksomheter i Irland, Island, Kroatia og Norge har sagt seg villig til å bidra med språkressurser til PRINCIPLE-prosjektet.
  • Iconic Translation Machines vil bygge nevrale oversettelsesmaskiner basert på de innsamlede språkressursene for å teste kvaliteten.
  • Noen av bidragsyterne har sagt seg villig til å bruke de områdespesifikke oversettelsesmotorene i egen virksomhet i prosjektperioden og gi tilbakemeldinger om kvaliteten.
  • Språkressursene vil så bli gjort tilgjengelig for eTranslation i ELRC-SHARE portalen

PRINCIPLE-prosjektet i korte trekk

  1. Språkressurser blir samlet inn fra dataprodusenter i hvert de fire involverte landene (med fokus på relevans for eJustice og eProcurement).
  2. Oversettelsesmaskiner blir produsert på grunnlag av de innsamlete ressursene og evalueres for å sikre at resultatene er av høy kvalitet
  3. Bidragsytere får tilbud om å benytte oversettelsesmaskinene kostnadsfritt i løpet av prosjektperioden som «tidlige brukere».
  4. «Tidlige brukere» bruker oversettelsesmaskinene i egen virksomhet og gir tilbakemeldinger om kvaliteten.  
  5. Språkressurser av høy kvalitet blir identifisert på grunnlag av oversettelsesresultatene og tilbakemeldinger fra «tidlige brukere».
  6. Parallellspråkligere ressurser av høy kvalitet blir lastet opp i ELRC-SHARE-portalen for å styrke den automatiske oversettelsestjenesten eTranslation.

PRINCIPLE-prosjektet inneholder følgende nøkkelaktiviteter som vil bli utført i forskjellige faser av prosjektperioden:

  • Aktivitet 1: Prosjektoppstart
  • Aktivitet 2: Bruksmønsteranalyse, datakrav og databearbeiding
  • Aktivitet 3: Utvikling, evaluering og utplassering av maskinoversettelsessystemer
  • Aktivitet 4: Kartlegging, innsamling og bearbeiding av språkressurser
  • Aktivitet 5: Utnytting og bærekraft
  • Aktivitet 6: Formidling

Språkressurser har blitt samlet inn fra en lang rekke dataleverandører og tidlige brukere fra de fire deltakerlandene. Dataene er blitt analysert og forberedt til bruk i utvikling av maskinoversettelsesmotorer med utgangspunkt i avtalte brukstilfeller. Iconic Translation Machines has har skapt skreddersydde maskinoversettelsessystemer for følgende ti tidlige brukere: 

  • National University of Ireland Galway (Irland)
  • CIKLOPEA D.O.O. (Kroatia) 
  • Utenriksdepartementet (Island)
  • Standard Norge (Norge)
  • Utenriksdepartementet (Norge)
  • Rannóg an Aistriúcháin (oversettelsesenheten til det irske parlamentet) 
  • Foras na Gaeilge (det irske språkrådet)
  • Utenriksdepartementet (Kroatia)
  • Islandske standarder (Island)
  • Meteorologisk institutt (Island)

Data som er benyttet i utviklingen av disse oversettelsesmotorene og funnet å være av “høy klvalitet”, vil bli lastet opp i ERLC-SHARE portalen i løpet av juni 2021. 

Arrangementer

Dato for workshoper:

Prosjektlanseringer fant sted i alle fire land i 2021:

🇭🇷  Kroatia: PRINCIPLE-prosjektlanseringen i Kroatia fant sted 1. juli 2021. Lanseringen ble samlokalisert med SIH – et faglig-vitenskapelig seminar for lektorer i kroatisk som andre- og fremmedspråk. Prosjektlanseringen fant sted i sesjonen for prosjekt- og bokpresentasjoner under seminarets første dag. Programmet for SIH-symposiet finner du her.

Tilby ressurser for irsk, norsk, kroatisk og islandsk til språkteknologiske formål – Filip Klubička presenterte en oversikt over PRINCIPLE-prosjektet med fokus på kroatiske språkressurser. Prosessen med å identifisere språkressurser i offentlig og privat sektor ble forklart. Tidlige brukere og dataleverandører ble presentert, sammen med detaljer om språkressursene som de leverte (f.eks. størrelse, domene osv.). De viktigste utfordringene ble presentert og beskrevet, alt fra identifisering av bidragsytere i offentlig og privat sektor i Kroatia til prosessering av innsamlede ressurser.

🇮🇸  Island:
PRINCIPLE-prosjektlanseringen på Island fant sted 18. mai 2021. Lanseringen var gjenstand for en nettkonferanse som ble sendt på Ruv.is, nettstedet til det islandske nasjonale fjernsynet. Konferansen ble organisert av SÍM (konsortium for islandsk språkteknologi) og Almannarómur (senter for språkteknologi) og dekket temaer som språkteknologi, kunstig intelligens og utnyttelse av universitetsforskning i dagliglivet.
Gauti Kristmannsson fra Universitetet på Island ga en oversikt over PRINCIPLE-prosjektet med vekt på prosessen for å identifisere språkressurser av høy kvalitet og de tidlige brukerne som deltar i prosjektet. Níels Rúnar Gíslason fra Universitetet på Island presenterte de automatiske og menneskelige evalueringskriteriene. Han forklarte også deres betydning, samt viktigheten av at selskaper og offentlige organer donerte spesialiserte data. Dagsorden for konferansen finner du her. Den formelle prosjektlanseringen ble forhåndsinnspilt og redigert for videokonferansen som du finner her. Lysbildepresentasjonene som ble brukt under innspillingen finner du her.
Samme dag som lanseringsseminaret holdt Gauti Kristmannsson og Níels Rúnar Gíslason et virtuelt foredrag for fagpersoner på årsmøtet til Foreningen for islandske rettstolker og -oversettere. De deltok også i den etterfølgende sesjonen for spørsmål og svar. Et opptak av dette møtet finner du her.

🇮🇪  Irland: PRINCIPLE-prosjektlanseringen på Irland fant sted 24. juni 2021. Lanseringen ble samlokalisert med det irske ELRC-seminaret og utgjorde tredje sesjon: “Språkteknologi i Irland: PRINCIPLE-prosjektet som brukstilfelle.” Programmet for ELRC-seminaret finner du her. Tre presentasjoner av PRINCIPLE-prosjektet ble holdt i løpet av tredje sesjon:

  1. Oversiktspresentasjon av PRINCIPLE-prosjektet – Jane Dunne fra Dublin City University ga en oversikt over PRINCIPLE-prosjektet som et eksempel på hvordan språkteknologi blir brukt i offentlig sektor i Irland. Datainnsamling og preprosessering ble forklart sammen med den automatiske og menneskelige evalueringen av de ulike maskinoversettelsessystemene som er utviklet for de ti tidlige brukerne i de fire deltakerlandene.
  2. Eksempel på bruk av språkteknologi i offentlig sektor – Micheál Ó Maolruanaigh fra Foras na Gaeilge presenterte organisasjonens erfaring med å være tidlig bruker i PRINCIPLE-prosjektet (med irsk). Oversettelsesbehov ble diskutert (f.eks. søknadsskjemaer, årsrapporter, strategidokumenter, sosiale medier osv.) etterfulgt av en forklaring av oversettelsesverktøyene som brukes av deres egen oversetter (MemoQ og SDLTrados). Tilbakemeldinger fra erfaringene med å delta i prosjektet var positive, og Micheál forklarte hvordan de lærte mye om oversettelsesteknologi og om menneskelig evaluering av oversettelsessystemenes resultater.
  3. Irsk språkteknologi: små og mellomstore bedrifter og offentlig sektor – Róisin Moran fra RWS Language Weaver (tidligere Iconic Translation Machines) diskuterte selskapets rolle i prosjektet, beskrev hvordan maskinoversettelsesystemene ble trent og evaluert, og hvordan de presterte resultater som generelt var betydelig bedre enn andre online generiske oversettelsessystemer.

🇳🇴  Norge: PRINCIPLE-prosjektlanseringen i Norge fant sted 3. mars 2021. Lanseringen ble samlokalisert med det norske ELRC-seminaret, og programmet finner du her. To av presentasjonene i seminaret var relatert til PRINCIPLE-prosjektet:

  1. Bruk av maskinoversettelse i Utenriksdepartementet – Stein Gabrielsen fra Utenriksdepartementet presenterte organisasjonens erfaring som tidlig bruker i PRINCIPLE-prosjektet. Stein beskrev oversettelsesoppgavene i EØS-seksjonen (hovedsakelig oversettelse av EU-lover til norsk), tidligere bruk av oversttelsesverktøy (SDLTrados), en kort erfaring med maskinoversettelse og deres nåværende erfaring med å bruke maskinoversettelsesmotoren utviklet. av Iconic som en del av PRINCIPLE-prosjektet. Stein forklarte at deres erfaring så langt har vært veldig positiv. Motoren gir gode resultater som øker seksjonens produktivitet, og dialogen med Iconic om utvikling og forbedring av motoren har vært god og konstruktiv.
  2. Hva er språkdata og hvordan kan vi få tak i dem? – Magnus Breder Birkenes fra Språkbanken i Nasjonalbiblioteket presenterte to eksempler på datainnsamling som begge bidrar til PRINCIPLE-prosjektet. Det første eksemplet var innsamlingen av norske anbud publisert på DOFFIN (den norske kunngjøringsdatabasen for offentlige anskaffelser) og oversettelsene til engelsk publisert på TED (den europeiske portalen for offentlige anskaffelser). Dataene ble mottatt i XML-format med dokumentidentifikatorer. Magnus beskrev hvordan dataene ble behandlet med setningstokenisering, sammenstilling og overføring til TMX-format. Det andre eksemplet var høsting av nettstedene til norske statlige virksomheter. Det primære målet for prosjektet er å evaluere mengden informasjon på henholdsvis nynorsk og bokmål for å sikre at statlige virksomheter følger norsk språklov. Dataene inneholder imidlertid også parallelltekst på norsk og engelsk som vil bli hentet ut og gjort tilgjengelig som en del av PRINCIPLE-prosjektet.
Datoer for konferanser hvor PRINCIPLE har deltatt eller vil delta: 

PRINCIPLE deltok på en plakatøkt i XVII Machine Translation Summit som fant sted på Dublin City University (Irland) 19.-23. august 2019, og denne artikkelen ble publisert i aktene fra konferansen: www.aclweb.org/anthology/W19-6718.pdf

PRINCIPLE deltok på EAMT 2020 i november 2020. En to siders artikkel med tittelen “Progress of the PRINCIPLE Project: Promoting MT for Croatian, Icelandic, Irish and Norwegian” er publisert i aktene fra EAMT konferansen og er tilgjengelig her (side 465-466): https://eamt2020.inesc-id.pt/proceedings-eamt2020.pdf

PRINCIPLE deltok i en virtuell plakatøktMETA-FORUM 2020 3. desember 2020. 

PRINCIPLE ble invitert til å holde en presentasjon på den 5. ELRC konferansen som fant sted 10. mars 2021.

Kontakter

Dublin City University (Irland) – Andy Way, prosjektkoordinator, andy.way@adaptcentre.ie

Iconic Translation Machines Ltd. (Irland) – Dana Davis Sheridan, dana@iconictranslation.com

Fakultet for humaniora og samfunnsvitenskap, Universitetet i Zagreb (Kroatia) – Petra Bago, datainnsamlingskoordinator, pbago@ffzg.hr

Universitet på Island (Island) – Gauti Kristmannsson, gautikri@hi.is 

Nasjonalbiblioteket (Norge) – Jon Arild Olsen, jon.olsen@nb.no