Nye sprogressourcer i samarbejde med Digitaliseringsstyrelsen

Vi har haft et fantastisk samarbejde med Digitaliseringsstyrelsen:

Digitaliseringsstyrelsen i regi af Sprogteknologi.dk skriver på LinkedIn: “

Nyt tekstdatasæt, som er velegnet til træning af #sprogmodeller inden for det sundhedsfaglige domæne, er ude nu! 👩‍⚕️

Digitaliseringsstyrelsen har i samarbejde med Syddansk Universitet – University of Southern Denmark taget fat i en åbent tilgængelig dokumentsamling fra Region Hovedstaden og skabt et tekstdatasæt på baggrund heraf.

De åbne tekster på Region Hovedstadens portal er blevet tilpasset til et maskinlæsbart format og samlet i ét tekstdatasæt. Tekstdatasættet egner sig til udvikling af sprogteknologi, som skal operere inden for det sundhedsfaglige domæne og indeholder en række ord og begreber, som oftest forekommer inden for sundhedsområdet. 📋

Med udgangspunkt i de 15.829 åbne dokumenter er der blevet skabt et #tekstkorpus som indeholder 9.941.236 tokens (opdelt ved mellemrum). Vi håber hermed, at vi har gjort det lettere at anvende teksterne til udvikling af dansk #sprogteknologi.

Tak til Martin Laursen, Pernille Just Vinholt og Thiusius Rajeeth Savarimuthu for samarbejdet. 🤝

Du kan tilgå datasættet samt finde dokumentation her:
https://lnkd.in/gnmCS8Mw