Vi har haft et fantastisk samarbejde med Digitaliseringsstyrelsen:
Digitaliseringsstyrelsen i regi af Sprogteknologi.dk skriver på LinkedIn: “
Nyt tekstdatasæt, som er velegnet til træning af #sprogmodeller inden for det sundhedsfaglige domæne, er ude nu! 👩⚕️
Digitaliseringsstyrelsen har i samarbejde med Syddansk Universitet – University of Southern Denmark taget fat i en åbent tilgængelig dokumentsamling fra Region Hovedstaden og skabt et tekstdatasæt på baggrund heraf.
De åbne tekster på Region Hovedstadens portal er blevet tilpasset til et maskinlæsbart format og samlet i ét tekstdatasæt. Tekstdatasættet egner sig til udvikling af sprogteknologi, som skal operere inden for det sundhedsfaglige domæne og indeholder en række ord og begreber, som oftest forekommer inden for sundhedsområdet. 📋
Med udgangspunkt i de 15.829 åbne dokumenter er der blevet skabt et #tekstkorpus som indeholder 9.941.236 tokens (opdelt ved mellemrum). Vi håber hermed, at vi har gjort det lettere at anvende teksterne til udvikling af dansk #sprogteknologi.
Tak til Martin Laursen, Pernille Just Vinholt og Thiusius Rajeeth Savarimuthu for samarbejdet. 🤝
Du kan tilgå datasættet samt finde dokumentation her:
https://lnkd.in/gnmCS8Mw