Udvikling af tekstcorpus på klinisk dokumentsamling

I samarbejde med Digitaliseringsstyrelsen har vi skabt et klinisk tekstdatasæt på baggrund af dokumentsamling fra Region Hovedstaden.

De åbne tekster på Region Hovedstadens portal er blevet tilpasset til et maskinlæsbart format og samlet i ét tekstdatasæt. Tekstdatasættet egner sig til udvikling af sprogteknologi, som skal operere inden for det sundhedsfaglige domæne og indeholder en række ord og begreber, som oftest forekommer inden for sundhedsområdet. 📋

Med udgangspunkt i de 15.829 åbne dokumenter er der blevet skabt et tekstcorpussom indeholder 9.941.236 tokens (opdelt ved mellemrum). Vi håber hermed, at vi har gjort det lettere at anvende teksterne til udvikling af dansk sprogteknologi.

Du kan tilgå datasættet samt finde dokumentation her:
Scrape fra dokumentsamling på Vip Region Hovedstaden – Datasæt – sprogteknologi.dk