Was ist ein Corpus im Bereich NLP?
In der Computer-Linguistik oder dem NLP bezeichnet man mit Corpus einen Text oder auch ein Konglomerat von Texten, welche den Kontext von Modellen bilden. Im weiteren Sinne ist ein Corpus der Trainingsdatensatz eines Sprachlichen Modells. Je nach Modell impliziert er allerdings auch das Vokabular und den Zusammenhang zwischen Worten.