Tanítási adatmennyiség (Training Data Volume)
A tanítási adatmennyiség a gépi tanulási modellek fejlesztése során felhasznált, strukturált vagy strukturálatlan információk összességét jelöli, amely alapvetően meghatározza az algoritmus pontosságát és általánosító képességét. A modern nagy nyelvi modellek (LLM) esetében ez a mennyiség petabyte-os nagyságrendű, több billió tokent tartalmazó szövegkorpuszt jelent, amely könyvekből, weboldalakból és kódbázisokból származik. A megfelelő mennyiségű és minőségű adat biztosítása kritikus a modell teljesítménye szempontjából, mivel ez teszi lehetővé a ritka nyelvi mintázatok és komplex összefüggések elsajátítását, ugyanakkor felveti az adatgyűjtés jogi és etikai kérdéseit is.