Tokenizálás (Tokenization)
A tokenizálás a természetes nyelvfeldolgozás (NLP) előkészítő fázisának kritikus lépése, amely során a nyers szöveges adatokat a modell számára értelmezhető egységekre, úgynevezett tokenekre bontják. Ezek a tokenek lehetnek szavak, szórészletek vagy akár karakterek, amelyeket a rendszer numerikus vektorokká alakít át a további feldolgozás érdekében. A hatékony tokenizálás előnye, hogy optimalizálja a modell szókincsét és számítási igényét, miközben megőrzi a szemantikai jelentést, függetlenül a nyelv morfológiai sajátosságaitól. Ez az eljárás képezi a hidat az emberi nyelv és a gépi algoritmusok matematikai reprezentációja között.