Skip to main content

Transformer architektúra (Transformer Architecture)

A Transformer architektúra a Google kutatói által 2017-ben publikált, kizárólag a figyelemmechanizmuson (self-attention mechanism) alapuló neurális hálózat-modell, amely forradalmasította a természetes nyelvfeldolgozás (NLP) területét. A modell legfőbb jellemzője, hogy elhagyja a korábbi rekurzív és konvolúciós rétegeket, lehetővé téve az adatok (például mondatok szavainak) párhuzamos feldolgozását, miközben képes feltérképezni a bemeneti szekvenciák távoli elemei közötti komplex összefüggéseket is. Ez a technológiai áttörés jelentősen javítja a fordítóprogramok, szöveggenerátorok és egyéb nyelvi modellek teljesítményét, mivel a rendszer hatékonyabban kezeli a kontextuális függőségeket és a hosszú távú memóriát igénylő feladatokat. A Transformer architektúra képezi az alapját a modern nagy nyelvi modelleknek (mint például a ChatGPT vagy a Gemini), így a kortárs generatív mesterséges intelligencia legmeghatározóbb építőelemének tekinthető.