Skip to main content

Multimodális AI (Multimodal AI)

A multimodális AI olyan mesterséges intelligencia rendszer, amely képes többféle típusú (modalitású) adat – például szöveg, kép, hang, videó és szenzoradatok – egyidejű feldolgozására, értelmezésére és összekapcsolására. Szemben az unimodális rendszerekkel, a multimodális modellek holisztikusabb megértéssel rendelkeznek, mivel képesek a különböző információforrások közötti kontextuális összefüggések felismerésére. Ez a képesség jelentősen bővíti az alkalmazási területeket, lehetővé téve például képek szöveges leírását, videók tartalmának elemzését vagy hangalapú asszisztensek vizuális kontextussal való kiegészítését, közelebb hozva az AI működését az emberi érzékelés komplexitásához.