Tréninková data pro umělou inteligenci rychle docházejí a vědci varují před krizí. Co to znamená pro budoucnost AI a její další vývoj?
Budoucnost AI stojí před velkou výzvou, která by mohla otřást celým odvětvím. Klíčová data potřebná pro trénink neuronových sítí se postupně vyčerpávají a vědecké studie varují, že se tento okamžik neodvratně blíží. Co to znamená pro vývoj AI a čeká nás éra stagnace?
V posledních letech zaznamenal svět umělé inteligence neuvěřitelný vzestup, kdy se počet trénovacích tokenů pro jazykové modely zvýšil z několika miliard na desítky bilionů. Výpočetní výkon nutný pro trénink se zvětšil exponenciálně a investice do AI přesáhly miliardy dolarů ročně. Algoritmy se učí rychleji, systémy zvládají složitější úkoly a modely jazykových zpracování se přibližují lidské údajnosti. Tato evoluce byla hnána obrovským množstvím dat, která byla sbírána, analyzována a použita pro výcvik modelů. Mezi nejvýznamnější zdroje patřily nejen běžně dostupné texty z internetu, ale také specializované databáze, jako jsou vědecké publikace, technické manuály, akademické články a právní dokumenty. Vývojáři také pracovali s rozsáhlými strukturálními datovými sadami, například databázemi genetických sekvencí, finančních trhů či programovacích kódů, které umožnily vytvoření modelů schopných hlubší analytiky a predikce.
V posledních letech se navíc rozšířilo využívání interaktivních datových vstupů, například z robotiky a senzorových sítí, které umožňují AI učit se přímo z reálného světa.
Jenže se zdá, že tato zlatá éra by mohla být u konce, neboť rostoucí energetické nároky a vyčerpání dostupných datových zdrojů způsobují, že vývoj umělé inteligence naráží na své limity. Odhaduje se, že velká datová centra, která podporují trénink největších AI modelů, spotřebovávají ročně desítky terawatthodin elektřiny – což odpovídá roční spotřebě menších států. Například modely jako GPT-4 nebo DeepSeek potřebují během tréninku výkon odpovídající stovkám tisíc specializovaných čipů, což s sebou nese extrémní náklady a významné ekologické dopady. Zároveň se objevují varování, že další expanze AI by mohla v budoucnu vyžadovat nové, efektivnější metody hospodaření s energií či přechod na ekologičtější zdroje napájení. Systémy, které kdysi expandovaly rychlostí blesku, nyní čelí realitě, kde další pokrok vyžaduje nové přístupy k trénování a optimalizaci zdrojů. Studie Epoch AI předpovídají, že kolem roku 2028 dosáhnou AI systémy bodu, kdy se vyčerpají veškerá dostupná trénovací data z internetu. Jinými slovy, čím dál více modelů se bude muset spolehnout na recyklaci již existujících informací, což může dramaticky zpomalit jejich další pokrok.
Kritický nedostatek dat
Zdroje, ze kterých AI čerpá, nejsou neomezené. S rostoucím objemem sbíraných dat se však naráží na limity, nejen z hlediska objemu, ale také kvality. Webový obsah neroste tak rychle, jak by bylo třeba. Podle Epoch AI se roční nárůst nových kvalitních textových dat pohybuje pod 10 %, zatímco potřeby AI rostou exponenciálně.
Dalším problémem je rostoucí ochrana obsahu. V posledních letech se objevilo několik významných soudních sporů týkajících se autorských práv a využívání dat pro trénink AI. V roce 2023 podaly The New York Times žalobu na OpenAI a Microsoft kvůli neoprávněnému použití jejich obsahu v trénovacích datech jazykových modelů. Podobné kroky podnikly i další mediální domy, včetně osmi velkých novin vlastněných společností Alden Global Capital v roce 2024. Tyto spory poukazují na rostoucí napětí mezi poskytovateli obsahu a technologickými firmami, které se snaží získat přístup k co největšímu množství dat. V reakci na to mnoho webových stránek zavedlo přísnější ochranu proti automatizovanému sběru dat a blokování přístupu pro AI modely.
Mnoho poskytovatelů dat, mediálních domů a akademických institucí začalo blokovat automatizované roboty, aby zabránili zneužití svého obsahu pro trénování AI. Podle studií se mezi lety 2023 a 2024 dramaticky zvýšil počet webů, které aktivně odmítají přístup crawlerům umělé inteligence.
Výzvy a možné směry vývoje
Technologické společnosti si tento problém samozřejmě uvědomují a hledají cesty, jak se s ním vypořádat. Jednou z možných cest je výroba syntetických dat, tedy generování nových informací pomocí již existující AI modelů. Tento přístup se již osvědčil v oblastech jako zdravotnictví či automobilový průmysl, kde AI simuluje různé situace a poučí se z vlastních dat.
Další možné řešení spočívá v efektivnějším trénování na menších datech. K tomu se stále častěji využívají techniky jako transfer learning, které umožňují přenos znalostí mezi různými modely, a reinforcement learning, jenž modely učí adaptivnímu rozhodování na základě zpětné vazby. Transfer learning umožňuje efektivní využití menších datových sad tím, že modely čerpají z předchozích zkušeností, což snižuje potřebu rozsáhlých datových souborů. Naopak reinforcement learning se osvědčuje při úkolech, kde modely potřebují průběžně optimalizovat své výstupy na základě interakce s prostředím, což nachází uplatnění například v robotice nebo samoučících se systémech. Nedávné experimenty ukázaly, že AI modely mohou dosahovat lepších výsledků opakováním tréninku na stejných datech namísto neustálého hledání nových zdrojů. Pokročilé techniky strojového učení a hlubší analýzy by mohly tento směr podpořit a prodloužit životnost dostupných informací.
Co nás čeká?
Ačkoliv se blíží moment, kdy AI modely narazí na limity dat, zároveň se otevírají nové možnosti. Firmy investují do vývoje pokročilých metod učení, hledají alternativní zdroje dat a zkoumají možnosti sběru informací z reálného světa prostřednictvím robotiky a senzorických zařízení.
Jak to dopadne?
To ukáže až následující roky, avšak odborníci jako Shayne Longpre z Massachusetts Institute of Technology upozorňují, že dopady nedostatku trénovacích dat už mohou být patrné. „Mám silné podezření, že se to už děje,“ uvedl Longpre pro časopis Nature, čímž naznačil, že AI systémy již nyní čelí výzvám spojeným s omezením dostupných datových zdrojů. Jisté však je, že AI stojí na prahu klíčové transformace, která určí její další směr. Bude umělá inteligence i nadále zlepšovat svou výkonnost, nebo se dostane do slepé uličky?
Výzkumy na toto téma probíhají a pokud chcete sledovat jejich aktuální výsledky, podívejte se na studii Epoch AI nebo na výzkumy provedené Massachusetts Institute of Technology (MIT) a OpenAI, které se zaměřují na efektivní využití dostupných dat a budoucí strategie pro vývoj AI modelů.