LLM-y to ślepa uliczka
Kluczem do zrozumienia tego, co dzieje się na giełdzie, w szczególności u amerykańskich spółek technologicznych, jest 30 listopada 2022 roku. To dzień premiery pierwszej publicznej wersji ChataGPT. Tak, to już trzy lata. Pod koniec grudnia cena jednej akcji Nvidii wynosiła ok. 16,5 dolara. Dzisiaj to już ok. 190 dolarów. Były momenty, w których spółka przebiła magiczne 5 bilionów dolarów kapitalizacji rynkowej.
Dlaczego? Trwamy w szale na sztuczną inteligencję w najbardziej ludzkiej postaci z jaką przyszło nam pracować. Nie żadne skomplikowane mechanizmy uczenia maszynowego, niezrozumiałe sieci neuronowe, przestarzałe systemy eksperckie, a chatboty. Piszemy własnymi słowami co chcemy otrzymać, a chatbot w taki sam sposób odpowiada. Nie trzeba umieć programować. Nie potrzeba do tego specjalnej instrukcji obsługi. Wystarczy pisać. Przepis na sukces.
I rzeczywiście tak się stało, bo właściwie każdy gigant technologiczny ma swojego LLMa (Large Language Model – narzędzie AI potrafiące przetwarzać i generować tekst na poziomi zbliżonym do ludzkiego). A jeśli nie ma, to przynajmniej inwestuje w inne firmy zajmujące się tym tematem lub po prostu wdrożył u siebie takie rozwiązania.
O co chodzi z tym całym AGI?
Już za niedługo mamy żyć w raju albo w piekle – właściwie takie narracje dominują w przestrzeni publicznej od czasu premiery ChataGPT. Sam Altman, CEO OpenAI, organizacji odpowiedzialnej za ChataGPT, od lat trąbi, że już wkrótce użytkownicy dostaną tzw. „AGI”. Ale co to właściwie jest? Cóż, na przestrzeni lat definicja zdążyła się delikatnie zmieniać – przede wszystkim po to, aby zadowolić inwestorów i utrzymać zainteresowanie wokół modeli językowych.
Najprościej mówiąc, AGI to „sztuczna inteligencja ogólna”, która rozumie, uczy się i stosuje nabytą wiedzę na poziomie takim samym lub lepszym niż człowiek. Ma to być imitacja ludzkiego mózgu pod względem jego elastyczności – umiejętności rozwiązywania problemów, z którymi nigdy wcześniej nie mieliśmy do czynienia. Na obecną chwilę maszyna nie potrafi nam tego zagwarantować.
Ale samego AGI jak nie było, tak nie ma. Co prawda kolejne modele językowe odnoszą coraz lepsze wyniki w wymagających testach jak np. ARC-AGI, to minie jeszcze dużo czasu, zanim LLM-y osiągną elastyczność ludzkiego mózgu. O ile w ogóle osiągną, bo istnieją poważne przesłanki za tym, aby nawet o tym nie myśleć.
Uczenie się tekstu to ślepa uliczka
Przyczyna tego, że LLM-y to ślepa uliczka w rozwoju sztucznej inteligencji nie leży jednak raczej w zasobach jak np. braku odpowiedniej ilości kart graficznych do trenowania modeli. Yann LeCun, światowej sławy ekspert w dziedzinie uczenia maszynowego i sztucznej inteligencji, Chief AI Scientist w Meta postawił ostatnio sprawę jasno – problemem jest sama architektura LLM-ów.
Systemy AI muszą umieć rozumieć świat fizyczny i przewidywać konsekwencje - tego nie osiągniemy trenując tylko na tekście.
LLM-y nie są w stanie zrozumieć świata fizycznego w taki sposób jak robią to ludzie. Jedynym kanałem informacji modeli językowych jest tak naprawdę sam tekst. Człowiek ma do dyspozycji szereg innych rzeczy – zestaw zmysłów, przebywanie w przestrzeni, która wypełniona jest gigantyczną liczbą informacji. Tego modele językowe nie potrafią przetwarzać.
LeCun mówi wprost:
LLM-y to ślepy zaułek, nie zbliżą nas do AGI. [...] Jeśli chcesz tworzyć AI na poziomie człowieka, skup się na tym, czego LLM-y nie potrafią.
Argumentacja francuskiego naukowca rzeczywiście ma sens i coraz więcej osób przyznaje mu rację. On sam nie jest też pierwszy, który by wygłosił takie stwierdzenie. Najbardziej interesujące w tym wszystkim jest to, że wygłosił to pracownik korporacji, która sam wykłada grube miliardy na rozwój AI, w tym właśnie LLM-ów.
Kolejne miliony kart graficznych od Nvidii nie pomogą
Tak, pewnego dnia może nadejść chwila, w której odkrycie czegoś nowego w ramach LLM-ów będzie graniczyło z cudem. Już nawet ostatnie premiery najnowszych modeli językowych zdają się być coraz mniej przełomowe. Dokładanie kolejnych tysięcy układów od Nvidii na potrzeby rozwoju LLM-ów może być zatem po prostu bez sensu.
Tak, jak kiedyś sieci neuronowe czekały na odpowiednią moc obliczeniową, aby mogły być użyte w praktyce, tak teraz być może mamy moc obliczeniową, której nie potrafimy dobrze wykorzystać. No to co? Bańka pęknie? Patrząc po ostatnich wynikach Nvidii – nie sądzę. Może od czasu do czasu czekają nas lekkie zadyszki, ale zapotrzebowanie na rozwój centrów danych i usług wokół AI cały czas rośnie. Póki Nvidia dobrze się trzyma, możemy być optymistami. W końcu to ona odpowiada za dostarczenie technologii wielu innym technologicznym gigantom, z których usług na co dzień korzystamy.
Ale co zamiast LLM-ów? Yann LeCun proponuje tzw. „world modele”, które będą na wzór człowieka przyswajać wielomodalne dane – wzrokowe, słuchowe, dotykowe. Wszystko to, co pochodzi z interakcji ze światem fizycznym. Brzmi abstrakcyjnie, ale właściwie co z tego? Przecież jeszcze kilka lat temu nikt nie myślał o tym, że w 2025 roku będziemy niemal codziennie czatować. Ale nie z drugim człowiekiem, a wielkim modelem przeliczającym sobie gdzieś w tle macierze.