1. Home -
  2. Finanse -
  3. Lepiej nie powierzaj ChatowiGPT inwestycji w kryptowaluty. Wyniki eksperymentu nie zostawiają złudzeń

Lepiej nie powierzaj ChatowiGPT inwestycji w kryptowaluty. Wyniki eksperymentu nie zostawiają złudzeń

Przeprowadzony przez laboratorium Nof1 eksperyment „Alpha Arena” dostarczył jednoznacznych dowodów na obecne ograniczenia dużych modeli językowych (LLM) w starciu z rynkami finansowymi. Sześć wiodących modeli AI, w tym GPT-5 i Gemini 2.5 Pro, otrzymało po 10 tys. dolarów i zadanie samodzielnego handlu na realnym rynku kryptowalut. Po 17 dniach rywalizacji, wyniki okazały się druzgocące dla najbardziej znanych zachodnich technologii.

Porażka sztucznej inteligencji w inwestowaniu. Wyniki eksperymentu nie pozostawiają złudzeń

Jak podaje bankier.pl, wyniki 17-dniowej rywalizacji, która trwała od 18 października do 3 listopada, obnażyły słabość amerykańskich modeli. Najgorszy wynik w całym zestawieniu osiągnął GPT-5 firmy OpenAI, który z początkowych 10 tys. dolarów stracił 62,7 proc., kończąc test z kwotą 3733 dolarów. Niewiele lepiej poradził sobie Gemini 2.5 Pro od Google, notując stratę na poziomie 56,7 proc. Model Grok 4 (xAI) oraz Claude Sonnet 4.5 (Anthropic) również zakończyły eksperyment na minusie, tracąc odpowiednio 45,3 proc. i 30,8 proc. kapitału.

Modele te, jak wynika z analizy, już po kilku dniach zaczęły generować straty, których nie były w stanie przerwać do końca trwania konkursu.

Co jednak ciekawe, w tym samym czasie modele chińskie poradziły sobie znacznie lepiej. Zwycięzcą pierwszej edycji Alpha Arena został Qwen3-Max (Alibaba), który jako jedyny wygenerował stabilny zysk, kończąc rywalizację z wynikiem 12 231 dolarów (wzrost o 22,3 proc.).

Drugi chiński model, DeepSeek v3.1, również zakończył test na plusie (4,9 proc.), choć jego strategia okazała się niezwykle ryzykowna. W połowie testu notował on zysk przekraczający 13 tys. dolarów, by następnie stracić go niemal w całości w wyniku rynkowej korekty.

To, że modele LLM nie radzą sobie z inwestowaniem w kryptowaluty, nie powinno wcale tak mocno dziwić

Organizatorzy testu z Nof1 podkreślają, że tak słabe wyniki, zwłaszcza zachodnich modeli, nie są przypadkiem. Jak przyznał założyciel laboratorium, Jay A. Zhang, modele zostały celowo postawione w trudnej sytuacji. Zhang przyznał też, że modele LLM zasadniczo słabo radzą sobie z numerycznymi danymi szeregów czasowych - a tylko taki kontekst został im dostarczony.

W praktyce oznacza to, że technologie trenowane na języku i logice zostały zmuszone do podejmowania decyzji wyłącznie na podstawie surowych danych rynkowych. To z kolei obnażyło ich ograniczenia w tej dziedzinie.

Mimo że organizatorzy przyznają, iż 17-dniowy test ma „ograniczoną moc statystyczną”, przyniósł on intrygujące wnioski. Najważniejszym z nich jest obserwacja, że poszczególne modele wykazywały stałe, powtarzalne zachowania, niezależnie od instrukcji.

Eksperyment pokazał, że AI nie jest monolitem, a poszczególne architektury mają różne, systemowe odchylenia (biasy) w podejściu do ryzyka. Laboratorium Nof1 zapowiedziało już kontynuację badań w ramach Alpha Arena 1.5, w której modele będą testowane równolegle przy użyciu wielu różnych, bardziej złożonych monitów.

Obserwuj nas w Google Discover
Google Discover
Podobają Ci się nasze treści?
Google Discover
Dołącz do dyskusji
Najnowsze
Warte Uwagi