Zanim ChatGPT spowodował, że cały świat zwrócił swoje oczy ku sztucznej inteligencji, to ona już odgrywała istotną rolę w medycynie. Trudno w to uwierzyć, ale diagnoza ostrego bólu brzucha przy użyciu AI została wykonana już w 1976 roku. Pół wieku to bardzo dużo czasu – medycyna i informatyka zmieniły się nie do poznania. Sztuczna inteligencja jest technologią, która w wyjątkowy sposób łączy te dwie dziedziny. Działanie inteligentnych systemów nie byłoby jednak możliwe, gdyby nie dane medyczne zebrane w gigantyczne zbiory. Niestety, dostęp do nich jest bardzo utrudniony, wiele z nich po prostu się marnuje. Jak się okazuje, można to zmienić.
Zmarnowane dane medyczne
Kilka tygodni temu uczestniczyłem na Politechnice Poznańskiej w spotkaniu zorganizowanym przez Koło Naukowe GHOST i Poznański Horyzont Danych, gdzie poruszono temat „AI w 2025”. Było trochę o DeepSeek, projekcie Stargate, ograniczeniach w eksporcie chipów – tematami, którymi jeszcze niedawno żył cały technologiczny świat. Moją największą uwagę przykuła jednak zupełnie inna rzecz. Jeden z uczestników opowiedział o tym, jak dużo danych medycznych jest marnowanych, zamiast wykorzystywanych do trenowania modeli sztucznej inteligencji. Rzeczywiście, poważna kwestia, obok której nie powinniśmy przechodzić obojętnie.
Śmiem stwierdzić, że to dane są walutą XXI wieku, a nie Bitcoin, czy inne krypto. Gigantyczne zbiory danych, które umożliwiły stworzenie takie cudeniek jak modele językowe, stały się podstawą rozwoju technologicznego. Nie powinno zatem dziwić, że potrzeba coraz więcej danych i większej mocy obliczeniowej. Medycyna już jest jedną z największych beneficjentek rozwoju sztucznej inteligencji. Potencjał jest o wiele większy niż to, co widzimy obecnie.
Jak zatem dostarczać dalej niezbędne dane medyczne, które przysłużą się opracowaniu kolejnych, przełomowych rozwiązań? W końcu przepisy dot. ochrony danych osobowych są w szczególności w Unii Europejskiej bardzo rozwinięte. Do tego dochodzą kwestie samego funkcjonowania służby zdrowia w Polsce. Czy to bariera, której nie będziemy w stanie przeskoczyć? Jak się okazuje, jest kilka rzeczy, które aż się proszą, żeby je poprawić.
Ochrona danych osobowych a dane medyczne
Czasami można odnieść wrażenie, że interpretacja unijnych regulacji mogłaby stanowić osobną dziedzinę nauki. Z rozwojem sztucznej inteligencji najbardziej powiązane są takie regulacje jak AI Act i GDPR (w Polsce znane jako RODO). Nie da się zaprzeczyć, że ochrona danych osobowych jest ważna. Nikt przecież nie nawołuje do jej całkowitego zniesienia, to byłby absurd. W kontekście ochrony danych medycznych, problem może nie leżeć jednak nawet w samych przepisach, a ich nadinterpretacji.
Już kilka lat temu prof. Jarosław Reguła w wypowiedzi dla Termedia zauważył, że ograniczony dostęp do danych medycznych może być spowodowany właśnie przez błędną interpretację:
Do większości baz nie mamy dostępu z różnych przyczyn. Jedną z nich jest brak „mocy przerobowych” dla generowania nieco bardziej skomplikowanych zapytań wśród pracowników NFZ. Inną przyczyną – z jaką się spotkałem – jest „zasłanianie” się przez płatnika ustawą o ochronie danych osobowych, która, moim zdaniem, w Polsce jest źle interpretowana.
W efekcie, nawet jeśli uda się uzyskać dostęp do danych medycznych, to będą to dane okrojone i uogólnione tak, że są o wiele mniej warte z perspektywy badawczej. Za ich pomocą nie osiągniemy takich samych efektów, jak przy dostępie do pełnych zbiorów danych.
Profesor wskazał także, że szczególnie ograniczony jest dostęp do danych indywidualnych. Nie jestem wcale zaskoczony, że taka sytuacja sprawia, że wszystko staje się trudniejsze. Od oceny funkcjonowania systemu ochrony zdrowia, aż po efektywności stosowanych metody diagnostycznych i terapeutycznych.
Niekompatybilne bazy danych
Niestety, ale digitalizacja danych nie oznacza, że są one z automatu przechowywane w przystępny sposób. Co z tego, że każdy z nas ma PESEL, skoro system ten nie jest odpowiednio używany? W naszym kraju istnieją dziesiątki baz danych, które gromadzą dane zdrowotne. Myślicie, że są one powiązane lub kompatybilne? Niestety nie, bo wiele z nich zostało stworzonych tak, że nie przewidywano ich dalszego łączenia. Czasy się jednak zmieniły, umiejętna eksploatacja posiadanych danych jest potrzebna bardziej niż kiedykolwiek.
W raporcie „Wtórny dostęp do danych zdrowotnych w Polsce. Analiza istniejących zbiorów danych” autorzy wymieniają wyzwania, z którymi mierzy się opieka zdrowotna w kontekście danych. Wiele zbiorów danych nie jest wystandaryzowanych – nie można ich poddawać porównaniu. Dalej – zbyt niska interoperacyjność pomiędzy bazami danych, ograniczona możliwość importu danych bezpośrednio z placówek medycznych i brak otwartego dostępu do danych.
Naukowcy, analitycy, lekarze, pacjenci – wszyscy w pewnym stopniu to odczuwają. Nie mówimy tutaj o dane medyczne potrzebne do trenowania najbardziej skomplikowanych modeli. Problem pojawia się nawet przy prostej (tak się tylko wydaje) sprawie, jak zebranie informacji o pacjencie z różnych źródeł.
I tutaj niektórzy mogą się pozytywnie zaskoczyć – z pomocą przychodzi Unia Europejska, która chce uporządkować ten bałagan. Co prawda pełne wdrożenie rozwiązań ma nastąpić dopiero w 2029 roku, to jest to rzecz, nad którą nie powinniśmy przechodzić obojętnie. Wręcz przeciwnie – prace należy ukończyć jak najszybciej. Szkoda jednak, że potrzeba było unijnej inicjatywy, aby poznać konkretny termin zmian. Trudno, lepsze to niż nic.
Jak nie marnować danych?
Choć w kwestii cyfryzacji służby zdrowia stoimy naprawdę nieźle, to jest jeszcze wiele rzeczy do zrobienia. I nawet nie chodzi tutaj o sam rozwój sztucznej inteligencji w medycynie, a o samo usprawnienie systemu. Ostatnia propozycja zespołu SprawdzaMY Rafała Brzoski, aby powiązać nasze dane w ramach mObywatela i IKP – jestem za. Informatyzacja musi przebiegać w sposób jednolity, uporządkowany – w szczególności w tak wrażliwej dziedzinie jak medycyna.
Poddałbym również rewizji sposób udzielania przez pacjentów zgody na wykorzystanie danych. Dlaczego nie korzystamy na szeroką skalę z opcji, które przewiduje samo rozporządzenie RODO? W Motywie 33 RODO czytamy, że osoby mogą udzielić zgody na eksploatację ich danych nawet w sytuacji, gdy z góry nie znają celu badań naukowych. Wykorzystajmy do tego systemy, które już mamy – IKP i mObywatel to są naprawdę dobre aplikacje, ale nadal nie wykorzystujemy ich pełnego potencjału. Oczywiście wszystko to musi przebiegać w sposób świadomy i dobrowolny – pacjent musi w pełni wiedzieć co, dlaczego i komu udostępnia. Kampanie edukacyjne uświadamiające istotną rolę danych w dzisiejszym świecie są więc niezbędne.
Nie obejdzie się także bez ujednolicenia istniejących już baz danych. Eksperci wskazują na potrzebę powstania instytucji, która będzie mieć dostęp do numerów PESEL i połączenia istniejących już zbiorów danych. Wszystko po to, aby dane mogły później trafić do osób pracującymi nad badaniami.
Bezpieczeństwo to podstawa
Co z bezpieczeństwem? Tutaj pojawia się pewien problem. Nie będzie zaskoczeniem, że jedynym sposobem na całkowitą anonimowość danych jest ich anonimizacji. Niestety, ale w tym przypadku ze zbioru danych można wykluczać wszelkie atrybuty, które mogłyby pozwolić na identyfikację np. na podstawie dat hospitalizacji czy diagnoz rzadkich chorób. Inną drogą jest pseudonimizacja danych, która otwiera przed nami wiele nowych możliwości, ale tworzy nowe zagrożenia. Technika ta nie zapewnia pełnej anonimowości.
Znalezienie złotego środka pomiędzy pełną anonimizacją a pseudonimizacją jest wyzwaniem, które warto podjąć. Niezmiernie cieszy fakt, iż Ministerstwo Cyfryzacji i Ministerstwo Zdrowia ogłosiło, że pracuje nad stworzeniem przestrzeni danych, która zanonimizować dane medyczne na potrzebę badań naukowych. Miejmy nadzieję, że zapowiedzi nie będą zwykłą wydmuszką i realnie przyczynią się do rozwoju badań naukowych w Polsce. Jeśli jest to w pewien sposób pokłosie rewolucji AI, która kładzie nacisk na staranne obchodzenie się z danymi, to jestem jak najbardziej za. Nie ma nic złego w tym, aby w argumentacji używać sformułowania “sztuczna inteligencja” – w końcu ma ona służyć nam wszystkim, prawda?