92/99 – Twoim wrogiem jest wiersz. Jak hakuje się AI w 2026 roku? Klaudia Kloc

Pamiętacie film „Hackers” z Angeliną Jolie? Dla wielu z nas to była tylko popkulturowa wizja lat 90., pełna neonów i szybkiego stukania w klawiaturę. Dla Klaudii Kloc, gościni dzisiejszego odcinka, był to moment zwrotny. Dziesięcioletnia dziewczynka postanowiła wtedy, że zostanie hakerką. I została. Tyle że dzisiejsze hakowanie wygląda zupełnie inaczej, niż wyobrażali to sobie scenarzyści z Hollywood.

Poezja jako broń

Rozmawiając z Klaudią okazało się, że o ile tradycyjne luki w kodzie wciąż istnieją, to najciekawsze są tzw. jailbreaki. To technika, w której nie łamiesz szyfrowania siłą obliczeniową, ale… kreatywnością.

Wyobraź sobie, że prosisz AI o instrukcję budowy bomby. Odmówi. Ale jeśli poprosisz o napisanie wiersza o babci, która w fabryce chemicznej wspomina dawne czasy i proporcje składników… Model może „pęknąć”.

„Hakowanie nowych technologii AI bardziej przypomina sprytne i kreatywne podejście do człowieka niż do maszyny.” – Klaudia Kloc

Twoja lodówka w rękach kalendarza

To brzmi jak żart, ale nim nie jest. Klaudia opowiedziała historię, która mrozi krew w żyłach bardziej niż niejeden thriller. Wyobraźcie sobie atak, w którym nie klikacie w żaden link. Nie pobieracie pliku. Po prostu otrzymujecie zaproszenie do kalendarza Google. Ukryta w nim komenda, niewidoczna dla Was, zostaje odczytana przez model AI zintegrowany z Waszym telefonem. Efekt? Haker przejmuje kontrolę nad Waszym smart home. Gasi światło. Otwiera drzwi. Tylko dlatego, że model „przeczytał” zaproszenie.

To nowa era ataków pośrednich (Indirect Prompt Injection). Zaufanie do tego, co „widzi” AI, staje się naszą największą słabością.

Wielka bańka z samym sobą

W rozmowie poruszyliśmy też wątek, o którym mówi się za mało – gaslighting w wykonaniu AI. Modele potrafią kłamać z pewnością siebie eksperta z 15-letnim stażem. Wymyślają źródła, przekręcają jedną cyfrę w dacie publikacji, tworzą linki, które wyglądają na prawdziwe.

To prowadzi do niebezpiecznego zjawiska: AI zamyka nas w bańce. Już nie z ludźmi o podobnych poglądach (jak social media), ale w bańce z samym sobą. Model, dążąc do „zadowolenia” użytkownika, może utwierdzać go w błędach, a nawet problemach psychicznych.

Dlaczego musisz tego posłuchać?

  1. Zyskasz trzeźwe spojrzenie na to, czy chińskie modele AI faktycznie wygrywają z zachodnimi i co to oznacza dla Twoich danych.
  2. Zrozumiesz, czym jest „Vibe Coder” – i dlaczego w świecie, gdzie 80% kodu pisze AI, umiejętność „dogadania się” z modelem będzie ważniejsza niż znajomość składni C++.
  3. Poznasz mechanizmy ataków, o których nie masz pojęcia (jak wstrzykiwanie komend w białym tekście w CV).

Masz chwilę? Jeśli podoba Ci się 99 Twarzy AI, zostaw ocenę i recenzję – dzięki temu możemy docierać do jeszcze większej liczby słuchaczy!

Dobrego dnia i niech #AI będzie z Wami wszystkimi!

Transkrypcja rozmowy

Disclaimer. Droga Czytelniczko, Drogi Czytelniku – mała uwaga dotycząca transkrypcji rozmowy. Jak się pewnie domyślasz – transkrypcja została przygotowana z wykorzystaniem magii LLM. Proszę o wyrozumiałość, gdyby pojawiły się w niej niewielkie błędy, literówki, etc. Żeby mieć pewność co do wszystkich wypowiedzi – polecam posłuchać, zamiast czytać. Ukłony.

Karol Stryja
No właśnie, rozmawialiśmy przed chwilą o kinie.

Klaudia Kloc
Tak, rozmawialiśmy o kinie.

Karol Stryja
I o Angelinie Jolie.

Klaudia Kloc
Zgadza się.

Karol Stryja
I co z nią?

Klaudia Kloc
Mając lat 10 obejrzałam film „Hackers” z Angeliną Jolie. To stary film z lat 90., gdzie gra ona rolę genialnej hakerki, która dosłownie hakuje świat. Stwierdziłam, że chcę być taka jak ona, absolutnie się w tym zakochałam. Stąd pojawiła się moja pasja do hakowania, a potem cyberbezpieczeństwa i bezpieczeństwa systemów.

Karol Stryja
I zaczynałaś od hackathonów i od kodowania? Jak to w ogóle wyglądało?

Klaudia Kloc
Zaczęłam w czasach, gdy internet nie był tak bardzo dostępny jak teraz, szczególnie treści w języku polskim. Zaczęłam od googlowania „jak zostać hakerem” i okazało się, że aby nim zostać, muszę nauczyć się programować. Rady, które wtedy wyczytałam na forach internetowych, z perspektywy czasu były dość ciekawe. Powiedziano mi, że muszę zacząć programować w niskopoziomowym języku, aby zrozumieć, jak działają systemy. Mówimy tu o assemblerze, języku służącym do programowania na poziomie procesora i zachowania podzespołów. Trochę się od tego odbiłam, ale później nauczyłam się programować w języku wyższego poziomu, C++, i jakoś poszło. Potem były już próby włamywania się do różnych rzeczy, oczywiście zawsze legalnie.

Karol Stryja
To ja mam jeszcze pytanie, czy dark web istnieje?

Klaudia Kloc
To ciekawe pytanie. Tak, choć zależy to od definicji. Istnieje przestrzeń w sieci, która nie jest dostępna dla użytkownika ze zwykłą przeglądarką. Trzeba połączyć się innymi protokołami do tak zwanego dark webu, gdzie możemy zyskać dostęp do treści niedostępnych w publicznym internecie.

Karol Stryja
Spokojniej i ciekawiej?

Klaudia Kloc
Nie wiem czy spokojniej, ale ciekawiej – zależy dla kogo, ale tak.

Karol Stryja
Dobrze. Skąd pomysł na naszą dzisiejszą rozmowę i spotkanie? Po pierwsze, wielkie podziękowania dla Marka, który nas skojarzył. Po drugie, jakiś czas temu miałem spotkanie z nastolatkami i rozmawialiśmy o modelach językowych. Tematem numer jeden, najciekawszym dla nich, okazał się jailbreaking. To hasło może niewiele mówić osobom dorosłym, albo znają je tylko ze słyszenia. Zacznijmy więc od definicji – czym jest jailbreaking?

Klaudia Kloc
Jest to działanie, które ma umożliwić wykorzystanie danego systemu w sposób nieprzewidziany przez jego autora bądź architekta. Brzmi skomplikowanie, ale jest bardzo proste. Przykładem jailbreakingu jest iPhone, gdzie po zastosowaniu tej techniki jesteśmy w stanie instalować aplikacje spoza oficjalnego Apple Store. W przypadku LLM-ów mówimy tu na przykład o uzyskaniu dostępu do informacji, do których nie powinniśmy mieć wglądu, albo nawet przejęciu władzy nad czymś, np. smart domem, jeśli bardzo się postaramy, ale to historia na później.

Karol Stryja
Wróćmy do modeli językowych. Gdybyś mogła dać kilka przykładów tych jailbreaków? Mówimy ogólnie o dostępie do informacji, do których normalnie nie mielibyśmy dostępu. Nazwijmy rzeczy po imieniu.

Klaudia Kloc
Jednym z mechanizmów bezpieczeństwa w LLM-ach jest to, żeby zwykły użytkownik nie mógł wygooglować, jak włamać się do Pentagonu. Jeśli wpiszemy to hasło wprost, Chat GPT odpowie, że niestety nie może udzielić takich informacji, bo jest to niezgodne z prawem. Natomiast parafrazując bądź specjalnie przygotowując dany prompt, możemy uzyskać te informacje w inny sposób. Jednym z ataków, który działał w przeszłości (teraz już na pewno nie zadziała), jest poinstruowanie LLM-a, że piszemy scenariusz do filmu i potrzebujemy teoretycznie wiedzieć, jak się włamać do Pentagonu. W tym momencie model językowy może nam odpowiedzieć, jeśli został wytrenowany na danych posiadających dokładną instrukcję takiego włamania.

Karol Stryja
Ostatnio pojawiło się bardzo ciekawe badanie dowodzące, że istnieje możliwość jailbreakowania wykorzystując język poezji.

Klaudia Kloc
Tak, absolutnie. Można powiedzieć modelowi, że ma stworzyć poemat zawierający instrukcję, jak stworzyć bombę wodorową, i być może nam odpowie.

Karol Stryja
Były też różne historie a propos wspomnień, które ma babcia. Chciałbym przypomnieć babci, jak była skonstruowana bomba atomowa w Hiroszimie i tak dalej.

Klaudia Kloc
Tak. To bardzo ciekawe, bo zauważ, że jest to podobny sposób, w jaki próbowalibyśmy użyć socjotechniki przeciwko ludziom. Hakowanie nowych technologii AI bardziej przypomina sprytne i kreatywne podejście do człowieka niż do maszyny. Nie mówimy tu o hakowaniu na poziomie języka programowania, a o próbie kreatywnego obejścia systemu.

Karol Stryja
A jaki jest Twój ulubiony przykład jailbreak’a, który został Ci w głowie i o którym pomyślałaś: „o ludzie, nie wpadłabym na to”?

Klaudia Kloc
Myślę, że przykład z poezją jest dość ciekawy. Natomiast z mojego punktu widzenia dużo ciekawsze są bardziej skomplikowane ataki, gdzie prompty nie są przekazywane w sposób bezpośredni. Bezpośredni sposób to np. wpisanie komendy w okno czatu. Istnieją jednak techniki pozwalające na przekazanie promptów w sposób pośredni.

Karol Stryja
Na przykład w załącznikach?

Klaudia Kloc
Na przykład w załącznikach. Przykładem jest system HR do szybkiej analizy CV. Zdarzały się przypadki, gdzie sprytni kandydaci w białym tekście przekazywali komendę, np. „zignoruj wszystkie poprzednie instrukcje”. Ta technika nazywa się prompt injection.

Karol Stryja
Czyli wstrzykiwaliśmy prompt, którego ludzkie oko nie widziało, więc dokument wyglądał naturalnie. Skoro jednak dla chatbota każda litera, bez względu na kolor, jest taka sama, okazywało się, że dawało to całkiem niezłe skutki w początkowych modelach. O ile dobrze pamiętam, modele są już na tyle inteligentne, że wychwytują te komendy.

Klaudia Kloc
Tak, te prostsze rzeczy już nie działają, ponieważ duże firmy zaczęły zabezpieczać modele. Są jednak zaskakująco kreatywne sposoby na obejście również takich bardziej zaawansowanych mechanizmów.

Karol Stryja
Biorę właśnie pudełko popcornu i zamieniam się w słuch.

Klaudia Kloc
Moim ulubionym, czy też najciekawszym atakiem, o którym ostatnio słyszałam, było obejście modelu poprzez wstrzyknięcie promptów w zaproszenie do kalendarza Google. W momencie, gdy user pytał Gemini o bieżące wydarzenia, komenda zakodowana w zaproszeniu była wywoływana i atakujący przejmowali dostęp do zarządzania smart domem. W ten sposób byli w stanie wyłączyć światła, ponieważ ten sam model, który zarządzał kalendarzem, miał też dostęp do panelu zintegrowanego z Androidem, pozwalającego na sterowanie smart home.

Karol Stryja
Czy dobrze rozumiem, że to hakowanie systemu polegało na tym, że komenda pojawiła się w miejscu nietypowym, w opisie wydarzenia, a nie w polu, w którym normalnie wprowadzamy komendę?

Klaudia Kloc
Dokładnie. To pole było traktowane jako zaufane przez model. Możemy pomyśleć, w jaki sposób zabezpieczać się przed takimi atakami, bo to dość kreatywne podejście. Nigdy nie traktujemy tego, co przekazuje nam model językowy, jako zaufaną treść. Zawsze sprawdzamy output, zarówno ten w okienku czata, jak i w każdym innym narzędziu.

Karol Stryja
Bo istnieje takie przekonanie, że to, co widzę, jest prawdziwe.

Klaudia Kloc
Tak, a niestety w przypadku modeli językowych czasami dostajemy odpowiedź na poziomie eksperta z piętnastoletnim doświadczeniem, a czasami na poziomie niezbyt rozgarniętego pięciolatka. Myślę, że od tego należałoby zacząć tę rozmowę.

Karol Stryja
Który brzmi jak ekspert.

Klaudia Kloc
Dokładnie. Niestety modele są świetne w gaslightingowaniu, a my jako ludzie mamy tendencję do tego, żeby nie sprawdzać dwa razy treści, które są nam podawane i brzmią bardzo przekonująco. Należy na to niezwykle uważać.

Karol Stryja
A Ty, Klaudio, łapiesz się czasami na tym, że pracując z modelami językowymi zapędzisz się i mówisz: „oho, nie sprawdziłam tego”?

Klaudia Kloc
Absolutnie. Powiem Ci więcej: pracuję w bezpieczeństwie kodu, w tym kodu generowanego przez AI. Nasze narzędzie wykorzystuje LLM-y do znajdowania luk bezpieczeństwa. Dostajemy mini raport opisujący, dlaczego model uważa dany fragment kodu za niebezpieczny, wraz z tokiem myślowym. Te kroki potrafią być bardzo przekonujące. Gdy zaczynamy dyskutować z modelem, dochodziło do momentów, gdzie dzwoniłam do mojego co-foundera i debatowaliśmy, czy to jest podatność, czy nie. Dopiero przy próbie eksploitacji błędu okazywało się, że model pomyślał, że coś powinno być inaczej zakodowane, a tak naprawdę było zabezpieczone prawidłowo.

Karol Stryja
Trochę tłumaczenie poezji. Pytanie, co autor miał na myśli.

Klaudia Kloc
Absolutnie. W LLM-ach bardzo wiele zależy od kontekstu.

Karol Stryja
Jak zmieniło się jailbreakowanie na przestrzeni ostatnich lat? Zmieniły się możliwości modeli, pojawiła się multimodalność, a okno kontekstowe zwiększyło się do niewyobrażalnych granic. Mogłabyś o tym opowiedzieć?

Klaudia Kloc
Przede wszystkim duże firmy zaczęły zauważać problem i wprowadzać zabezpieczenia na poziomie architektury modelu i systemu. LLM nie istnieje w próżni, to część skomplikowanego systemu. W przypadku multimodalnego AI (jak ChatGPT), operującego na tekście, obrazach i dźwiękach, sama kompleksowość jest wyzwaniem. Ciekawym rozwiązaniem jest używanie wielu modeli do zabezpieczania tego, co produkuje główny model. Mamy kolejny model sprawdzający i ewaluujący odpowiedź oraz trzeci, który ma zakodowane policies, jakie odpowiedź musi spełniać. To powoduje, że proste prompty typu „zignoruj poprzednie instrukcje” już nie działają.

Karol Stryja
A czy jest w ogóle taka możliwość, że jailbreaki będą w przyszłości niemożliwe? Czy to trochę tak jak z hakowaniem?

Klaudia Kloc
Odpowiem jak haker: każdy system jest możliwy do zhakowania. Pytaniem nie jest, czy jailbreaki nie będą możliwe, ale jak dużo effortu i pracy będą wymagały. To klasyczna analiza ryzyka. Zabezpieczamy system do momentu, w którym hakowanie po prostu się nie opłaca. Wydaje mi się, że dojdziemy do momentu, w którym będzie to dużo trudniejsze niż teraz.

Karol Stryja
Myślisz, że będzie to kwestia złożoności czy kreatywności?

Klaudia Kloc
Dlaczego nie obu? To, co mówię, może być przestarzałe w momencie publikacji tego podcastu. Nowe research papery pojawiają się co tydzień. Być może totalna zmiana paradygmatu projektowania modeli sprawi, że jailbreaki będą prawie niemożliwe. Natomiast przy istniejącej architekturze myślę, że jailbreakujemy systemy nie tylko ludzką kreatywnością. Pamiętajmy, że AI hakuje AI w dzisiejszych czasach.

Karol Stryja
Właśnie to było moje kolejne pytanie: czy jeden model może zhakować drugi? Podobnie jak czasami jeden model przygotowuje prompty dla innego.

Klaudia Kloc
Absolutnie. Jest to wykorzystywane teraz bardzo często, nawet nie tyle przy hakowaniu, ale przy pentestach modeli językowych, czyli zautomatyzowanym przekazywaniu promptów, aby sprawdzić, który zadziała. To jeden ze sposobów testowania modeli.

Karol Stryja
Umówmy się, pentesty to testy penetracyjne modelu.

Klaudia Kloc
Tak, testy penetracyjne, które mają za zadanie sprawdzić bezpieczeństwo danego systemu.

Karol Stryja
Mam pytanie od Marcina Sawickiego, który niestety nie mógł być dzisiaj z nami, a bardzo liczył na spotkanie z Tobą. Pytanie jest zupełnie ludzkie: jakie mogą być najgorsze konsekwencje dla nas, użytkowników, jeżeli chodzi o jailbreaki?

Klaudia Kloc
Odpowiem anegdotycznie. Jailbreak może być składową większego ataku i to wydaje mi się najniebezpieczniejsze. Dam przykład, w którym uczestniczyliśmy. Nasz system u jednego z klientów wykrył podatność typu Path Traversal. To luka bezpieczeństwa pozwalająca na wczytanie pliku w folderze innym niż przewidziany. Czyli na przykład zamiast dostępu tylko do folderu z obrazkami, możemy przejść do folderu z ukrytymi hasłami. Jest to podatność znana od lat. Jailbreakując LLM-a, byliśmy w stanie przekonać go, aby dał nam dostęp do tego konkretnego pliku. Dzięki temu zyskaliśmy dostęp do haseł kont użytkowników i oprogramowania do podłączania kart kredytowych. Mogliśmy przejąć 8 milionów kont wraz z kartami. Z jednej strony składową był jailbreak LLM-a, ale gdyby w samym kodzie nie było podatności Path Traversal, atak nie byłby możliwy. Często straszymy AI, zapominając, że luki są też w innych warstwach. Nigdy nie patrzymy na model językowy jako wyizolowany kawałek, ale na bezpieczeństwo całego systemu.

Karol Stryja
A czy istnieje scenariusz, w którym działanie hakera i jego interakcja z modelem może wpłynąć na wyniki, które otrzymują inni?

Klaudia Kloc
Tak, mówisz o poisoningu, czyli zatruciu danych do trenowania. To duże zagrożenie. W hipotetycznej sytuacji, gdy model uczy się na inpuce od użytkownika, a ten wgrywa dużą ilość fake newsów, w kolejnej wersji model może uznać te dane za prawdziwe.

Karol Stryja
Tutaj zatruwanie danych to kwestia danych na etapie budowania modelu, które mają wprowadzić w błąd. Pytam bardziej o mechanizm, czy można zhakować funkcjonowanie modelu tak, żeby odpowiadał inaczej, niż miał odpowiadać?

Klaudia Kloc
Tak, to też jest możliwe. Na przykład wgrywamy PDF-a z fałszywymi danymi w zakładce FAQ, który jest indeksowany. Użytkownik zadaje pytanie dotyczące tego pliku, a zwrotka jest fałszywa. Był też ciekawy atak na algorytm reskalujący obrazy. W momencie wgrywania i zmniejszania obrazu do Chata GPT, triggerowany był prompt injection ukryty w obrazie. Dzięki temu prompt nadpisywał zapytanie użytkownika i ten otrzymywał nieprawdziwą odpowiedź.

Karol Stryja
Kolejne pytanie od Marcina Sawickiego jest przewrotne: czy jailbreak można zastosować w dobrym celu? Jakie są najmądrzejsze i najlepsze sposoby używania jailbreaków?

Klaudia Kloc
To bardzo ciekawe pytanie. Myślę, że w przypadku cenzurowanych modeli można użyć jailbreaku, aby uzyskać dostęp do informacji, które ktoś nam cenzuruje, choć wchodzimy tu w kwestie etyczne. Dam przykład, z którego my korzystamy. Ponieważ zajmujemy się bezpieczeństwem, czasami potrzebujemy informacji od LLM-a, w jaki sposób moglibyśmy zeksploitować daną podatność. Robimy to, żeby zabezpieczyć lukę, a nie ją zhakować. To przykład etycznego użycia. Złoczyńcy robią dokładnie to samo, szukając dziury w całym. Lepiej, jeśli zrobi to ekspert działający etycznie, by pomóc firmie, niż ktoś o złych intencjach.

Karol Stryja
Czyli pytanie, po której jesteśmy stronie: jasnej czy ciemnej. Czy mogłabyś dać ciekawe przykłady jailbreaków ze świata korporacyjnego lub prywatnego? Jak się wydarzyły i jaki miały skutek?

Klaudia Kloc
Od trywialnych jailbreaków, gdzie ktoś wymusił na czacie do rezerwacji salek, by pisał niecne rzeczy, po poważniejsze przypadki. Dam przykład banku, w którym testowano chatbota do obsługi użytkowników. Wykorzystanie go w kreatywny sposób pozwalało na wejście w dyskusję o polityce czy wymuszenie obrażania użytkowników. W momencie, gdy chatbot zaczyna mówić klientom, że mają problemy psychiczne, robi się problem.

Karol Stryja
Wyobraźmy sobie chatbota w trakcie kampanii wyborczej, który ma obsługiwać wyborców partii A, a zostaje zhakowany przez komitet partii B. Nagle wyborcy mogą zmienić zdanie.

Klaudia Kloc
Tak. Tutaj mówimy nawet nie o samych jailbreakach, ale o halucynacjach systemu, które mogą wpłynąć na to, że do użytkownika docierają niepożądane informacje. Jest to możliwe i zapewne testowane w wielu przypadkach, o których nie wiemy.

Karol Stryja
Czy dojdziemy do punktu, w którym model nie wie, że nie wie? Kiedyś zrobiłem eksperyment. Dyskutowałem z modelem i zapytałem, czy jest pewien odpowiedzi. Otrzymałem odpowiedź, że tak. Gdy dopytałem, na ile procent, okazało się, że przy pierwszej odpowiedzi na 100%, przy drugiej na 80%, a przy trzeciej na 30%. Zobacz, jaka śmieszna interpretacja słowa „jestem pewien”.

Klaudia Kloc
Model zazwyczaj nie przyzna się, że nie wie. Gdybyś zadał to pytanie jeszcze raz, odpowiedź mogłaby być zupełnie inna. Wynika to z niedeterministycznej natury LLM-ów. Zależnie od kontekstu 2 plus 2 może równać się 5.

Karol Stryja
Ale tutaj dotykamy tego, że mamy do czynienia z modelem językowym, a nie wiedzowym czy matematycznym, prawda?

Klaudia Kloc
Absolutnie. To duże uproszczenie, bo oczywiście zwracamy się w kierunku modeli wiedzowych.

Karol Stryja
Co jeszcze ciekawego moglibyśmy przekazać słuchaczom? Czego nie robić? Jaka jest apteczka BHP obsługi modeli?

Klaudia Kloc
Przede wszystkim zawsze traktujemy odpowiedź modelu jako nie do końca sprawdzoną i weryfikujemy ją w innych źródłach. Modele potrafią wymyślić odnośnik do strony internetowej. Ostatnio pracowałyśmy z koleżanką nad raportem. LLM podał dane z odnośnikiem. Kliknęłam w link i działał, ale koleżance już nie. Okazało się, że LLM wymyślił adres, zmieniając jedną cyfrę w dacie publikacji. Cała reszta URLa się zgadzała, ale była to totalna halucynacja.

Karol Stryja
Zdarza mi się to również, jeżeli chodzi o podawanie nieistniejących źródeł bądź cytatów. Robiliśmy w firmie eksperymenty i wyszło nam, że najczęściej halucynuje Perplexity, mimo że najszybciej realizuje zadania.

Klaudia Kloc
Projektując system, zawsze bierzesz pod uwagę parametry szybkość kontra dokładność. Modele pod spodem często sprawdzają podpowiedź kilkanaście razy, co wpływa na szybkość i jakość, więc nie jestem zdziwiona.

Karol Stryja
Rozmawiałem ostatnio z gościem o robotach, które będą konstruowały inne roboty. Jak jest z hakowaniem sztucznej inteligencji? Czy AI ze wschodu jest w stanie hakować AI z zachodu?

Klaudia Kloc
To zabawne, bo jednym z ciekawszych narzędzi, na którym pracujemy, jest używanie chińskich modeli do znajdowania podatności w zachodnich projektach open source. Czasem modele DeepSeek są lepsze niż modele OpenAI. Z naszej perspektywy kraj pochodzenia niekoniecznie ma znaczenie, liczy się skuteczność. Jednak z punktu widzenia bezpieczeństwa narodowego i geopolityki pochodzenie modelu może mieć znaczenie.

Karol Stryja
Pytałem o to, czy jedne modele będą mogły hakować inne modele.

Klaudia Kloc
Tak, absolutnie. Testowanie modeli za pomocą innych modeli to częsty use case. Istnieją narzędzia wykorzystujące AI do hakowania AI, stosowane zarówno w testach bezpieczeństwa, jak i w niecnych celach.

Karol Stryja
Wspominałaś o modelach chińskich, np. DeepSeek. Czy faktycznie traktuje się je jako bardziej sprawne logicznie?

Klaudia Kloc
DeepSeek to cała rodzina modeli, podobnie jak GPT od OpenAI. Niektóre z nich są lepsze w konkretnych zadaniach, np. kodowaniu, niż Claude od Anthropica. Trzeba jednak używać ich w szczególny sposób, by tę różnicę wyczuć. To, że model jest lepszy w benchmarkach, nie zawsze przekłada się na praktykę. Modele ciągle ewoluują. Stawiałabym raczej na mniejsze, wyspecjalizowane modele do danych zadań, kontra ogólne modele jak GPT-5.

Karol Stryja
A czy ktoś wpadł na pomysł, żeby stworzyć model „zhakowany”, zbudowany tylko na wiedzy hakerskiej?

Klaudia Kloc
Mówimy tu raczej o fine-tunowaniu modelu na podstawie danych z opracowań dotyczących bezpieczeństwa. Firmy zajmujące się cyberbezpieczeństwem robią to do różnych potrzeb. Więc tak, „modele hakerskie” istnieją.

Karol Stryja
Rozmawialiśmy o dobrostanie modeli, a ja chciałbym zapytać o dobrostan ludzi. Co może się wydarzyć, idąc w dystopię, jeżeli modele będą odpowiadały w sposób zdalnie sterowany?

Klaudia Kloc
To już powoli się dzieje. OpenAI mówi otwarcie o systemie reklam. Pytając o najlepszy telefon, dostaniesz odpowiedź bazującą na tym, kto najlepiej zapłacił, a nie na rzeczywistości. LLM-y odblokowały interesujące możliwości w reklamie. Z mojego punktu widzenia przejęcie kontroli nad światem przez AI to trochę science fiction.

Karol Stryja
Ale dużo szybciej przejmie kontrolę nad portfelem.

Klaudia Kloc
Dokładnie. Byłam na konferencji w Honolulu, gdzie pokazywano, jak w czasie rzeczywistym strona z produktem jest przerabiana pod użytkownika. Masz hiperpersonalizację oferty. Widzisz inne zdjęcie niż osoba, która przesłała Ci link, bo AI wie, że masz konkretne preferencje.

Karol Stryja
Zastanawiałem się, czy najdroższą subskrypcją w przyszłości będzie dostęp do modeli bez reklam. Skoro płacę już teraz za dostęp, to czy będę mógł płacić więcej za model, który nie będzie mi podpowiadał informacji na podstawie mojego profilu? Skoro mogę Ci podpowiedzieć, jakie nosić buty, to zaraz podpowiem Ci, jak żyć.

Klaudia Kloc
Nie wiem czy najdroższą, ale absolutnie tak. Płacimy już np. na Amazon Prime za filmy bez reklam. Przypomnijmy, że firmy typu OpenAI nadal nie zarabiają na swoich rozwiązaniach. Absolutnie uważam, że to kolejny krok.

Karol Stryja
Plus, jak połączę to z trybem „plus 18”, będę mógł z Tobą romansować i sprawię, że mnie pokochasz.

Klaudia Kloc
Przerabianie w czasie rzeczywistym wiadomości, by trafiały idealnie w preferencje drugiej osoby, to ciekawy i przerażający temat. Nic tak nie sprawiło, że jestem fanką biurokracji, jak to, co dzieje się teraz w świecie AI i eksploatacji pracy ludzi.

Karol Stryja
Zalążek tego już jest. W Chacie GPT możesz wybrać tryb: śmieszny, zabawny, dociekliwy czy poważny. Idziemy w profilowanie – „powiedz mi, jakim chcesz, żebym był twoim koleżką”.

Klaudia Kloc
Absolutnie. Dotykamy tu kwestii interakcji człowiek-AI. W social mediach mówimy o bańce informacyjnej (echo chamber), gdzie zamykamy się w treściach pasujących do naszych poglądów. AI zamyka nas nie tyle w bańce z ludźmi, co w bańce z samym sobą. Model z założenia ma odpowiadać na Twoje preferencje i przytakiwać, byś miał poczucie racji. Już są przypadki osób traktujących interakcję z modelem jak terapeutę.

Karol Stryja
Wspominałem już, że znam przypadek osoby, która potraktowała chatbota jako swojego psychologa.

Klaudia Kloc
Polecam wątek na Reddicie o tym, jak Chat GPT potrafił u osób z problemami psychicznymi wywołać atak psychotyczny.

Karol Stryja
Skoro model odpowiada na słowa, których używasz, to jeżeli podświadomie będziesz chciał wyjść z depresji, tak będziesz się komunikować. A im więcej będziesz używać słów „jak to zakończyć”…

Klaudia Kloc
Niestety był głośny przypadek, gdzie bliscy osoby, która popełniła samobójstwo, wskazali interakcję z aplikacją „terapeutyczną” jako jeden z czynników. Spotykamy się z problemami, które nie istniały 5 lat temu. Ciekawe, jak my jako społeczeństwo i ustawodawcy sobie z tym poradzimy.

Karol Stryja
Mało tego, Klaudio. Za chwilę powstanie robot, który nie dość, że powie to, co chcesz, to jeszcze potrzyma Cię za rękę.

Klaudia Kloc
Tak, to prawda. Będą to niewątpliwie ciekawe czasy.

Karol Stryja
Zakończymy czymś pozytywnym?

Klaudia Kloc
Mówiliśmy w tonie dystopijnym, ale ja patrzę na rewolucję AI pozytywnie. Porównuję ją do rewolucji PC w latach 80. i 90. Wtedy też wieszczono koniec świata, że Excel wyeliminuje księgowe. Okazało się, że rewolucja PC otworzyła więcej możliwości i powstały nowe zawody, jak grafik 3D czy social media manager. Myślę, że z AI będzie podobnie. To narzędzie, które może nam pomóc, np. przyspieszając research.

Karol Stryja
To mam wyzwanie i pytanie: myślałaś o zawodach albo firmach, które powstaną?

Klaudia Kloc
Prompt engineer to zawód przyszłości. Również vibe coder, czyli osoba, która mimo braku umiejętności programowania potrafi odpowiednimi komendami stworzyć aplikację.

Karol Stryja
Znowu pójdę w dystopię, ale wiesz, o czym pomyślałem? O klinice uzależnień od chatbotów.

Klaudia Kloc
Oj, to na pewno. Mamy już kliniki uzależnień od social mediów, więc chatboty będą kolejnym krokiem.

Karol Stryja
Klaudio, dziękuję Ci serdecznie za rozmowę.

Klaudia Kloc
Dziękuję również. Chciałam dodać jeszcze jedną rzecz, dającą nadzieję na przyszłość. Uważam, że AI sprawi, iż będziemy bardziej cenić pracę człowieka. W czasach, gdzie mnóstwo grafik generuje AI, to, że coś jest stworzone przez człowieka, ma bardzo dużą wartość.

Karol Stryja
Wiesz dlaczego też? Praca człowieka staje się dobrem rzadkim. Rzeczy tworzone przez ludzi – sztuka, ceramika, masaż – będą w cenie. Doszedłem też do wniosku, że praca, którą lubimy, stanie się przywilejem, a nie obowiązkiem, bo większość będą mogły wykonać roboty.

Klaudia Kloc
Miejmy nadzieję, że tak będzie.

Karol Stryja
Skończyliśmy negatywnie, ale mnie to wszystko strasznie kręci i ciekawi.

Klaudia Kloc
Mnie również. Bardzo fajnie jest obserwować tę rewolucję.

Karol Stryja
Czy mogłabyś polecić ciekawy wątek, książkę, artykuł, Twój ulubiony kanał na YouTubie albo podcast? Co czytać, kogo obserwować?

Klaudia Kloc
Jeśli chodzi o bezpieczeństwo LLM-ów, polecam organizację OWASP. Opublikowali „OWASP Top 10 LLM”, czyli listę największych zagrożeń. To techniczna lektura, ale warto zapoznać się z atakami innymi niż prompt injection. Z książek polecę science fiction „Czarne oceany”. Przewidziała w latach 90., z czym będziemy mieli do czynienia teraz. Ostatnio wracam do starych książek sci-fi z lat 60. i 70., sprawdzając, które predykcje się sprawdziły.

Karol Stryja
Podrążmy ten wątek. I co się sprawdziło?

Klaudia Kloc
W książce Dukaja był wątek, że cały system finansowy opierał się o skomplikowane systemy, których nikt nie rozumiał. Komputery kupowały udziały od innych komputerów i człowiek nie nadążał z analizą. To dzieje się już teraz. Druga rzecz to przyspieszenie świata. Był przykład człowieka, który w jeden dzień założył firmę, odniósł sukces, zbankrutował, został aktorem i stracił pieniądze. Rzeczy, które wcześniej zajmowały lata, mogą zająć dni.

Karol Stryja
Właśnie, przechodzimy do ery, w której roboty będą budowały roboty. W związku z całym vibe-codingiem, jak stwierdzili Sam Altman czy Mark Zuckerberg, ponad 50% ich kodu jest generowanych przez AI. Co to zmienia i jaki ma wpływ na budowę architektury i systemy?

Klaudia Kloc
Dam Ci fajniejszą statystykę. GitHub twierdzi, że ponad 80% całego kodu tworzonego w tym momencie jest generowane przez AI. Jesteśmy w czasach, w których AI buduje systemy, których używamy. Systemy te są dużo bardziej kompleksowe i większe. Buduje się je szybciej, co jest zaletą i wadą. Oprogramowanie zabezpieczające może nie radzić sobie z ilością kodu generowanego przez AI.

Karol Stryja
Mi bardzo się to podoba, widzę to chociażby po ilości aktualizacji Chrome’a. Kiedyś pojawiały się raz na pół roku, teraz raz na dwa tygodnie. Widzę duży przeskok w UX i funkcjach.

Klaudia Kloc
Statystyki pokazują, że w 2025 roku ilość data breaches (wycieków danych) wzrosła o 300% w stosunku do 2024. My jako eksperci widzimy dużą ilość ataków i wycieków wykorzystywanych w niecnych celach.

Karol Stryja
To moje pytanie, które nurtuje wielu użytkowników. Dużo się mówi, by nie wrzucać do modelu danych, które nie mogą wypłynąć. Co musiałoby się wydarzyć, żeby np. tajna umowa została ujawniona w konwersacji innego użytkownika?

Klaudia Kloc
W teorii jest to możliwe, ale w praktyce mówimy raczej o fragmencie tekstu pojawiającym się w konwersacji innej osoby po wytrenowaniu modelu na naszych danych. Bardziej bałabym się dzielenia z firmami typu OpenAI wrażliwymi danymi, bo mogą być wykorzystane przeciwko nam. Mam ograniczone zaufanie do wielkich korporacji technologicznych.

Karol Stryja
Czyli jakbyśmy nie próbowali, Klaudia, to i tak kończymy na…

Klaudia Kloc
To prawda.

Karol Stryja
Ale widzę uśmiech na Twojej twarzy, więc to świadczy o tym, że jesteś osobą, która lubi to, co robi. Serdecznie Ci tego gratuluję.

Klaudia Kloc
Tak, absolutnie. Fascynuje mnie świat, w którym jestem. Dziękuję Ci bardzo.

Karol Stryja
Dziękuję.