89/99 – Jak nauczyliśmy AI mówić językiem, którego nie słychać? Paweł Potakowski, migam.ai

Są historie, które zmieniają to, co uważamy za możliwe. Opowieść o MIGAM jest jedną z nich. Rozmowa z Pawłem Potakowskim to podróż do świata, w którym komunikacja wykracza poza dźwięk, a innowacja rodzi się nie z unijnych grantów, ale z determinacji i pieniędzy zarobionych na rynku.

Zaczęliśmy od stwierdzenia, który od razu burzy powszechne wyobrażenia. “Dla bardzo wielu głuchych język ich ojczystego kraju jest dla nich jak język obcy”.To pokazuje, dlaczego napisy na ekranie to często za mało i dlaczego praca jego zespołu jest tak ważna.

Marzenia realizowane dzięki pracy, nie grantom unijnym

Przez lata firma budowała stabilny biznes na usługach tłumaczeń online, by móc sfinansować marzenie: stworzenie generatywnej sztucznej inteligencji do tłumaczenia języków migowych.

Połączenie misyjności z niezwykłym pragmatyzmem. Ta droga, pełna zderzeń z biurokracją i sceptycyzmem (innych, nie MIGAM), zbudowała w nich odporność i dała coś bezcennego: wolność. Wolność do tworzenia technologii na własnych zasadach, bez kompromisów. 

Nauczyć maszynę widzieć emocje

Jak więc nauczyć AI języka, który jest trójwymiarowy, kontekstowy i w którym emocje malowane są na twarzy? To wyzwanie, które wykracza daleko poza tradycyjne modele językowe. MIGAM.AI to model o naturze temporalnej – rozumie upływ czasu, kolejność gestów i ich wzajemne relacje w przestrzeni.

Gdy ich model nie zna znaku na jakieś słowo, np. nazwisko, nie halucynuje. Zamiast tego potrafi je przeliterować. A gdy nie zna znaku na „Warszawę”, ale wie, że to stolica Polski, zamiga właśnie „stolica Polski”. To jest rozumienie, a nie mechaniczne odtwarzanie.

Technologia dla ludzi

W tej historii najważniejszy pozostaje człowiek. Paweł powtarzał zasadę: „Robisz technologię dla Głuchych, musisz mieć Głuchych na pokładzie”. W MIGAM ponad 40% zespołu stanowią osoby niesłyszące, co gwarantuje, że tworzone rozwiązanie jest przemyślane i pełne szacunku dla kultury, której ma służyć.

Ta rozmowa to dowód, że największe innowacje powstają na styku autentycznej potrzeby, błyskotliwej technologii i żelaznej dyscypliny. 

Zastanów się po wysłychaniu odcinka…

  • Czy masowe wdrożenie awatarów AI w rozrywce i mediach to szansa na uwolnienie zasobów ludzkich tłumaczy do krytycznych zastosowań (medycyna, sądy), czy raczej ryzyko dewaluacji ich zawodu?
  • Czy model biznesowy oparty na bootstrappingu w tak kapitałochłonnej branży jak AI to anomalia, czy może przyszłość dla firm, które chcą zachować pełną kontrolę nad swoją misją?
  • Jeśli technologia AI staje się głównym pośrednikiem między kulturą Głuchych a światem słyszących, jakie niesie to za sobą ryzyka kulturowe i kto powinien stać na straży jej autentyczności?

Masz chwilę? Jeśli podoba Ci się 99 Twarzy AI, zostaw ocenę i recenzję – dzięki temu możemy docierać do jeszcze większej liczby słuchaczy!

Dobrego dnia i niech #AI będzie z Wami wszystkimi!

Transkrypcja rozmowy

Disclaimer. Droga Czytelniczko, Drogi Czytelniku – mała uwaga dotycząca transkrypcji rozmowy. Jak się pewnie domyślasz – transkrypcja została przygotowana z wykorzystaniem magii LLM. Proszę o wyrozumiałość, gdyby pojawiły się w niej niewielkie błędy, literówki, etc. Żeby mieć pewność co do wszystkich wypowiedzi – polecam posłuchać, zamiast czytać. Ukłony.

Karol
Paweł Potakowski i MIGAM.

Paweł
Tak jest.

Karol
Język migowy – o co w tym wszystkim chodzi?

Paweł
Słuchaj, przede wszystkim chodzi o to, że każdy kraj ma własny język migowy, co jest pierwszym szokiem dla nas jako słyszących, a podstawową sprawą, która mnie osobiście najbardziej zaskoczyła, jest to, że dla bardzo wielu głuchych język ich ojczystego kraju jest dla nich jak język obcy. Język migowy jest po to, żeby przełamywać barierę komunikacyjną, która jest między nami, słyszącymi, a osobami Głuchymi.

Karol
Łapię się za głowę, bo jak długo żyję, wydawało mi się, że język migowy jest językiem uniwersalnym i jest trochę jak Esperanto…

Paweł
Dlatego, że…

Karol
Kojarzyło mi się, że gesty odzwierciedlają pewne uniwersalne pojęcia, a tu okazuje się, że nie.

Paweł
To teraz ja pokazuję dwa gesty: wyprostowany palec wskazujący i środkowy, dłonią… znaczy palcami, wierzch jest w moją stronę, a teraz obracam dłoń i pokazuję ci w drugą stronę. Dwa bardzo podobne gesty, ale bardzo różniące się swoim znaczeniem.

Karol
Ja się śmieję, że to są dwa gesty i rzeczywiście, to jest znak zwycięstwa albo pokazania podwójnego „fuck you”.

Paweł
Albo rogacza po prostu, tak jest. Słuchajcie, z tymi językami to wygląda tak, że język jest zawsze częścią kultury. I dlatego właśnie, pomimo że przecież mamy sąsiadów, którzy mieszkają bardzo blisko, bo dosłownie za naszymi południowymi górami mamy Czechów i Słowaków, i nie jest tak, że Polacy, Czesi i Słowacy mówią dokładnie tym samym językiem, pomimo że jesteśmy przecież bardzo blisko siebie. Każdy kraj ma własny język migowy, każdy kraj ma własny język foniczny, to jest po prostu część kultury.

Karol
A jak to się zaczęło? Bo nie zaczęliście od sztucznej inteligencji, od modeli językowych i od wszystkich wynalazków, tylko zaczęliście od tłumaczeń, tak?

Paweł
Szczerze, to jak w 2011 roku Przemek Kuśmierek, prezes MIGAM, stwierdził, że chce zaangażować się w pomoc Głuchym i robienie dobrych rzeczy dla nich, to zaczęło się od gazety. Gazety tłumaczonej na język migowy. Wtedy w ogóle Przemek popełnił pierwszy ze swoich błędów, bo to nie był polski język migowy, tylko system języka migowego, który jest takim sztucznym tworem wymyślonym przez słyszących surdopedagogów, trochę taka nakładka na język polski. Głusi tego nie używają. Już abstrahując od tego, że gazeta się dosyć słabo sprzedawała, miała więcej pobrań z Chomika niż z naszej strony. Wtedy ja jeszcze, co prawda, akurat częścią zespołu nie byłem, ale to był taki pierwszy projekt. Później faktycznie MIGAM bardzo szybko zaczęło rozwijać tę linię, która jest związana z naszym głównym produktem biznesowym czy usługą, czyli dostępem do tłumaczy polskiego języka migowego online. Usługą, którą świadczymy w tej chwili już dla sporo ponad 2300 podmiotów tylko i wyłącznie w Polsce. I to są firmy, podmioty publiczne. Nazwij sektor, a ja z przyjemnością wskażę pewnie klienta, którego obsługujemy w tym zakresie. Ale z drugiej strony, nie jest do końca tak, jak powiedziałeś, bo pierwsze prace nad automatyzacją, jeszcze wtedy nienazywaną sztuczną inteligencją, zaczynaliśmy w 2013 roku.

Karol
Te prace były oparte o jaką technologię? I czy dały efekt, jakiego oczekiwaliście, czy zaskakujący?

Paweł
To były prace oparte o to, co było wtedy, w tamtych czasach, dostępne. Między innymi to była kwestia analityki obrazu, machine learningu i takich, powiedzmy, podstawowych prac, które w danym czasie dało się zrobić. Ale podstawowa rzecz, która była najtrudniejsza dla nas wtedy, to nawet nie było to, żeby załatwić i dostać od Microsoftu pierwszą w Polsce kamerę Kinecta po to, żeby dzięki kamerze głębokości widzieć głębię. Czy żeby dostać pierwszy w Polsce, który się pojawił, taki testowy tablet Tango od Google’a, który miał trzy kamery, które też pozwalały widzieć głębokość. Nie, nie. Wtedy największym dla nas problemem było to, że nie było chmury obliczeniowej, więc wszystkie te obliczenia mieliły się na różnych urządzeniach, które nie miały wtedy aż tak zaawansowanych kart graficznych czy procesorów. Już nie mówiąc o tym, że ten biedny tablecik Tango po trzech minutach grzał się na tyle, że trzeba było go wypuścić z dłoni.

Karol
Piętnaście lat brzmi jak inna epoka.

Paweł
No nawet nie piętnaście, no bo powiedzmy te dwanaście czy trzynaście lat w tej chwili, już historycznie wracając do tego. Ale jest coś takiego, że pewne rzeczy zataczają koło. I wtedy nagrania, które wykonywał między innymi w naszym studiu Sławek Łuczywek – to było gdzieś tam na strychu pierwszego lub drugiego biura MIGAM, nie, w 2013 roku to pewnie już było drugie biuro – który gdzieś tam przed jakimiś kamerami, pod kilkoma kątami nagrywał siebie… No to powiem ci szczerze, tak, pewne rzeczy zataczają koło i trochę to powraca. Bo faktycznie teraz, kiedy doszkalamy nasz model sztucznej inteligencji ze słownictwa, które jest niezbędne dla obsługi specjalistycznych zagadnień, takich jak medycyna, słownictwo finansowe, to właśnie na tym to mniej więcej polega, że znowu ktoś w tym studiu stanie przed kamerą, nagra to, a później odpowiednio spreparowana paczka w plecaczek zostanie dołożona do naszego modelu MIGAM.AI. Ale to już jest zasługa naszego geniusza, Maksa Salomonowicza, który stoi za tym modelem.

Karol
Opowiedzmy o tych kilkunastu latach w takim razie. Jakie były kolejne kroki, takie kamienie milowe, do momentu, który mamy teraz?

Paweł
Słuchaj, no na pewno na samym początku to było mierzenie się z tymi niedoskonałościami technologii, która po prostu nie pozwalała nam wtedy, w 2013 czy 2014 roku, osiągnąć tego marzenia o stworzeniu automatu, który będzie w stanie zarówno rozpoznawać język migowy, kiedy miga dowolna osoba, a nie ten ktoś, kto go trenuje i za każdym razem jest rozpoznawalny, no bo wykonuje gesty dokładnie w ten sam sposób, ale też w drugą stronę, że będzie można np. wprowadzić tekst, czy to pisemnie, czy teraz oczywiście dzięki głosowi, który zostanie automatycznie zamieniony na język migowy. No to w tamtych czasach po prostu takiej technologii nie było. Już nie jestem w stanie sobie przypomnieć, ile kosztowała jedna sekunda generowania odpowiedniej jakości grafiki, która odwzorowywałaby tę pełnię i kompleksowość komunikacji w języku migowym. Bo musicie wiedzieć, że przekazanie treści, tak jak ja to w tej chwili robię, mówiąc do was, to wy z jednej strony słyszycie słowa, ale jest też coś, co ja jeszcze wam przekazuję. Staram się oczywiście tak to zrobić, żeby was zainteresować, żeby was wciągnąć, żebyście poczuli pewne emocje. W języku migowym, zupełnie inaczej niż w przypadku podcastów, te emocje muszą być wymalowane na twarzy osoby, która miga. Więc żeby awatar przekazywał emocje w pełni, musi mieć bardzo zaawansowaną i bardzo dokładnie odwzorowaną mimikę, a nie tylko perfekcyjnie odwzorowany każdy punkt i odpowiednio zgięty koniuszek nawet małego palca.

Karol
Tak jak zaznaczyłem, nie znam się na języku migowym, ale wytłumacz mi proszę, Pawle, czy z językiem migowym jest w takim razie tak, że póki nie było jeszcze awatarów, które migają płynnie i widać ich całą ekspresję, mimikę, to moglibyśmy założyć, że tłumaczeniem języka migowego byłyby takie pokazywane klatka po klatce sekwencje?

Paweł
Wiesz co, jest taki jeden projekt, który w Wielkiej Brytanii zaprezentował swój pomysł na, nazwijmy to w cudzysłowie, automatyzację tłumaczenia języka migowego. Bo to na pewno nie jest sztuczna inteligencja, to nie jest generatywny model AI, tak jak to, co my stworzyliśmy. I tu trzeba to jasno powiedzieć. Ten pomysł, o którym ty powiedziałeś, czyli żeby poskładać coś z klatek, jest właśnie przez ten konkretny podmiot zaprezentowany na rynku. No i myślę, że zachęcamy słuchaczy do tego, żebyście zobaczyli, jak zareagowała na to społeczność osób niesłyszących i jak bardzo krytycznie odnieśli się do takiego szatkowania i klatkowania. Nawet w momencie, kiedy mówimy o podawaniu godzin odjazdów pociągów tudzież numerów peronów i destynacji, no bo to jest akurat taki case użycia. Więc nawet w tym wypadku brak zaangażowania społeczności, brak współpracy i takiej też po prostu elementarnej kwestii, jaką jest szacunek dla ludzi, dla których to się robi, no w tym wypadku dosyć krytycznie został odebrany, i jestem dosyć dyplomatyczny.

Karol
Układam sobie to tak w głowie. Czyli jak porównuję sobie tradycyjny model językowy, mamy dane, czyli teksty. A co musi się stać i jakie dane musimy zebrać, żeby stworzyć model taki, który wy stworzyliście? Na moje oko – popraw mnie, jeżeli się mylę – w takim razie, skoro mówisz, że język migowy to nie tylko symbole, które pokazuje się literami, ale również głębia, o której wspominałeś wcześniej, układ w przestrzeni, no i ta mimika i wyrażanie emocji. No jest tego mnóstwo.

Paweł
Jest. Czyli nie tylko przestrzeń trójwymiarowa, ale do tego obraz i układ palców. Jeszcze pamiętaj o jednym – kontekst. Bo z naszej perspektywy, kiedy my coś tłumaczymy, to musimy też zrozumieć, co my właśnie przetłumaczyliśmy. I w języku migowym w ogóle kolejność przekazywania treści jest, jakby to powiedzieć, także niezwykle znacząca. Upraszczając, większe rzeczy są na początku, mniejsze są na końcu.

Karol
Możesz dać przykład?

Paweł
Książka leży na stole. Takie zdanie. Gdybyś miał namalować obrazek, który odpowiada temu króciutkiemu zdaniu, większość osób zaczęłaby od narysowania stołu i dopiero potem narysowałaby książkę. Więc w języku migowym, najprościej mówiąc, malujemy to zdanie od gestów: stół, książka, leży. I to jest to zdanie, tyle tylko, że zamigane. Właśnie zaprezentowałem to miganie Karolowi. Wam możemy to pokazać na jakimś shorcie, który nagramy w ramach promocji tego odcinka.

Karol
Opowiedzmy jeszcze o zbieraniu tych danych.

Paweł
Jeśli chodzi o zbieranie danych, to wygląda to w ten sposób. Już nasze doświadczenie, zarówno dla American Sign Language, czyli amerykańskiego języka migowego, jak i dla polskiego języka migowego, pokazuje, że potrzebujemy około 1500 do 2000 godzin nagrań tłumaczenia, które jest tłumaczeniem naturalnym, kontekstowym i przede wszystkim wykonanym przez dobrych tłumaczy. I teraz, najprościej mówiąc, nadają się do tego moje przetłumaczone webinary – bo też jestem tutaj prowadzącym cyklu, tylko w tym wypadku o dostępności – w których mamy zawsze tłumacza, który tłumaczy to, o czym mówimy w tym wypadku właśnie z tej tematyki. I takie nagrania, nagrania z telewizji przetłumaczone na polski język migowy, reklamy czy też inne materiały, ale tam musi być kontekst, tam musi być jakaś historia. Nasz model jest w stanie nauczyć się dzięki temu podstaw danego języka, zrozumieć go i zacząć już go przygotowywać dla nas. Następnie weryfikujemy, czy mamy całe to słownictwo, które jest nam potrzebne do tego, żeby po pierwsze poprowadzić taką standardową, nazwijmy to, codzienną komunikację, oraz później po kolei uzupełniamy ewentualnie to słownictwo o takie terminy, które są, tak jak już wcześniej powiedziałem, terminami bardziej specjalistycznymi, wynikającymi po prostu z wiedzy sektorowej. To jest niezwykłe osiągnięcie Maksa Salomonowicza, który jest mistrzem w tworzeniu modeli o naturze temporalnej. Jego modele naprawdę rozumieją nie tylko kontekst, ale przede wszystkim ten upływ czasu i są w stanie bardzo dużo rzeczy zrobić. Tutaj nie ukrywam, że to jest wielka przyjemność pracować z Maksem.

Karol
Model o naturze temporalnej to model, który rozumie kontekst chwili.

Paweł
Też. I przede wszystkim nie zgubi tego i w odpowiedni sposób będzie to interpretował. Myślę, że z perspektywy zrozumienia specyfiki tłumaczenia na języki migowe i w ogóle tego, co udało nam się osiągnąć, mogę ci powiedzieć, co się dzieje, jak model trafi na słowo, którego nie ma, którego nie zna. Bo nie ukrywajmy, przykładowo twoje nazwisko albo moje nazwisko raczej nie ma swojego znaku w języku migowym, więc w tym wypadku model zaliteruje i pokaże po prostu twoje czy moje nazwisko jako literka po literce. To samo może zdarzyć się w przypadku niektórych nazw własnych, które na przykład nie mają swojego znaku.

Karol
Chcesz powiedzieć, że wasz model MIGAM wie, że nie wie? To ciekawe, bo model językowy często nie wie, że nie wie.

Paweł
Dlatego nasz model nie jest do końca modelem językowym. To jest coś dużo bardziej skomplikowanego. I jest jeszcze jedna sprawa, to jest zrozumienie kontekstu. Bo jeżeli nie masz znaku, hipotetycznie nie masz znaku nauczonego na „Warszawę”, ale nasz model wie, że Warszawa to stolica Polski, to nasz model zamiga „stolica Polski” zamiast „Warszawa”. Więc nie będzie literował nazwy tego miasta, tylko zrobi to właśnie w ten sposób. Zrozumienie tych rzeczy i takie działanie to jest, po raz kolejny to powiem, absolutnie zasługa Maksa.

Karol
To brzmi jak niezwykłe wyzwanie intelektualne – stworzyć tyle scenariuszy w komunikacji, gdzie ten kontekst zmienia się, na dobrą sprawę, idąc od tematu przez miejsce, okoliczności, branżę…

Paweł
Dołóż jeszcze do tego, że przy tym wszystkim musisz w prawidłowy sposób pokazać w przestrzeni wszystkie gesty w bardzo skomplikowany sposób, czasami różniące się, tak jak to powiedziałem, zgięciem koniuszka małego palca albo tym, jak jest ułożona dłoń względem dłoni. W tym także to, że dłonie często się nawzajem zasłaniają. One dla modelu nie mogą znikać. To jest też niezwykle ciekawa rzecz, o której myślę, że warto jest powiedzieć, bo wcześniej zapytałeś mnie o naszą historię i o nasze doświadczenie w pracach nad automatyzacją. Kilka lat temu, wspólnie między innymi – tutaj pozdrowię naszych wspaniałych przyjaciół ze studia Motion Capture Bones, myślę, że też warto, żebyś przyjrzał się ich osiągnięciom w zakresie AI, pod kątem tego, co oni robią w swojej branży, w branży gier wideo i przede wszystkim w branży motion capture – nagrywaliśmy bardzo dużo materiałów w studiu motion capture, żeby uczyć, wciąż jeszcze wtedy nie model sztucznej inteligencji, tylko uczyć maszynowo nasze rozwiązanie. I słuchajcie, to prawie by zadziałało. Tyle tylko, że koszty okazały się tak ogromne, nawet pomimo naszej wielkiej sympatii i bliskiej współpracy z Bones, że absolutnie wiedzieliśmy, że to nie jest droga do tego, żeby tworzyć model sztucznej inteligencji, który miałby działać w więcej niż jednym języku. Bo można byłoby znaleźć wariatów, którzy wyłożą kasę z zamiłowania dla Polski i Polaków, żeby stworzyć model PJM-u, ale niestety nie każdy kraj byłoby na to stać. A jeden z naszych najważniejszych celów, który nam przyświeca, jest taki, że ta nasza technologia, MIGAM.AI, ma posłużyć do tego, żeby było przynajmniej 30 języków migowych, które automatycznie mogą być tłumaczone przez awatary, ale co więcej, które mogą komunikować się także między sobą, bo to jest ten trzeci poziom, na który my zmierzamy. Nie tylko to, że ty możesz przekazać dowolną treść, że film na platformie streamingowej będzie miał na kliknięcie włączenie takiego awatara, ale też właśnie to, żeby przykładowo Głuchy z Polski mógł zamigać do swojej kamerki w PJM-ie, a po drugiej stronie, na przykład w Teamsie, dajmy na to – tu pozdrawiamy naszych przyjaciół z Microsoftu – żeby pokazał się na przykład amerykański język migowy, i odwrotnie.

Karol
To brzmi jak projekt, który mógłby już teraz chyba funkcjonować pod egidą ONZ-u.

Paweł
Nie powiem tak i nie powiem nie. Z ONZ-em mamy bardzo dużo ciekawych własnych doświadczeń, uwzględniając także możliwość występowania przed Zgromadzeniem Ogólnym ONZ-u, ale także tego, że faktycznie w zeszłym roku, w 2025, nasz przedstawiciel, który jest product ownerem na amerykański język migowy, Travis, który oczywiście jest głuchy – chyba tego nie powiedziałem, ale jak mówiłem o tym, że nie można robić takich rzeczy i takich technologii bez Głuchych na pokładzie, to u nas ponad 40% zespołu to osoby niesłyszące.

Karol
Takie było moje przypuszczenie, kiedy wspominałeś o tej firmie z Wielkiej Brytanii, że tam chyba była rozmowa Głuchego ze ślepym.

Paweł
Słuchaj, musi być tak, że „nic o nas bez nas”. Robisz technologię dla Głuchych, musisz mieć Głuchych na pokładzie. Więc w zeszłym roku byliśmy w ONZ w Nowym Jorku dlatego, że tam właśnie zostaliśmy zaproszeni przez Światową Federację Głuchych, też właśnie, żeby pokazywać nasze rozwiązanie. W sumie, to jak tak mówisz o tym ONZ, to ja też byłem w zeszłym roku w ONZ, razem z Michałem Peną, Magdą Cicharską i Arkiem Pońskim, tyle tylko, że byliśmy w ONZ w Wiedniu. Ponieważ tam się odbywa fenomenalna konferencja, która jest poświęcona szeroko rozumianej dostępności. I ja przepraszam was za tę dygresję, ale muszę wam to powiedzieć. Bardzo często jak spotykam się z ludźmi, którzy zajmują się technologiami, są bardziej w swoich różnych biznesach, no to zaczynam od tego, od czego zaczęliśmy przed chwilą, czyli tłumaczę, dlaczego głusi tego potrzebują. Słuchajcie, jaka jest frajda dla mnie, jak nie muszę tego kolejny raz powtarzać, tylko trafiłem na konferencję, gdzie wszyscy doskonale wiedzieli, dlaczego ta dostępność jest potrzebna, i to byli ludzie zgromadzeni z całego świata. Zero Project, fantastyczna konferencja, fantastyczna inicjatywa. Nie będę o tym więcej mówił. Jakby co, zachęcam, żebyście wyszukali.

Karol
Gdybym wpadł teraz na pomysł i pojawiłaby się u mnie potrzeba, że chciałbym zacząć migać, posługiwać się językiem migowym – jak miałbym zacząć i ile, Twoim zdaniem, zabrałoby mi czasu, żeby poznać podstawy i móc się dogadać w restauracji czy załatwić podstawowe potrzeby?

Paweł
Słuchaj, podstawowa komunikacja, taka na zasadzie „cześć”, „dzień dobry”, „dziękuję”, trochę wulgaryzmów, to myślę, że jesteś w stanie ogarnąć w kilka lekcji. Mówimy o pewnej biegłości, takiej fundamentalnej. Natomiast ja bardzo ciepło wspominam łódzką pizzerię „Dwie Dłonie”, w której można było zamawiać właśnie w języku migowym, bo obsługa była złożona z osób niesłyszących, było też trochę osób słabosłyszących. Fantastyczne miejsce i w ogóle myślę, że tego typu dostępnych miejsc i lokali, które też właśnie nawiązują do tego, że pracują tam osoby z niepełnosprawnościami, w ogóle jest coraz więcej. Zachęcam promować, mówić, dzielić się takimi rzeczami. Natomiast jeśli chodzi o nauczenie się tak, żebyś, dajmy na to, mógł być tłumaczem albo żebyś mógł…

Karol
Faktycznie w biegły sposób…

Paweł
…się komunikować, no to muszę ci powiedzieć, że to jest coś, co podejrzewam, że zajęłoby ci rok, dwa lata, przynajmniej intensywnej pracy.

Karol
Bo tego języka nie da się nauczyć w teorii, prawda?

Paweł
Nie da się. Nie da się w teorii i jest jeszcze jedna rzecz. Nauka języków fonicznych jest dla nas czymś dużo bardziej naturalnym, bo te części mózgu, które odpowiadają za komunikację foniczną, są tożsame ze sobą. Okej, wjeżdża inny język, ale jednak mechanizmy masz dokładnie te same. Do komunikacji migowej ty musisz zaangażować zupełnie inne części swojego mózgu, właśnie po to, żeby pamiętać o tym, w jaki sposób dołożyć ekspresję na twarzy i jak odpowiednio przekazywać gesty dłońmi. To naprawdę nie jest proste. I to jest też dlatego taki powód, dlaczego tak wielu najlepszych tłumaczy to CODA (Child of Deaf Adults), czyli dzieci osób niesłyszących, osoby, które są dwujęzyczne praktycznie od samego początku swojego życia.

Karol
Opowiedzmy jeszcze o waszym modelu. Bo mamy tak: musimy zebrać materiał, musimy zebrać nagrania, ale rozłóżmy te znaczniki na czynniki pierwsze.

Paweł
Słuchaj, na tyle, na ile mi wolno o tym opowiadać. Najważniejszą rzeczą, którą my też z dużą dumą się dzielimy, jest to, że model szkoli się na danych, które jako datasety są już w pełni zanonimizowane. To znaczy, takim pierwszym etapem pracy z danymi jest odarcie tych nagrań 2D z ciała tłumaczy, zamiana mimiki, która zostaje przeanalizowana przez jedną z tych części modelu na odpowiednio zapisane mimiki warunkowe, i dopiero takie dane stają się materiałem treningowym, na którym uczony jest model danego języka migowego. W ten sposób jesteśmy, jak to lubi mówić nasz prezes, bardzo koszerni, jeśli chodzi o te wszystkie AI Acty, GDPR-y i inne takie. Ale to jest też ważne, żeby nie było zanieczyszczeń w tym tłumaczeniu, żeby tak naprawdę nie miało znaczenia, czy tłumaczyła osoba z nadwagą czy bez, młoda czy stara, mężczyzna czy kobieta. Ta anonimizacja bardzo nam tutaj służy, bo później to, czy awatar będzie tak czy inaczej wyglądał, czy będzie miał taką czy inną płeć, kolor skóry, to w zasadzie będzie kwestia decyzji biznesowej naszych klientów, którzy po prostu stwierdzą: „okej, to ja bym chciał, żeby miał taki ładny strój, melonik, jeszcze żeby wszystko było w odpowiednim kolorze”.

Karol
Albo będziecie przygotowywać wedle określonego parametru klientów, czyli klienci z Azji…

Paweł
Jak rozmawiamy w tej chwili z partnerami z obszaru Zatoki Perskiej, to oczywiście, że pierwsze pytania były o płeć, strój, odpowiednie nakrycie głowy.

Karol
Niesamowite. Im dłużej rozmawiamy, tym bardziej zdaję sobie sprawę, jak mocno język migowy jest niezrozumiały i jak wiele potem elementów ma wpływ na… Popraw mnie, jeżeli się mylę, ale skoro mamy tak: mamy przestrzeń, mimikę, emocje, do tego jeszcze, tak jak mówisz, w pewien sposób uprzedzenia, które mogą wpływać na to, w jaki sposób interpretujemy to, co jest mówione. No bo nośnikiem tego przekazu jest nie tylko to, co słyszę, ale też to, kogo widzę. Dzięki temu mogę sobie to interpretować w ten czy inny sposób. To robi się… projekt o złożoności… wiesz, mi głowa paruje.

Paweł
Wiesz co, mnie też. Jakbyś mnie zapytał, jak to działa pod spodem dokładnie, to absolutnie tak samo bym odpowiedział, że mnie głowa paruje, i moi drodzy, ja tego do końca nie wiem. Myślę, że tutaj też niektórych rzeczy nawet nie mógłbym powiedzieć, bo wiecie, część musi zostać jako ten „secret sauce” i to, co po prostu wie Max. Ale zupełnie wam szczerze powiem, że prób, które przymierzały się do tego, żeby przełamać tę barierę komunikacyjną, na świecie było dziesiątki. Większość z nich nie wyszła poza fazę teoretyczną lub podstawowo praktyczną. Niektóre to były projekty, które owszem, otrzymały na przykład jakieś granty naukowe, doczekały się jakiejś publikacji albo czegoś takiego. Były też projekty, które w przeciwieństwie do nas otrzymały finansowanie unijne. Pamiętam taką rozmowę a propos jednego z tych projektów, gdzie wnioskiem było: „nie da się”. Zobaczcie, jak to działa w przypadku MIGAM.AI, bo jednak się da.

Karol
Ale to chyba takie unikalne połączenie, bo tak jak wspominałeś o waszych początkach, to widzę tutaj i pewną misyjność, i cel, który nie jest tylko i wyłącznie pieniądzem. Widzę ogromny problem, skoro mówisz, że waszą wizją jest to, żeby awatary mogły dogadywać się między sobą albo żeby można było prowadzić tłumaczenia, które do tej pory były niemożliwe ze względu właśnie na specyfikę języka, kontekst, kulturę.

Paweł
Znaczy, one były niezwykle utrudnione, słuchajcie. Bo owszem, bo tak pytałeś o to Esperanto…

Karol
Jak wygląda tłumaczenie symultaniczne w języku migowym?

Paweł
Wiesz co, no myślę, że bardzo podobnie jak w przypadku języków fonicznych. To znaczy, że tłumacz, o ile nie ma wcześniej skryptu, według którego leci dana prezentacja, no bo przecież tutaj nie ma co ukrywać, bardzo często jest tak, że są przygotowane teksty, według których występuje jakiś mówca, czy prezentacje, czy skrypty naukowe. Ale w przypadku tłumaczeń symultanicznych, no to tłumacz musi usłyszeć, a następnie musi to powiedzieć, a tłumacz migowy musi to zamigać.

Karol
Ja myślałem nawet o innych tłumaczeniach, to znaczy dwóch migających, jest trzech migających, jest jeden tłumacz, jeszcze pośrednik między nimi, który przekłada.

Paweł
O, słuchaj, ja widziałem takie sytuacje, kiedy faktycznie byli jeszcze pośrednicy dodatkowych języków migowych. I tutaj powiem jedną rzecz, bo jak mówiłeś tam na samym początku o tym Esperanto, jest też coś takiego, taki rodzaj Esperanto w języku migowym. To się nazywa International Sign. Zauważ, nie powiedziałem International Sign Language, tylko International Sign.

Karol
W uproszczeniu alfabet Morse’a?

Paweł
To jest trochę takie Esperanto. To jest sposób komunikacji, który używają przede wszystkim specjaliści od języków migowych, jak spotykają się na międzynarodowych konferencjach, żeby móc się ze sobą dogadywać bez konieczności tego pośrednictwa, o które zapytałeś, czyli nie tworzyć łańcuszka tłumaczeniowego. Ale słuchaj, ja widziałem też takie sytuacje, w których na właśnie takich dużych konferencjach siedzi na przykład grupa osób z Niemiec albo z Francji, przed nimi jest ich dodatkowy tłumacz, który przekłada na niemiecki migowy albo francuski migowy to, co widzi na przykład przetłumaczone na International Sign przez tłumacza, który jest na przykład dla całej sali. Więc słuchaj, tego typu właśnie, nawet nie trójkątów, tylko już wręcz łańcuszków w tłumaczeniu widziałem parę i to się też zdarza. Ale wracając do rzeczy, bo myślę, że to jest w ogóle mega ciekawe. My jesteśmy faktycznie ludźmi, którzy z jednej strony mają wizję, marzenia i mamy technologię, która pozwala to zrealizować. I to jest tak, że my chcemy zmieniać świat na lepsze, ale trzeba o jednym pamiętać. My jesteśmy firmą. Więc jak mówisz o tych pieniądzach, to trochę się uśmiecham, bo tak naprawdę to, żeby to jeszcze wszystko było opłacalne ekonomicznie i biznesowo, to jest coś, co nam bardzo mocno przyświecało. Bo szczerze, gdyby pieniądze nie grały roli, gdyby aspekt biznesowy nie był tutaj najważniejszy jako powód, żeby faktycznie wdrażać taką, a nie inną technologię, no to pewnie tą drogą po prostu nie dałoby się podążyć. Ktoś za to musi zapłacić, ktoś musi wiedzieć, że na tym skorzysta.

Karol
Ale wspominałeś o kilku tysiącach klientów.

Paweł

Oj, no tak, w Polsce to są klienci na te nasze usługi związane z dostępem do żywych tłumaczy. Natomiast z większością z nich mieliśmy okazję już odbyć chociażby pierwsze wstępne rozmowy, po prostu nawet, żeby przekazać tę informację, że opracowujemy taką technologię, no i że ten polski migowy za jakiś czas będziemy również w stanie zaoferować. Myślę, że to jest też ważne właśnie, żeby to powiedzieć. Głusi mają tę potrzebę i tę barierę komunikacyjną, ale jest jeszcze jedna rzecz, która może spowodować, że Karol za chwilę złapie się za głowę. Bo słuchajcie, zgadnijcie, moi drodzy – ja i tak muszę udzielić tej odpowiedzi, bo nie będę słyszał waszych strzałów – zgadnijcie, ile minut na per capita tłumacza ma osoba niesłysząca w naszym kraju i w Stanach tygodniowo. Moi drodzy, Karol kręci głową, jakby nie wiedział, i widzę tutaj po jego oczach, że się zastanawia. W Stanach to jest 11 minut tygodniowo, w Polsce około 7,5 minuty tygodniowo. Więc jasnym jest, że jeszcze bardzo, bardzo, bardzo długo liczba tłumaczy nie będzie wystarczająca, żeby odpowiedzieć na potrzebę tłumaczeniową wszystkich Głuchych na całym świecie. Takich ludzi, którzy nie mają wyboru w komunikacji, którzy komunikują się tylko w oparciu o języki migowe, swoje, jest 80 milionów na całym świecie. To jest liczba osób, dla których tekst jest niewystarczający. Nie wystarczą im napisy na ekranie, żeby zapoznać się z daną treścią. Oni potrzebują tłumacza i języka migowego, żeby to zrozumieć. Widzę zaskoczenie Karola. Karol, raport Najwyższej Izby Kontroli z 2022 roku, który odnosi się do sytuacji edukacyjnej głuchych dzieci w tym kraju, zgruzował tam edukację i pokazał, obnażył, jaka jest prawda. 40% nauczycieli w szkołach dla głuchych dzieci miga w jakimkolwiek stopniu przy uczeniu swoich przedmiotów. To nie znaczy, że migają płynnie. A 6 na 10, jak uczy głuche dzieci, to mówi do nich głośno i wyraźnie, artykułując, np. podczas uczenia języka polskiego. O takich paranojach mówimy i nie jest to tylko i wyłącznie sytuacja, która dotyczy naszego kraju. Takie rzeczy dzieją się też w innych krajach. W związku z tym naprawdę te bariery komunikacyjne głuchych potrafią być dużo, dużo większe, niż nam jako słyszącym mogłoby się wydawać. W tych najważniejszych sprawach, w takich, w których to pośrednictwo tłumacza jest im absolutnie niezbędne – kiedy idą do lekarza, kiedy idą załatwić sprawę w sądzie, kiedy to dotyczy jakichś poważnych rzeczy w banku – tam potrzebują żywego tłumacza, nawet dostępnego online. Przecież na tym między innymi polega nasza usługa, ta standardowa, którą MIGAM jako spółka akcyjna w Polsce świadczy dla ponad 2300 klientów. Ale rozrywka. Powiedziałem o platformach streamingowych. Słuchaj, poszukaj na tych streamingach, które masz wykupione, ile znajdziesz filmów z tłumaczeniem na języki migowe. To będą pojedyncze sztuki.

Karol
Miałem powiedzieć 2%?

Paweł
Nawet nie. To będą pojedyncze filmy per platforma, pojedyncze filmy. I wiesz, dostęp do rozrywki jest absolutnie pierwszym krokiem, żeby pokazać, jaki potencjał ma ta technologia. Bo tutaj tego tłumaczenia nie ma. Dlaczego? Bo platforma powie: „no ale to jest za drogie”. No i wtedy my wchodzimy, cali na biało, mówiąc: „proszę bardzo, 70% mniej niż za tłumaczenie żywym tłumaczem i jeszcze w dodatku zrobione natychmiast”.

Karol
Ja pamiętam, Paweł, jakie było moje zaskoczenie, kiedy ty uświadomiłeś mi, że to nie chodzi… bo ja, przypominam wam rozmowę, którą kiedyś mieliśmy z Pawłem, zadałem Pawłowi pytanie, na które dla mnie odpowiedź była oczywista. Mówię: Paweł, po co tłumaczyć migowo, skoro są napisy? Rozumiesz to? Bo to było fascynujące.

Paweł
Ale słuchaj, to jest właśnie to, co powiedziałem przed chwilą. Musicie to gdzieś tam zapamiętać.

Karol
To, w jaki sposób czuje się osoba głuchoniema, kiedy ona ma tylko i wyłącznie czytać.

Paweł
No i teraz słuchajcie, muszę pouczyć Karola i was też. Nie używajcie słowa „głuchoniemy”. Za tym słowem idzie słowo „niemota”, co oznacza kogoś, kto nie jest w stanie mówić. Nie każdy głuchy – i tu wyobraźcie sobie literkę duże G, wielkie G, „Głuchy” pisane z wielkiej litery – nie każdy Głuchy nie mówi. Niektórzy mówią mniej wyraźnie, bo nie słyszą swojego głosu. Ale jest też bardzo duża grupa osób niesłyszących, które owszem, może nawet nie mówią, na przykład w języku polskim, ale skoro znają język, znają polski język migowy, to oni się wściekną na ciebie, bo ci powiedzą: „przecież ja znam język, ja mówię w migowym. Mówię gestami, nie mów, że jestem niemotą”. Dlatego to słowo… przepraszam, musiałem to powiedzieć i poszło w eter, ale trochę taka moja misja. Ale widzicie, to nie jest reżyserowany podcast.

Karol
Ale bardzo dobrze, bo to jest cenna nauka. Bo widzisz, ja się wychowałem, no przyznam ci szczerze, na słowach „głuchy”, „głuchoniemy”. Wiesz, człowiek, który ma wszystkie zmysły, potrafi się komunikować, słyszeć, wypowiadać, to jest dla mnie świat nieznany.

Paweł
Tak. Wiesz, jeszcze raz i tak, jak poprosiłeś, żebym o tym powiedział i jeszcze raz wytłumaczył. Musicie zrozumieć, że dla kogoś, kto funkcjonuje właśnie w tej kulturze Głuchych, tylko w języku migowym, i jeżeli ten ktoś jeszcze nie zetknął się w odpowiedni sposób z edukacją języka polskiego, która byłaby poprowadzona z wykorzystaniem polskiego języka migowego jako podstawy do uczenia naszego języka, dla takiej osoby język ojczysty jej kraju urodzenia jest jak język obcy. I jak ma szczęście, to jest w stanie zrozumieć te napisy na filmie. To jest dokładnie tak, jakbyśmy włączyli dla was film po chińsku i dodali do tego napisy, dla odmiany, powiedzmy, po włosku. Ci z was, którzy znają włoski, gratuluję. Obejrzycie sobie film po chińsku z napisami po włosku i będziecie wiedzieli, co się dzieje. A cała reszta będzie się trochę zastanawiała, co też tam się dzieje na tym ekranie. To o takie poczucie wykluczenia chodzi.

Karol
Mała dygresja. A czy są modele, na przykład takie, które czytają z ust?

Paweł
Wiesz co, to jest ciekawe pytanie. Ja nie znam na nie odpowiedzi. Być może Max mógłby powiedzieć, czy tutaj sama analiza ruchu warg w jakim stopniu jest przez niego zgłębiona i przeanalizowana. Ruch warg w komunikacji w języku migowym, czyli tak jakby wypowiadanie jednocześnie tego, co jest migane, nie jest zawsze wymagany. To jest w ogóle bardzo takie ciekawe podejście też z perspektywy na przykład amerykańskich Głuchych. Wiem to nie tylko, słuchajcie, dlatego, że Głusi z nami pracują, czy Głusi Amerykanie z nami pracują, ale też oglądałem taki serial na Netflixie, który tego dotyczył. To się nazywa „Deaf University”, „Deaf U”, i dotyczy, to jest trochę taki paradokument o miłościach i różnych doświadczeniach głuchych studentów uczelni Uniwersytetu Gallaudeta. W Stanach Zjednoczonych na wschodnim wybrzeżu w Waszyngtonie jest uczelnia, w której zarówno, a w zasadzie zdecydowana większość, o ile nie wszyscy studenci i chyba cała kadra, to są osoby niesłyszące. I faktycznie u nich tak jest, i pamiętam, że tam w tym serialu między innymi to było, że takie osoby, które są głuche dynastycznie, to znaczy, że z dziada pradziada jest tam głuchota przekazywana genetycznie, dla nich zupełnie zbędne i niepotrzebne jest dodawanie na przykład ruchu warg, żeby mówić czy wypowiadać na głos wręcz to, co się miga. Przecież im to jest niepotrzebne. To jest tylko i wyłącznie jakiś bonus do komunikacji np. dla słabosłyszących albo dla słyszących, którzy są w okolicy. Przecież to zbędne, migowy to migowy. To jest taka ciekawostka i dygresyjka, ale powiedzmy dotycząca także wewnętrznych różnic w społeczności osób niesłyszących.

Karol
Czy Głusi mają wyostrzone inne zmysły albo mają talenty, które rozwijają dzięki temu, że w pewnych obszarach…

Paweł
Słuchaj, to jest bardzo fajne pytanie, które bardzo się odnosi do zupełnie innego obszaru mojej aktywności, bo ja też mam agencję pracy, która się specjalizuje w aktywizacji zawodowej osób z niepełnosprawnościami. I słuchajcie, przykładowo Głusi są naprawdę dobrymi kierowcami, i to między innymi…

Karol
Bo nie ma dystrakcji.

Paweł
Tak. Dokładnie. To m.in. związane jest z tym, że im nie przeszkadza tyle w trakcie jazdy samochodem co nam, chyba że gadają przez telefon, bo wtedy muszą używać rąk i patrzeć na kamerę. To słuchajcie, w tym wypadku u nich jest gorzej niż u nas, że faktycznie nie powinni tego robić.

Karol
Jak rozmawiają, to pół biedy, ale jak się kłócą…

Paweł
Ale to wiesz, intensywne miganie, tak, dzieją się takie rzeczy. Ale słuchaj, powiem ci ciekawostkę. My jechaliśmy kiedyś w samochodzie ze Sławkiem Łuczywkiem i on zauważył wcześniej światła pojazdu uprzywilejowanego – to była karetka, która jechała – nim ja usłyszałem tę jadącą karetkę. Bo percepcja wzrokowa w jego przypadku, nawet w tak teoretycznie błahej sprawie, ale jednak po prostu jest wyższa. On jest bardziej wyćwiczony w tym, żeby zauważać pewne rzeczy. Ta uważność jest niesamowita. To na przykład się przekłada na pracę w centrach monitoringu. W Australii bardzo dużo osób niesłyszących pracuje na monitoringu wizyjnym i tutaj szczególnie ciekawa branża to jest monitoring w kasynach. Żeby dostrzec, tam nawet ten ułamek dodatkowej percepcji może się przekładać na dużo ciekawych rzeczy.

Karol
Ale to wyostrzenie zmysłów – masz tutaj absolutnie rację. Ja pamiętam jedno z moich nietypowych spotkań, które odbywam. Idąc ulicą Jasną, przechodziłem koło osoby niewidomej i gość poruszał się niezwykle żwawo, sondując białą laską, co jest przed nim. I mówię: kurczę, podejdę i zapytam, czy wykorzystuje interfejsy głosowe. No i wiesz, wychodząc naprzeciwka, zahaczyłem gościa, przedstawiłem się, powiedziałem, czym się zajmuję. On bardzo pozytywnie zareagował w ogóle i mieliśmy taką kilkuminutową rozmowę właśnie a propos asystentów głosowych, chatbotów i tego, w jaki sposób on pracuje, w jaki sposób wykorzystuje modele językowe. Ale jakie było moje zdziwienie, kiedy ten gość mówi: „ależ, Panie Karolu”. Ja mam problem, jak ktoś mi się przedstawia, żeby zapamiętać imię, nazwisko, kiedy rozmawiam z tą osobą, widząc ją, prowadząc dyskusję itd. Gość spotyka kogoś, kogo nie widzi, ja rzucam to imię, nazwisko… „ależ, Panie Karolu”.

Paweł
Już cię zapamiętał. Wiesz, to jest w ogóle z osobami niewidomymi, z dostępnością i z używaniem technologii, no wydaje mi się, że o dostępności w tym casie używania moglibyśmy dużo dłużej porozmawiać niż tylko o naszym MIGAM.AI, ale taką ciekawostką jest, że ostatnio właśnie rozmawiałem z paroma osobami niewidomymi i oni powiedzieli, że to jest bardzo fajne, że możemy zrobić zdjęcie, wrzucić je i model nam na przykład je szybko opisze. Żeby jeszcze opisywał to dobrze i dokładnie. Bo przykładowo, jak się okaże, że zrobiłem zdjęcie jakiejś atrakcyjnej dziewczyny w kostiumie kąpielowym i model mi powie, że on mi nie może tego opisać, to przecież jest dyskryminacja.

Karol
Super, że mówisz o interfejsie. Bo teraz tak, dla mnie zastosowanie waszego modelu w przypadku tłumaczeń jest oczywiste. Ale teraz, czy wasz model można traktować jako klawiaturę? I też wyprowadź mnie z błędu, czy osoba Głucha woli z komputerem rozmawiać, migając, czy klikając w klawiaturę?

Paweł
Chodzi ci o to, czy może w ten sposób zadziałać.

Karol
Czy mógłbym sobie odpalić MIGAM, które sczytuje, i w ten sposób wprowadzać tekst? Pisać dziennik, książkę i tak dalej? Bo znowu, wyprowadź mnie z błędu.

Paweł
Słuchaj, ty nie jesteś w błędzie, ty mi właśnie podsuwasz ciekawy case użycia, więc Karol tutaj…

Karol
Bo znowu sobie łączę coś takiego. Skoro mówisz, że to jest dla osoby głuchej język najbardziej naturalny, pełen emocji, wszelkiego kontekstu – to nie są tylko i wyłącznie gesty, tylko cały, spójny komunikat. To gdybym miał taką możliwość i gdybym pisał dziennik, książkę, cokolwiek innego, to zobacz, o ile trudniej jest mi napisać coś, co płynie z głębi – przepraszam, brzmi to trochę romantycznie – ale z głębi mojego serca i co buzuje mi w głowie, niż w momencie, kiedy widzę i pokazuję to tak, jakbym tłumaczył to drugiemu znajomemu.

Paweł
Challenge accepted. Trzeba będzie zrobić taki case, bo podoba mi się ten pomysł. On w ogóle jest związany z rzeczami, które dla nas jako słyszących często są zupełnie nieprzetłumaczalne. Bo jest coś takiego jak poezja migowa, która jest tak naprawdę, nawet kiedy podłożymy pod nią poszczególne słowa, to będzie się układało w coś często pięknego i poetyckiego, ale nie będzie oddawało w stu procentach tego, co potrafią dostrzec w tym osoby niesłyszące. My na przykład, patrząc na to z boku, widzimy piękne ruchy, coś, co może być bliskie tańca, takiego rodzaju nowoczesnego, alternatywnego teatru czy czegoś takiego. Nie potrafimy tak do końca tych wszystkich rzeczy zrozumieć. I bardzo mnie zaciekawiłeś właśnie takim pomysłem, że taki challenge: zrób pamiętnik albo napisz jakiś artykuł, przykładając się do naszego modelu. Wiesz co, na pewno się spodoba, tylko trzeba przypilnować, żeby w odpowiedni sposób wylądowało to w harmonogramie rzeczy do zrobienia, bo tych „to-do” gdzieś tam pewnie trochę jest.

Karol
Wiesz, dlaczego o tym pomyślałem? Bo znowu, ja lubię myśleć analogiami. Skoro mówimy tak: komunikacja, język, litery, klawiatura, i pomyślałem sobie, skoro język migowy jest tak pełny, nie tylko samych tych liter, to porównałem sobie to do muzyki. W muzyce sam zapis nut to jest tylko pewna mapa. Ale potem wszystko zależy od interpretacji, tego, jak interpretujesz ciszę, zawieszasz, jak budujesz dźwięki – jeden, drugi, trzeci, jak pracujesz…

Paweł
Tempem tego utworu wtedy też. Przecież to jest niesamowite, co się dzieje. Jesteśmy wciąż na gorąco po Konkursie Chopinowskim itd. To oczywiście, to jest fantastyczna analogia, bardzo ciekawa, inspirująca.

Karol
A czy MIGAM byłoby w stanie… Zadałem ci też wcześniej pytanie a propos nauki języka migowego i mamy taki jeden obszar, tłumaczenia, najbardziej oczywisty.

Paweł
W największym skrócie, Karol, my jesteśmy w stanie zagospodarować każdy obszar w każdym kraju, bo ta technologia nie ma ograniczeń co do tego, jakim językiem migowym ją nakarmimy. I my chcemy, żeby to było jak najwięcej takich case’ów użycia, bo my jesteśmy dostawcą technologii. To też z perspektywy biznesowej chcę ci to powiedzieć. W Polsce, owszem, MIGAM będzie także dystrybutorem naszego awatara, natomiast na rynku amerykańskim, kenijskim, japońskim, peruwiańskim my będziemy mieli partnerów. Partnerów, którzy rozumieją dany rynek, którzy tam na miejscu też będą chcieli pracować na pewno nad różnymi mega ciekawymi rzeczami z tym i to jest taka nasza główna idea. My stworzyliśmy technologię, której nikomu nie udało się zrobić, a teraz niech to idzie w świat, niech to będzie wykorzystywane. To jest też w ogóle fajna sprawa, bo ostatnio jak mieliśmy takie spotkanie, pitchowałem dla grona potencjalnych inwestorów, no to padło pytanie: „no ale przecież są inne podmioty, które tak jak wy robią rzeczy, nawet właśnie z żywymi tłumaczami”. Ja mówię: tak. I to nie jest żadna konkurencja, to są właśnie nasi potencjalni główni partnerzy i resellerzy na swoich rynkach, które znają, na których są, gdzie mają już relacje biznesowe.

Karol
Wrócę do mojego pytania. Czy wyobrażasz sobie z waszym modelem stworzone Duolingo?

Paweł
Tak, jasne. Aplikacje do nauki czy też wszelkiego rodzaju wsparcie, które może posłużyć do tego, żeby zwiększać poziom znajomości języka migowego czy nawet bawić się językiem migowym. To jest w ogóle super sprawa, że ci nasi koledzy ze Stanów tworzą gry oparte o technologię rozpoznawania gestów właśnie po to, żeby uczyć migowego i też rozwijać właśnie te zdolności.

Karol
Miejsce na anegdoty, ciekawostki. Co warto byłoby wiedzieć o języku migowym w kontekście waszego produktu? Albo może najbardziej zaskakująco łatwa rzecz, którą zrobiliście, i ta, która wydawała się łatwa, a była najtrudniejsza?

Paweł
Wiesz co, mi się wydaje, że jedna z najłatwiejszych rzeczy to było znalezienie geniusza, który był w stanie ogarnąć i zrobić tę technologię, bo nikt wcześniej Maxowi nie powiedział, że jakieś mądre głowy z jakichś uniwersytetów powiedziały: „nie da się”. Chociaż podejrzewam, że Max mógłby stwierdzić, że „potrzymaj mi piwo albo kombuchę, albo latte macchiato, i proszę bardzo, ja to zrobię, skoro ktoś powiedział, że się nie da”. Myślę, że to jest to. Słuchaj, prawda jest taka, że my tyle razy gruzowaliśmy to wszystko, wychodząc z założenia: „nie, no to jest ślepa uliczka, po prostu nie da się”, i trzeba było spróbować na nowo. My się dzięki temu nauczyliśmy, jak dokładnie tego nie robić. A jednocześnie jak takie mądre głowy z Unii Europejskiej nas informowały, że fantastyczny projekt, ale my wam nie damy na to pieniędzy, bo macie pieniądze w Polsce, a później w Polsce dostajemy informację: „no sorry, ale nam się skończyły pieniądze, więc wróćcie może na jakieś projekty unijne”. I wiesz, i to było takie od Annasza do Kajfasza. To nas to troszeczkę frustrowało, ale też motywowało do tego, że okej, to my nie będziemy brali na to forsy unijnej. Zbootstrapowaliśmy generatywny model sztucznej inteligencji, stworzyliśmy go z zarabianych przez nas pieniędzy. I to jest, słuchajcie, myślę, że to nawet nie jest anegdota, to jest po prostu jakiś taki kamień węgielny podejścia do robienia rzeczy i to jest coś, z czego jesteśmy dumni.

Karol
Gdybyście chcieli zlecić stworzenie takiego modelu, ile by to kosztowało?

Paweł
Przede wszystkim nie znalazłbyś ludzi, którym warto byłoby to zlecić na świecie. My kiedyś gadaliśmy o tym z Maksem, że on tak naprawdę wszedł z nami w ten projekt, czując, że kiedyś zapracował sobie na to, że powinno się w jego życiu pojawić więcej „heaven points” za zrobienie jakiegoś ciekawego, dobrego, wartościowego projektu. Max, kto go zna, wie, że miał kiedyś takie projekty związane z uczeniem maszynowym, chociażby realizowane dla wojska, i tego typu doświadczenia motywują ludzi, że w pewnym momencie swojego życia stwierdzają: „ej, ale ja chcę jednak zacząć robić coś naprawdę dobrego i wartościowego”. Co nie znaczy, że inne projekty Maksa są niedobre i niewartościowe, bo ja na przykład Omeę i jego projekt związany tak naprawdę z grami bardzo lubię i uwielbiam w ogóle. To, co on tam zrobił, to też jest niesamowite. Ale fakt jest faktem, że ja myślę, że tutaj po prostu takie poczucie, że jesteśmy w stanie totalnie zmienić świat dla 80 milionów ludzi globalnie, to jest takie, no kurczę, no kto, jak nie my.

Karol
Mam teraz odjechane pytanie. Czy waszą największą konkurencją nie będzie Neuralink?

Paweł
Nie sądzę. Patrząc na rzeczy, które robią giganci, giganci technologiczni, tak jak Google wrzucający jakieś informacje o swoich pracach nad automatyzacją tłumaczenia, to my się troszkę uśmiechamy na te projekty.

Karol
To moje pytanie z dużym uśmiechem, jak widzisz.

Paweł
Oczywiście. Słuchajcie, ja jestem mega szczęśliwy, kiedy różni ludzie próbują mierzyć się z tą tematyką i ja wiem jedno: nie ma nikogo innego, żadnego innego takiego zespołu, który zebrałby taki pakiet doświadczeń, wiedzy, kompetencji, i to nie tylko z obszaru technologicznego, ale właśnie ściśle tych, które są związane ze specyfiką języków migowych, z ich niezwykłym charakterem. No i po prostu, co tu dużo mówić, w tym wypadku premia za pierwszeństwo jest szczególnie ważna.

Karol
To co, przetłumaczymy fragment tego odcinka na język migowy?

Paweł
Wiesz co, na amerykański język migowy. Myślę, że możemy jakiś mały fragmencik wrzucić, żeby to pokazać i żeby nasz awatar to przetłumaczył, więc najpierw przetłumaczymy to na angielski i wrzucimy też taką próbkę, która będzie dołączona do tego, i zobaczycie, jak to wygląda w wykorzystaniu tej naszej technologii. A swoją drogą, jak bardzo was to zainteresowało i chcielibyście wiedzieć więcej, no to nie tylko strona migam.ai, ale też po prostu odzywajcie się do nas bezpośrednio, bo z przyjemnością pokażemy wam to. Dzięki chociażby naszej współpracy z NVIDIĄ czy Oracle, jesteśmy w stanie każdemu z was podesłać link, żebyście sobie sami zobaczyli i potestowali, jak model działa. Nie reglamentujemy tego.

Karol
Pawle, ogromne gratulacje za to, co stworzyliście. Gratuluję siły, determinacji, wrażliwości na to, czego nie słychać, i trzymam kciuki.

Paweł
Bardzo dziękuję.