Idę o zakład, że słyszeliście o ElevenLabs. Ale czy zastanawialiście się, w jaki sposób #GenAI zmieni świat podcastów? Dzisiaj będzie właśnie o tym. Z genialnymi przykładami.
Poznajcie proszę Wojtka Oleksiaka – to producent radiowy, twórca podcastów dokumentalnych, kompozytor a w poprzednim życiu zawodowy muzyk. Od 2017 tworzy podcasty dla radiostacji i klientów na całym świecie – m.in. dla National Public Radio w USA, WorldWide.fm, PRI a także współtworzy niezależny projekt medialny – The Europeans, którego trzonem jest podcast o tej samej nazwie i o którym sporo będzie w dzisiejszym odcinku.
W Polsce prowadzi butikowe studio specjalizujące się w produkcji podcastów dokumentalnych – jedną z produkcji była “Supernowa. Historia Arkadiusa, nagrodzona nagrodą Grand Prix Podcast Roku 2022.
Zatem – jak #AI wpłynie na świat pocastów? Posłuchajcie sami! I dobrych wakacji Wam życzę!
Dobrego dnia! Posłuchaj podcastu i podziel się nim z innymi!
Tradycyjnie wielka prośba – jeżeli jeszcze nie wystawiłaś lub nie wystawiłeś oceny 99 Twarzom AI na Spotify lub Apple podcast – pomóż mi proszę z dotarciem do nowych słuchaczy. To zabierze Ci tylko 2 minuty. Z góry serdeczne dzięki!
Dobrego dnia i niech #AI będzie z Wami wszystkimi!
Transkrypcja rozmowy
Disclaimer. Droga Czytelniczko, Drogi Czytelniku – mała uwaga dotycząca transkrypcji rozmowy. Jak się pewnie domyślasz – transkrypcja została przygotowana z wykorzystaniem magii LLM. Proszę o wyrozumiałość, gdyby pojawiły się w niej niewielkie błędy, literówki, etc. Żeby mieć pewność co do wszystkich wypowiedzi – polecam posłuchać, zamiast czytać. Ukłony.
Karol Stryja: Witam się serdecznie Wojtku, ogromna przyjemność widzieć Cię i mam nadzieję porozmawiać ciekawie. Cześć, bardzo się cieszę, że tu jestem. Wojtek, my znamy się od paru ładnych lat, wiem czym się zajmujesz, wiem co robisz i szczerze ci tego gratuluję, ale nasi słuchacze być może ciebie nie kojarzą. Powiedz kim jesteś i w jakim obszarze działasz..
Wojtek Oleksiak: Dobra. Generalnie jestem twórcą radiowych reportaży albo audioreportaży, które czasami nazywane są też podcastami. Czyli to, co robię, to staram się szukać długich historii, które opowiadają się w serialach i przybliżać je ludziom za pomocą medium, jakim jest audio. Założyłem w Polsce firmę, która produkuje tego rodzaju treści dla różnego rodzaju klientów w Polsce za granicą i na co dzień mam wielką radość i przyjemność być częścią zespołu, który pracuje nad podcastem The Europeans. To jest podcast anglojęzyczny, na razie anglojęzyczny tylko, potem będzie później, który jest cotygodniowym takim show o kulturze i polityce europejskiej..
Karol: Opowiesz coś więcej o tym, jak pracujecie, czym tak naprawdę jest The Europeans, bo to jest kapitalny projekt..
Wojtek: Dzięki. Bardzo chętnie. To jest zupełnie niezależny projekt i próba budowy medium, po prostu jakby media outlet od podstawy. Ja dołączyłem tam w trzecim roku działania, teraz to jest szósty rok działania, więc już chwilkę jestem z nimi. Cztery osoby pracują nad tym codziennie, dlatego oczywiście mamy szeroką sieć współpracowników. I to, co robimy, to mamy taki 100-tygodniowy show, w którym prezentujemy jakieś dwa kluczowe wydarzenia z poprzedniego tygodnia i mamy wywiad, który pogłębia jakieś trzecie zagadnienie. Natomiast czasami produkujemy też miniserie albo nawet dłuższe serie na jakieś tematy dłuższe i to jest jakby to, gdzie ja się czuję najlepiej, to są właśnie dłuższe reportaże o jakimś temacie. Na przykład właśnie dzisiaj będę często… wrzucał w związku z naszą rozmową i tematem tej rozmowy taki reportaż, który powstał na końcu zeszłego roku. Mini reportaż dwuodcinkowy o tym, jak w Polsce, na Węgrzech i w Ugarii władza nie do końca demokratyczna poradziła sobie z wolnymi mediami..
Karol: Podrzucimy wam zresztą linki do The Europeans, żebyście mogli posłuchać. Wojtek, ty nie zawsze pracowałeś w podcastach. Ty wywodzisz się z branży muzycznej, prawda.
Wojtek: W większym skrócie się urodziłem w muzycznej rodziny. Moja mama była wiolenczelistką. I kiedyś, po nieudanej przygodzie ze szkołą państwową muzycznej, tata zabrał mnie na koncert Jazz Jamboree jakoś, nie wiem w sumie dlaczego to zrobił i ja po prostu zostałem oślepiony jazzem i tym, co tam się działo. I tak zaczęła się moja przygoda z perkusją jazzową, która trwała intensywnie do 30 roku życia albo jeszcze później. Skończyłem wydział jazzu, byłem muzykiem zawodowym, wyłącznie byłem muzykiem przez 10 lat. No i dopiero kiedy ten impet i to marzenie zostało spełnione i jakoś zaczęło się wytracać, zacząłem szukać innych dróg. No i pomyślałem, że w tym świecie dźwięku zostanę, ale zawsze bardzo lubiłem historię, opowiadać historię, słuchać historii, czytać książki. Trochę pisałem już wcześniej po angielsku, tak dorywczo, w zimie, kiedy nie było tyle koncertów i jakoś połączyłem te dwie rzeczy. I tak w 2017 roku znalazłem się w świecie podcastów..
Karol: I od tego czasu się znamy, o ile dobrze pamiętam. 2017, 2018 rok, o podcastach tak naprawdę nie było wiele słychać w Polsce..
Wojtek: To prawda, to prawda, tak. Pamiętam, że pierwsze pytanie, jakie cię zadałem, jak spotkaliśmy, to skąd się w ogóle wziąłeś w świecie podcastów i skąd do nich wjeżdżasz, bo wtedy, pamiętam, to były czasy, kiedy ja próbowałem troszeczkę w Polsce działać, bo moja przygoda z podcastami zaczęła się nie na rynku polskim i kiedy chodziłem do klientów, do różnych… firm czy instytucji. Mówiłem, że może byście chcieli opowiedzieć o sobie przez podcast. To naprawdę pierwsze 15 minut to było śmieszne tłumaczenie, czym jest podcast, po co to komu, czym to się różni od radia, dlaczego ja w ogóle zawracam gitarę i naprawdę jest to śmieszne, jak patrzymy na to, co się dzieje teraz..
Karol: No i słuchaj, teraz chyba jesteśmy w podobnym miejscu, Wojtek. To znaczy, ludzie gdzieś słyszeli, jest głośno, widać nagłówki związane z AIM, z Gen EI, z tworzeniem contentu przez sztuczną inteligencję, nazwijmy to. Trochę jesteśmy też w takim etapie, jak w 2017 roku z podcastami.. Nie masz takiego wrażenia?
Wojtek: Wiesz, mam wrażenie, że podcasty jednak chyba wchodziły do mainstreamu bardziej tak po cichu i niszowo. To jest szturm i rewolucja i bardzo dużo też jest negatywnych komentarzy, podczas kiedy podcasty wszyscy tak miło lekceważyli. Do dzisiaj mi się zdarza, kiedy opowiadam o tym, co robię, pokoleniu moich rodziców, to wszyscy pytają, ojej, ty możesz się utrzymać z tego podcastu. I myślę, że nikt tak nie zareagował, gdybym powiedział, że mam firmę, która zajmuje się budową sieci neuronowych, to raczej by się nie wydarzyło. Tak więc tutaj jednak chyba myślę, że AI też się pojawia w mainstreamie z takim dużym bagażem strachu, czegoś, co jest niechciane i czegoś ludzie się boją..
Karol: Opowiesz o tych doświadczeniach, które ty masz, jeżeli chodzi o właśnie GenAI, o tłumaczeniach, o voice-over, jeżeli chodzi o podcasty, bo to jest bardzo ciekawe zagadnienie..
Wojtek: Tak, bardzo chętnie. Strasznie się w ogóle cieszę, że mogę o tym powiedzieć, bo to jest jakiś temat, z którym się zmagałem od dawna i nagle jest to cudowne rozwiązanie w postaci Generative AI. Zatem ja pracuję tutaj w Europie Środkowo-Wschodniej, głównie w Polsce, też często bywam w krajach okolicznych i od wielu lat produkuję reportaże o tych krajach dla radiostacji anglojęzycznych, kiedyś amerykańskich, teraz jestem związany mocno z The Europeans, więc to jest główne miejsce, gdzie publikuję swoje rzeczy. No i jest ten problem, że jeżeli masz, nie wiem, pięciu bohaterów i żaden z nich nie mówi dobrze po angielsku, to zawsze był ten dylemat. Czy namawiać ich do tego, żeby oni dukali po angielsku. A powiedzmy, że ludzie w naszym regionie 50+, na ogół nie mówią swobodnie. A jeżeli mówią dobrze, to jest tak, że ten wywiad, którego oni się udzielą po bułgarsku, rumuńsku, serbsku jest dużo, dużo lepszy, jeśli oni mówią w swoim języku. Więc wchodził temat voice-overu. Voice-overy to jest trudny temat, dlatego że generalnie nie słyszysz tego głównego bohatera. Jeżeli to jest ekspert, on mówi o czymś technicznym, to można to przeboleć. Czyli to jest reportaż o jego sytuacji życiowej..
Karol: Zupełnie inaczej jest z voice-overami w wideo, bo wtedy widzisz obraz i to w jakiś sposób koresponduje z tym, co słyszysz..
Wojtek: Tak, przynajmniej widzisz tą emocję, prawda. Jeżeli on jest wzruszony, to widzisz, że drga mu powieka albo łza pocieknie mu po policzku. W audio jedynym medium, które może przekazać, co się dzieje w tym bohaterze, jest ten dźwięk. Jeżeli ten dźwięk jest przykryty voice-overem, który jest nagrany w studio, to jest jeszcze inny temat, jak bardzo trudno jest znaleźć odpowiedniego lektora. Aktorzy mają często tendencję do próby naśladowania tych bohaterów. To nie jest dobre, bo to się zaczyna robić coś, często to jest przerysowane albo jakoś niedobrze to brzmi..
Karol: No właśnie miałem cię zapytać, wiesz, jaka jest tendencja, jakie jest optymalne rozwiązanie, jeżeli chodzi o voice over w audio, czy tak naprawdę voice over, bo skoro mówisz, że nie słyszymy tych emocji, bo te emocje są na drugim planie, to jakie zastosować podejście. To jest bardzo trudne. Czy właśnie odgrywać te emocje i tak jak mówisz zatrudnić aktora, który będzie starał się naśladować i odtwarzać je, czy liczyć na to, że przekazujemy po prostu historię, a gdzieś w tle słychać te emocje naszego bohatera.
Wojtek: Oczywiście, generalnie to rozwiązanie, które do tej pory stosowałem było takie, że poświęciłem bardzo dużo uwagi i namysłu temu, jak to robić. Starałem się tkać oryginalną ścieżkę, czyli ten głos w języku oryginalnym z tym angielskim voice-overem. To daje efekty raz lepsze, raz gorsze. Właśnie jadąc tutaj słuchałem kilku rzeczy, które zrobiłem w przeszłości i tam są po prostu rzeczy, które są nawet w miarę okej. Jakby to jest tak, że na przykład ten aktor, który był tym lektorem, voice-overem, jakby minimalnie naśladował emocje, ale nie zagrywał się i wtedy to jakoś działa.
Czasami niektóre rzeczy są okropne, po prostu ten aktor zupełnie albo przerysowuje, albo jakby jedzie walcem po tym całym bohaterze. Więc było to zawsze bardzo trudne i też jakby operacyjnie musisz tego aktora znaleźć, zrobić jakiś casting. Jeżeli masz tych głosów pięć, siedem, to jest naprawdę dużo głosów do wyboru. Sesje nagraniowe są zawsze długie i były kosztowne. Czasami ja miałem kilka takich sytuacji, kiedy ktoś wydawał mi się dobry w castingu, później przychodził na nagranie i to totalnie nie działało i po prostu nie wiadomo było co z tym zrobić i kolejne próby i kolejne próby i to nie działa, nie działa, nie działa. Do jednego swojego reportażu chyba dopiero czwarta osoba, to był dla mnie bardzo ważny reportaż o Czarnobylu, który robiłem dawno temu jeszcze przed tym serialem i uważałem, że on ma bardzo duży potencjał zainteresowania publiczności tym tematem i tam właśnie miałem jednego bohatera głównego i szukałem dla niego voiceoveru przez chyba pół roku. I właśnie cztery razy nagrywałem tę osobę, cztery razy montowałem ten materiał, dopiero za czwartym razem uznałem, że to jest okej i tak uważam, że to nie jest idealnie. Tak więc to było naprawdę, naprawdę, naprawdę trudne i jakby nie było złotego środka, którym można było ten problem ominąć. Albo po prostu trzeba było gadać z kimś, kto ma kłopoty z wysłowieniem się, albo trzeba było zdecydować tę trudną drogę z lektorami, które raz dawały lepsze, raz gorsze efekty..
Karol: No dobrze i pojawia się GenAI.
Wojtek: Tak, pojawiły sięGenAI i teraz właśnie w w rzeczonym wcześniej wspomnianym reportażu po raz pierwszy zastosowałem klonowanie głosu do tego, żeby wykonać takie nagranie lektorskie, czyli wszystkie wywiady były robione w językach rodzimych, w obco wypowiadającym się, czyli po polsku, po bułgarsku i po węgiersku. No i po prostu dzięki silnikowi AI sklonowaliśmy ich głosy, dając temu silnikowi bardzo dużo, bardzo wysokiej jakości próbek głosów tych osób i efekty po prostu nas powaliły.
To jest dokładnie to, o co chodzi. Te osoby, ten klon głosu… Mówi dokładnie w taki sposób jak bohater, mamy dokładnie świadomość tego, jaką ta osoba ma energię, jaki ma temper głosu, w jaki sposób ten głos zawiesza, jak szybko mówi, czy jak wolno mówi, jakie robi przerwy. To jest niesamowite i kiedy się coś takiego właśnie już jakby utka razem z tym głosem oryginalnym, to po pierwsze dla moje ucho, osoby, która nad tym pracuje, to brzmi znakomicie, bo po prostu spotykamy bohatera, on się odpowiada swobodnie w swoim języku, tłumaczenie jest doskonałe, bo my je robimy już sami. czy poprawiamy je sami po kolejnym silniku, który nam to tłumaczy na szybko, automatycznie. No i po prostu to jest to, o co chodziło. Nareszcie ci ludzie, którzy nie mówią po angielsku, mówią po angielsku. Najśmieszniejsze jest to, że reakcje na to były super entuzjastyczne. Po pierwsze ci bohaterowie zadzwonili do mnie i mówili, boże, jakie to jest wspaniałe, że ja mogę mówić po bułgarsku i nasz wywiad odbył się w mega luźnej atmosferze..
Karol: To w ogóle podrzucam Ci pomysł na odcinek, może właśnie z tymi osobami, które doświadczyły tego, w jaki sposób stały się oryginalnymi voice-overami..
Wojtek: Może tak być. Po drugie to słuchacze. Właśnie zadzwonił do mnie taki jeden nasz partner do European z jakiegoś innego projektu. Mówi, Wojtek, ale jak to jest, że ty zebrałeś nagle 5-7 osób, które wszystkie perfekcyjnie mówią po angielsku bez zająknięcia i są ekspertami od tego tematu. Eleven Labs. Tak, do tego używaliśmy silnika Eleven Labs. Jest ich oczywiście bardzo wiele. No i. Po prostu to działa..
Karol: Możesz Wojtek opowiedzieć o procesie, tym w jaki sposób pracowaliście, bo to nie jest do końca tak, że wrzucasz plik i ten plik jest automatycznie wytłumaczony i generowane audio, jednak trochę pracy trzeba włożyć w to, żeby to było idealne..
Wojtek: Tak, tak. Właśnie wydaje mi się, że generowane audio się głównie kojarzy z tymi krótkimi filmikami na TikToku, gdzie ktoś tam mówi po hiszpańsku, a jest Polakiem i tak dalej. To zupełnie nie jest to, co my zastosowaliśmy. To, co my zrobiliśmy, to jest tak, że nagrywamy ten wywiad w języku oryginalnym, transkrybujemy go i tłumaczymy go jednak w bardzo dużym stopniu manualnie. W sensie ktoś to robi, kto zna ten język bardzo dobrze, osoba dwujęzyczna. Manualne tłumaczenie.
Ja nawet nie wiem do końca, bo ja nie mówię po bułgarsku, więc nie tłumaczyłem tego. To było tak, że reporter, który jest dwujęzyczny, przetłumaczył to sam z bułgarskiego na angielski, więc mieliśmy bardzo dobre tłumaczenie, bardzo dobry tekst wyjściowy po angielsku. No i potem właśnie bierzemy ten wywiad, który jest nagrany w możliwie dobrych warunkach. Te wywiady były nagrywane głównie w studiach albo w quasi-studyjnych warunkach. I właśnie karmimy silnik AI tym głosem w ilości jeszcze większej niż jest wymagana, żeby on naprawdę miał tych danych i najwięcej. Wiadomo, że tak działają sieci neuronowe i im więcej tam wrzucimy, tym lepsza będzie analiza. Więc karmimy, karmimy, karmimy ten silnik i na końcu dostajemy klon, który rzeczywiście brzmi już bardzo, bardzo, bardzo podobnie do tego bohatera. No i teraz nie jest to żadna sytuacja typu drag and drop, że po prostu przerzucamy to oryginalne audio i nagle nam wychodzi magicznie po drugiej stronie audio w języku angielskim, tylko robimy tak, że jednak to jest text to speech, czyli ten tekst przetłumaczony, każemy temu klonowi mówić tym tekstem, który jest efektem tłumaczenia, No i potem to jest kwestia siedzenia i żeby to naprawdę dobrze brzmiało, to oczywiście wymaga to sporo czasu, żeby po prostu poprawiać błędy, zastanawiać nad tym, generować to jeszcze raz, bo nie zawsze otrzymujemy ten sam efekt nawet przy podobnych ustawieniach, więc wymaga to sporo czasu, aczkolwiek efekty są po prostu moim zdaniem oszałamiające i rozwiązujące jeden z głównych problemów, jakie miałem w swojej pracy..
Karol: To co podrzucimy chyba parę przykładów tutaj, żeby nasi słuchacze mogli usłyszeć to, o czym rozmawiamy. Tak, koniecznie. Bardzo chętnie podrzucę. Może podrzucimy jeden po polsku, a drugi po, na przykład, bułgarsku. Świetnie. To posłuchajcie..
(…)
Karol: No dobrze, a powiedz mi, bo ten proces, o którym mówisz, tak naprawdę on łączy w sobie ten Gen AI i pracę manualną, czyli tak jak mówisz, tłumaczenie, nagrywanie itd. A czy testowaliście ten automatyczny moduł, który automatycznie transkrybuje odcinek i tworzy w wersję anglo- albo indojęzyczną.
Wojtek: To jest śmieszna historia, dlatego że rok temu, chyba w marcu albo w kwietniu mieliśmy spotkanie do European, spotykamy się przynajmniej raz do roku w prawdziwym życiu gdzieś w Europie. Mieliśmy takie spotkanie i właśnie mówiliśmy o tym, że to jest podcast po angielsku. Gospodarze tego podcastu są Brytyjczykami, którzy nie mieszkają w Europie. Dan Wielkiej Brytanii, ale mają brytyjski akcent, więc jest jakieś takie, mamy to z tyłu głowy, że dla pewnego typu odbiorcy, który może nie zna angielskiego bardzo, bardzo dobrze, ich akcent może być trudny do zrozumienia. Katie, która jest hostem, mówi dosyć szybko i na przykład znam osoby z kręgu moich znajomych, którzy nie znają angielskiego tak super, super dobrze, mówią, że Czasami nie jest dla nich do końca jasne, co się dzieje, bo jest za szybko, więc powstało to marzenie, co by było, gdyby ten podcast mógł wychodzić we wszystkich 24 językach oficjalnych Unii Europejskiej. Jest to podcast bardzo skoncentrowany na Europie, nie na Unii Europejskiej, ale na Europie, więc to było takie nasze marzenie. No i w marcu zaczęliśmy to googlować na tym spotkaniu i szybko się okazało, że w ogóle nie ma żadnych narzędzi, które by w ogóle jakkolwiek się za to zabierały. Obecnie one jak gdyby są i też bardzo chętnie zaprezentuję za chwilę przykłady. Zrobiliśmy takie testy. Nie ma jeszcze rozwiązania drag and drop, które pozwoliłoby to bardzo łatwo zrobić, bo takie rozwiązanie po pierwsze zakłada, że to jest transkrypcja i tłumaczenie absolutnie automatyczne. Tam na razie są błędy. Znowu mówimy, że jesteśmy dzisiaj, jest luty 2024, ich może zaraz nie być..
Karol: Ale wystarczy tutaj wrzucić przykład wideo generowanego przez sztuczną inteligencję, jak wyglądało rok temu, a jak wygląda teraz po ostatnich prezentacjach..
Wojtek: Tak, to robi wrażenie, prawda. No więc to się bardzo szybko zmienia. Na razie nie ma takiego rozwiązania. Jest takie urządzenie, jest taka aplikacja, również oferowana przez wiele różnych firm. Żadna z tych, które ja testowałem, testowałem myślę, że około siedmiu. dawała takie rezultaty, które są nie do końca doskonałe. Oczywiście większość z tych rozwiązań oferuje później możliwość manualnego poprawiania efektów i ona jest absolutnie wystarczająca, więc przy dołożeniu pół dnia albo dnia pracy myślę, że naprawdę można osiągnąć super, super efekt..
Karol: Jak sądzisz, jak może w ogóle ewoluować rynek audio. Jak może wyglądać proces publikacji za pół roku, rok, za dwa lata.
Wojtek: No właśnie tutaj dochodzimy do tego, gdzie mój entuzjazm się trochę kończy, dlatego że… O, dlaczego. .
Karol: Ja na przykład powiem szczerze, mnie to podnieca..
Wojtek: Tak, z jednej strony tak. Ja mam trochę takie poczucie, że ten problem, który ja miałem, bo na przykład dla mnie to był dość takim problemem, że powiedzmy, na przykład robiłem pitching jakiejś stacji amerykańskiej, wiem, słuchajcie, mam takiego superbohatera, który coś tam robi, nie wiem, w Bułgarii albo w Bośni i Hercegowinie, ale on nie mówi po angielsku. I wyszło po to, że nie, no ale wiesz… Jeżeli to ma być o jednym bohaterze, pół godziny, nikt nie znieście pół godziny voice-overu, to wiesz co, nie możemy tego zrobić, sorry. Więc to był poważny problem, że nie mogłem pewnej historii nigdy sprzedać. Ten problem już go nie ma, dlatego że ten bohater nagle będzie mówił cudownie po angielsku. Tylko teraz pomyślmy, gdzie uderza druga strona tego ostrza, bo ono jest bardzo obosieczne, uderza w rynek aktorów, lektorów. Studiów nagraniowych, który jest mi bardzo bliski, mam dużo znajomych, którzy mają studia nagraniowe, mam wielu znajomych lektorów, z którymi pracowałem, aktorów, którzy użyczali mi swojego głosu właśnie do tworzenia voice-overów i nagrań lektorskich. No naprawdę nie bardzo widzę miejsca dla tego rodzaju profesji w jakiejś krótkiej perspektywie, jeżeli już teraz… A co dopiero w długiej. Tak, tak. Jeżeli już teraz te efekty na przykład w przypadku takich nagrań lektorskich są właściwie bliskie doskonałemu, a o wiele lepsze niż to, co mogliśmy wygenerować dużą ilością ciężkiej pracy, to… Mała uwaga..
Karol: Wojtek jest perfekcjonistą i jeżeli słyszę od niego uwagę taką, że te voice-overy są bliskie doskonałości, to uwierzcie mi, że żyjemy w niesamowitej rzeczywistości..
Wojtek: Tak, tak. Gdybyś zapytał mnie rok temu, czy uważam, że efekt może być tak piorunujący, to myślę, że pokręciłbym po prostu nosem. No więc mam tą wielką troskę o to, co to będzie dla tej całej dużej grupy ludzi, która pracuje. Na pewno widziałeś, że prowajderzy audiobooków też współpracują z firmami, które generują głos i które zajmują się klonowaniem głosów i są już pierwsze audiobooki czytane przez komputer. Brzmi to bardzo dobrze. Dochodzimy do tematu tego, że są firmy, o których też wiem, że istnieją, chociaż może są mniej widoczne publicznie, które jeżdżą po aktorach różnych, bardzo znanych, starszych i młodszych i oferują im zakupienie autorskich do ich głosu, nawet do ich wizerunku. Czyli to jest dla mnie najbardziej niesamowite, że Kongres Lema staje się rzeczywistością. Znam naprawdę aktora, który jest już u schyłku swojej kariery, u którego była jakaś młoda firma, oferowała mu bardzo duże pieniądze za możliwość, za zakup praw autorskich do używania jego awatara, głosu i postaci w przyszłości. I dochód pasywny..
Karol: Tak, tak. Może się okazać, że nie tylko dla niego, ale później dla jego rodziny tak samo. Tak, tak, tak. Przez kolejne, o ile dobrze pamiętam, 50-70 lat. Tak, oczywiście, oczywiście. Nie pamiętam nigdy tego terminu. 50 albo 70 lat, tak myślę. Tak, tak, tak. To piękna sprawa, dochód pasywny na kolejne 50 lat..
Wojtek: No tak, dla niego piękna sprawa. Gorzej dla na przykład tych, którzy chcieliby wejść na rynek. Dla niego miejsce, kiedy on przyjdzie na emeryturę, a nie będą mieli tej możliwości..
Karol: To w takim razie Wojtek, to dla tych, którzy wchodzą teraz na rynek, co będzie najważniejsza. Kreatywność. Tak. Umiejętność wykorzystania narzędzi.
Wojtek: Na pewno umiejętność wykorzystania narzędzi. Myślę, że to jest tak, jak wiele osób mówi, że po prostu musimy się nauczyć żyć z tym, że to jest. I czasami nam to pomoże, czasami nam to odbierze jakiś rodzaj pracy. Ja na przykład czasami pracowałem jako inżynier dźwięku. Myślę, że ta praca coraz mniej… Kiedykolwiek będę dostał jakiekolwiek zlecenia na miks czy nagrania porządne, bo jeżeli mamy teraz silniki AI, które czyszczą właściwie dowolnie zepsute nagranie z dowolnych mankamentów i artefaktów, To jest coś, co kiedyś robiłem, co mi zajmowało nim pół dnia. Teraz zajmuje mi to bardzo mało czasu. Miks, audio..
Karol: Swoją drogą, może wrzucimy też przykład tego, jak brzmi głos przed i po czyszczeniu przez Gen AI..
(…)
Wojtek: Mix audio znowu to jest coś, co jeżeli nie wchodzimy w tematy właśnie jakieś artystyczne, bardzo kreatywne, no to to jest rzecz, która też może być w dużym stopniu zautomatyzowana. Wszystko się automatyzuje, więc po prostu musimy się nauczyć z tym żyć i szukać swojego miejsca tam, gdzie kreatywność czy też, nie wiem, no są takie rzeczy, których AI nie zrobi. Ja na przykład jako dziennikarz zdaję sobie sprawę, że AI nigdy nie wymyśli samo tematu reportażu, nie pojedzie z mikrofonem między ludzi i nie zrobi wywiadów..
Karol: W związku z tym uważam, że Wojtek, że prawdziwe blogi, takie jakie znamy z kilkunastu lat wcześniej, wrócą do łask i wróci content generowany przez ludzi, ale w połączeniu z budowaniem społeczności, połączenia z odbiorcą, bo to będzie potrzebne.
Wojtek: No tak. Tak czuję przynajmniej. Ja też tak myślę. Myślę, że jedyne, czego AI nie jest w stanie mi odebrać, to jest to, że po prostu mam swój sposób patrzenia na świat i miałem już okazję czasami zainteresować tym sposobem patrzenia na świat dużą grupę ludzi i myślę, że to jest jakaś taka wartość, której nie da się podrobić. Chyba, że się mylę i niedługo… powstanie klon mojego mózgu, który będzie generował podobne pomysły, ale na razie coś jest możliwe, nie wiem. Mój Boże, jeżeli można generować muzykę w stylu Elvisa Presleya, która brzmi jak nieznana Ci piosenka Elvisa Presleya, to może ktoś będzie w stanie wkrótce robić reportaże w moim stylu, jeżeli taki posiadam. Także nie wiem, może sam się teraz zagoniłem w kozi róg, ale… A wyobraź sobie, że istnieje kilkadziesiąt wersji tej samej piosenki..
Karol: Automatycznie generowana, co ja mówię, kilkadziesiąt. Każdy słuchacz ma inną wersję piosenki, którą chciałby usłyszeć. To jest coś niezwykłego. I sam nie wiem, jak się odnajdę w tej nowej rzeczywistości. Czy będzie we mnie sentyment i chęć powrotu do tego, na czym wyrosłem i czego słuchałem kiedyś, czy wejdę sam w ten świat GenAI
Wojtek: No wiesz, ja myślę, że ludzie są w ogóle jakby tworami bardzo sentymentalnymi i jest takich wiele rzeczy. Na przykład przecież możliwość generowania muzyki w stylu danego artysty to nie jest coś, co powstało kilka tygodni temu mniej więcej i myślę od roku obserwujemy naprawdę doskonałe klony. Jakoś nie widzę, żeby to było masowo popularne. Oczywiście są nisze, tam też trochę ten temat badałem i są jakby grupy fanów, ale to nie wiem, ciągle Dua Lipa wyprzedaje stadiony, bo jest Duą Lipą i nikt nie chciałby chyba pójść na koncert Avataru Dua Lipy albo właśnie chciałoby na to pójść 10 tysięcy osób, a Ona pewnie zapełnia, w sumie sprzedaje miliony biletów rocznie. Tak więc myślę, że jednak gdzieś postawimy tą granicę i taka ludzka kreatywność tam, gdzie naprawdę ona jest główną wartością, czyli właśnie w sztuce, ona będzie jednak przeważająca. Co nie zmienia faktu, że znowu całe połacie różnych branż, na przykład, nie wiem, stock, images, czyli te, jak się mówi… biblioteki, biblioteki zdjęć, biblioteki filmów, jak się okazuje od kilku tygodni, tych krótkich, prawda, jakichś filmów, które, nie wiem, się są używają do ilustrowania newsów albo filmów na YouTubie, no po prostu to niestety zostanie wyparte. Podobnie jak biblioteki dźwięków, na przykład, no nie wiem, ludzie, którzy zajmują się nagraniami terenowymi, no też to będzie trudne, żeby dalej… Nie będzie miał autoracji bytu..
Karol: Tak. Słuchaj, miałem rozmowę z moim kumplem sprzed, nie widzieliśmy się ładnych 20 lat i on właśnie wspominał z gigantycznym sentymentem czasy, kiedy autentycznie robił zdjęcia, ładował do bazy stokowych i zarabiał na tym całkiem fajne pieniądze..
Wojtek: No tak, no tak. Wiele było takich zawodów. Na przykład ja też ciągle mam bardzo wielu znajomych, którzy komponują muzykę do bibliotek muzyki. No mam wrażenie, że to są ostatni albo ostatnie dwa lata, ostatni rok albo ostatnie dwa lata, kiedy oni mogą mieć taki zawód. Po prostu….
Karol: To wyobraźmy sobie, że 99 twarzy AI miało być wydawane w kilku językach. Co zrobić teraz, Wojtek. Jak stworzyć 99 twarzy w języku angielskim, niemieckim, japońskim. Mógłbyś opowiedzieć o tym procesie?
Wojtek: Myślę, że jak chcesz to zrobić tanio, to załóż ręce i poczekaj parę miesięcy i będzie takie rozwiązanie. Na dzisiaj wymagałoby to trochę pracy. Myślę, że do takiego podcastu, gdzie jednak są te nagły rozmowy jednej osoby z jedną osobą, to rozwiązanie drag and drop jest naprawdę bliskie temu, czego byś oczekiwał. Przy pewnie odrobinie pracy, jakby poprawienia tego efektu automatycznego, Myślę, że efekt, który byś uzyskał byłby absolutnie, no może nie byłby doskonały, ale byłby taki bardzo, bardzo użyteczny, więc to jest pewnie kwestia półtora lub dwóch, no myślę, że półtora dnia pracy jednej osoby nad jedną wersją językową obecnie..
Karol: Bo tak jak mówisz, drag and drop jeszcze nie jest dostępny, nie działa aż tak fenomenalnie, czyli musielibyśmy wyciągnąć dwie niezależne ścieżki, zrobić transkrypcję, lekko ją poprawić, wygenerować dźwięk, a potem zmontować odcinek.
Wojtek: Tak, gdybyś chciał zrobić tak, to jest trochę więcej pracy. To myślę, że gdybyś chciał zrobić to tak, jakby z taką dbałością o szczegóły, jak na przykład robimy to w reportażach w The Europeans, to by zajęło troszkę więcej czasu. Drag and drop pewnie właśnie półtora dnia.
(…)
Wojtek: No tak, i tutaj na przykład prawda jest tak, że coś się dzieje nie tak z tempem. Oni czasami sobie wchodzą w zdanie, czasami ktoś mówi strasznie wolno, potem bardzo szybko. W dalszej części tam jest około pół minuty monologu Katie i to jest niesamowite, bo kiedy ona już mówi sama, Katie jest akurat dwujęzyczna, mówi też po francusku w stopniu bliskim rodzimemu i to rzeczywiście brzmi jak Katie mówiąca po francusku, ja bym nie rozpoznał. Tutaj są jakieś ze dwa błędy w tłumaczeniu..
Karol: A właśnie zapytam o reakcję Katie, jak posłuchała siebie mówiącą po francusku, rozmawiałeś z nią.
Wojtek: Tak, tak. Ona mówi, że nie byłaby w stanie powiedzieć, czy to jest ona mówiąca po francusku, czy to jest robot. Nie byłaby w stanie rozróżnić, gdyby były jakieś nagrania, których ona nie potrafiłaby rozróżnić. Tak, ona naprawdę tak brzmi po prostu po francusku dosłownie. Ja też nie widzę żadnej różnicy. Kilka razy nie rozmawiam po francusku i dla żartu, bo mój francuski jest znacznie gorszy niż mój angielski. Po prostu to jest, ona tak brzmi po francusku..
Karol: To jaka jest wizja przyszłości?
Wojtek: Jeszcze tylko puszczę kawałek Polski, bo jest bardzo śmieszny dla nas Polaków. Puszczamy kawałek Polski..
(…)
Wojtek: Ten monolog jest niesamowity, on jest dokładnie dobry. Tu znowu są błędy, tam medicine przetłumaczone na medycynę, zamiast na lekarstwo, wchodzą sobie w słowo. Dominik brzmi dosyć komicznie. Szczególnie na początku. Tak, brzmi jak jakby się zagrywał niesamowicie, próbując udawać kogoś, kim nie jest. Natomiast generalnie to nie jest bardzo daleko od czegoś, co nadaje namiastka tego, jak brzmi ten show. Znowu, nie wiem… Nie poświęciłem na to bardzo, bardzo dużo czasu. Mógłbym to poprawić i mógłbym sprawić, że to pewnie brzmi dużo lepiej. Pytanie, czy jesteśmy w stanie tak naprawdę w stu procentach jakby odwzorować to, jak oni się do siebie odnoszą..
Karol: I flow między ludźmi, bo to jest też bardzo ważne, jak reagujemy..
Wojtek: Oczekuję do takiego podcastu, prawda. Cisza, ciekawość, reakcja, śmiech, zainteresowanie, ironia, sarkazm. Ten podcast jest bardzo oparty na tym, że słuchacze uwielbiają to, jak oni, jakby ich po prostu relacje, oni są przyjaciółmi ich relacji, jakby chemia, która jest między nimi..
Karol: Czy to byłoby słyszalne… Tak samo jak The Heavyweight. Tak, tak, tak. Przyjacielska rozmowa na początku..
Wojtek: Czy to by było słyszalne w tłumaczeniach. Trochę nie wiem, po francusku brzmi to dla mnie dużo bliżej jakby oryginału niż po polsku i teraz zastanawiam się, czy dlatego, że francuski znam niedoskonale, No nie wiem. No ten polski, nie chciałbym słuchać podcastu, który tak brzmi. Oni są bardzo sztuczni, chociaż momentami jakby tam coś się dzieje, jakby czuję, że to jakby zatrybia. Także to jest bardzo ciekawe. No pewnie to znowu kwestia miesięcy, może roku, kiedy to po prostu będzie działało idealnie, prosto, drag and drop i masz wersję po azersku..
Karol: Wojtek, dziękuję ci serdecznie za rozmowę. To była kapitalna przygoda, kapitalna wizja przyszłości. Z jednej strony może dla niektórych mało ciekawa, bo tak jak mówisz, wiąże się z tym, że będzie mniej pracy albo tej pracy w ogóle nie będzie. A z drugiej strony może to są czasy dla ludzi, którzy są po prostu kreatywni i łączą fakty..
Wojtek: Trudno mi powiedzieć. Ja to wszystko obserwuję, staram się jakby wskoczyć na tą tratwę, która płynie rwącą rzeką i zobaczymy, co będzie z drugiej strony. Naprawdę podchodzę do tego z równą dozą ekscytacji i jakiejś obawy. Może mniej, nie wiem czy to jest taka obawa, nie wiem o utratę pracy, ale jest jakaś taka obawa o to, jak jeżeli na moim polu pracy, które jest tak bardzo specyficzne i niszowe, a ja jej dokonuję takiej rewolucji, zastanawiam się jak to wpłynie na dużo większe pola, jakby myśląc o gospodarce, produkcji rzeczy. No jest to bardzo, bardzo ciekawe i naprawdę będę z wypiekami na twarzy obserwował dalszy rozwój sytuacji..
Karol: Wiesz co, i z tą świadomością właśnie stworzyłem te 99 twarzy. Tak jak mówisz, tych obszarów, które będą dotknięte przez rozwój technologii, będzie niezwykle dużo. Drodzy słuchacze, dziękujemy Wam za dzisiejszy czas, za spotkanie. Wojtek, dziękuję Ci za naszą rozmowę i dzięki za to, że tworzysz i robisz to z taką pasją i ciekawością. Wielkie dzięki, wzajemnie. I niech AI będzie z Wami wszystkimi..