38/99 – Jak powstał Bielik? Historia polskiego modelu językowego. Sebastian Kondracki, SpeakLeash

Witajcie. Wczoraj miała miejsce premiera wersji drugiej naszego polskiego modelu językowego – Bielika, który jest owocem współpracy pomiędzy fundacją open science SpeakLeash a Akademickim Centrum Komputerowym  “Cyfronet” AGH.

Jak była historia Bielika? Skąd się wziął? I czym może stać się w przyszłości – o tym właśnie będziemy dzisiaj rozmawiać z Sebastianem Kondrackim, który  – chyba mogę użyć tego stwierdzenia – jest człowiekiem od którego to wszystko się zaczęło. 

Zatem – czym są lokalne modele językowe? Jak się je buduje? O tym właśnie posłuchacie w tym odcinku. A całemu Zespołowi SpeakLesha pracującemu nad modelem, jego promocją, komunikacją, edukacją rynku – przesyłam niskie ukłony, gratulacje i życzenia dalszych sukcesów!

Niech #AI będzie z nami wszystkimi.

Dobrego dnia! Posłuchaj podcastu i podziel się nim z innymi!

Tradycyjnie wielka prośba – jeżeli jeszcze nie wystawiłaś lub nie wystawiłeś oceny 99 Twarzom AI na Spotify lub Apple podcast – pomóż mi proszę z dotarciem do nowych słuchaczy. To zabierze Ci tylko 2 minuty.  Z góry serdeczne dzięki!

Dobrego dnia i niech #AI będzie z Wami wszystkimi!

Notatki

Informacje o Bieliku znajdziesz TUTAJ.

Transkrypcja rozmowy

Disclaimer. Droga Czytelniczko, Drogi Czytelniku – mała uwaga dotycząca transkrypcji rozmowy. Jak się pewnie domyślasz – transkrypcja została przygotowana z wykorzystaniem magii LLM. Proszę o wyrozumiałość, gdyby pojawiły się w niej niewielkie błędy, literówki, etc. Żeby mieć pewność co do wszystkich wypowiedzi – polecam posłuchać, zamiast czytać. Ukłony.


Karol Stryja: Sebastianie, witam Cię serdecznie. Mega się cieszę, że mogliśmy się spotkać. Będziemy mogli porozmawiać o czymś, co myślę grzeje naszą polską scenę AI-ową w Bieliku, o SpeakLeash’u.


Sebastian Kondracki:  Witam serdecznie. No mam nadzieję, że jakoś porozmawiają. Ciekawe. Super.


Karol: Zacznijmy od tego, kim jesteś w ogóle, co robisz, skąd się wziąłeś na tej scenie AI-owej w Polsce.


Sebastian:  Imię i nazwisko już jest znane, ale jeszcze raz powtórzę, Sebastian Kondracki. Po pierwsze, ja mam bardzo mocny background programistyczny. Już nie chciałbym teraz liczyć, ale myślę, że powyżej 25 lat doświadczenia.


Więc rzeczywiście zaczynamy od programowania. ale głównie gdzieś obracałem się na tych początkach mojej kariery w systemach związanych z komunikacją i to bardzo często z komunikacją tekstową, więc jakby to oczywiste było, że gdzieś przetwarzanie języka naturalnego bardzo dawno temu zaczęło być takim moim największym właśnie skupieniem, fokusem. No a już od tego przetwarzania języka naturalnego, nawet jeśli na początku to było tylko i wyłącznie za pomocą regexów, No gdzieś zaczyna się ta sztuczna inteligencja pojawiać. No i tak z tą sztuczną inteligencją, przetwarzaniem języka naturalnego, gdzieś w tych klasycznych modelach sobie realizowaliśmy różne projekty. W firmie Deviniti, gdzie jestem między innymi teraz Chief Innovation Officerem, czyli nie tylko sztuczna inteligencja, ale też innowacje. W pewnym momencie rzeczywiście ta komunikacja, ale też ogólnie przetwarzanie dużych wolumenów danych, więc pojawił się jeszcze jeden taki bym powiedział wątek, czyli e-commerce, bo tam jest bardzo dużo komunikacji i tam jest bardzo dużo danych. Więc te dwie rzeczy też gdzieś się połączyły. W pewnym momencie napisałem też książkę, będąc tym doświadczeniem moich wielu lat pracy w tych sztucznej inteligencji i jestem autorem książki AI Python w e-commerce.


Karol: Co byś powiedział, żebyśmy ogarnęli te dwa egzemplarze dla naszych słuchaczy.


Sebastian:  Nie ma problemu jak najbardziej. Natomiast tam w tej książce i w ogóle jest jeszcze klasyczny machine learning bardzo mocno, ale już takie elementy są generatywne, bo już pojawiły się wtedy technologie związane z właśnie transformerami. No ale jak rzeczywiście byłem w tym przetwarzaniu języka naturalnego dość mocno, no i zaczęły się pojawiać pierwsze właśnie modele. Czyli to, który był rok. Teraz mnie zabiłeś, ale jeśli dobrze pamiętam, to Transformer się w 2017 chyba pojawił. To gdzieś w tych latach to było.


Karol: Słuchaj, jak słyszę NLP i NLU, to aż dziwię się, że nie było cię przy Ivonie.


Sebastian:  Ivonie to znaczy pierwszym procesorze tekstu, to znaczy tekstu speech, tak.


Karol: Tak, to jest Ivona Gdańska, potem zakupiona przez Amazona i na jej bazie stworzona Alexa.


Sebastian:  Nie, nie, nie byłem przy Iwonie, jestem z Wrocławia w ogóle, to znaczy teraz już od trzech lat w Warszawie, ale…


Piękne miasto, również pochodzę z tego pięknego Dolnego Śląska. Ale Iwona miała konkurencję w postaci, już teraz nie pamiętam nawet tego produktu, ale też nie w tym produkcie nie uczestniczyłem, ale to też była bardzo, bardzo prężna spółka wrocławska związana właśnie z mową i sztuczną inteligencją. Więc kiedy właśnie pojawiły się duże modele językowe, to jakby naturalnie zająłem się tym tematem. Początkowo oczywiście były pierwsze kroki trenowania, to było jeszcze na architekturze BERT, ale przede wszystkim zacząłem dość mocno używać dużych modeli językowych i tu właśnie pojawiły się pewne problemy, ponieważ nasza firma głównie zajmuje się dużymi systemami i korporacjami, głównie w regulacjach, to znaczy są to najczęściej banki na przykład duże albo ubezpieczalnie, w którym gdzieś ta istotność danych jest bardzo ważna. Rozumiesz, tajemnica bankowa, więc tutaj te, powiedziałbym, pierwsze kroki z dużymi modelami językowymi, które były tylko dostępne poprzez API, bo wtedy to były właśnie pierwsze, pierwsze gdzieś Premier OpenAI, no spowodowało, że zaczęło mi bardzo kiełkować właśnie myśl, żeby właśnie te duże modele językowe móc uruchamiać na własnej infrastrukturze, bez chmury. No i zaczęły być problemy, bo gdzieś szukałem właśnie tego dojścia do jakichś polskich modeli. Było to wtedy jeszcze, pamiętajmy, To nie był listopad 2022. Nie było tutaj czasu jeszcze LAM, Falconów, Mistrali, które mają mało, bo mało, ale jednak języka polskiego i można je uruchomić na własnej infrastrukturze. No i w 2022 właśnie gdzieś postanowiłem ze znajomymi zbudować taki właśnie projekt SpeakLeash i zająć się tymi dużymi modelami, można powiedzieć, na poważnie.


Karol: Zanim o tym opowiemy, wiesz co, jak patrzę i pytam ludzi, o czym chcieliby słuchać w 99 twarzach, to mam pewien rozdźwięk. Jak pytam zamknięte środowisko, czyli sieć LinkedIn, o czym chciałby LinkedIn słuchać, LinkedIn mówi wdrożenia, wdrożenia, case studies itd. Jak patrzę, jakie są najpopularniejsze odcinki, to są to odcinki, gdzie tłumaczymy skomplikowane rzeczy w prosty sposób. to zdefiniujmy i może opowiedzmy historię LLM-ów, dużych modeli językowych. Czym tak naprawdę Sebastian są. W jaki sposób funkcjonują. Jak są budowane. Co leży u ich podstaw.


Sebastian:  Prostym językiem, tak.


Karol: Właśnie o to chodzi. Ja się też odwołuję do tego cytatu z Einsteina. Jeżeli rozumiesz coś i potrafisz to wytłumaczyć sześciolatkowi, to znaczy, że rzeczywiście to rozumiesz.


Sebastian:  Od razu powiem, że SpeakLeash, pewnie będziemy wiele razy jeszcze powtarzać o tej społeczności, ma teraz tysiąc osób, ponad tysiąc osób i są osoby naprawdę, które potrafią rozmawiać fantastycznie z tych bardzo trudnych, matematycznych definicji architektur, przejść właśnie na taki bardzo prosty język. i nie jestem nawet teraz tutaj próby zabrać im tego monopolu. Myślę tutaj bardzo mocno o Remku. Remek, pozdrawiamy cię serdecznie. Tak, więc ja postaram się bardziej właśnie w takim biznesowym definicji dużych modeli językowych.


Karol: Planujemy też rozmowę z Remkiem, także będzie jeszcze okazja, żeby zrobić dig deeper.


Sebastian:  Dokładnie, nie chciałem właśnie zdradzać, nie wiedziałem jaka jest polityka co do następnych odcinków tutaj twoich, ale dokładnie o tym mówię. Więc dla mnie duże modele językowe, ja też pamiętajcie, ja pracuję w biznesie, to znaczy w społeczności SpeakLeash zaczęliśmy uruchamiać dużo projektów nie biznesowych i wykorzystania modeli, ale wcześniej, kiedy zakładałem SpeakLeash, to jednak myślałem cały czas w tej perspektywie biznesowej. I dla mnie duże modele językowe to jest taki symulacja model studenta, bardziej absolwenta, który skończył wszystkie wydziały, wszystkie kierunki wyższych studiów na świecie, ma fotograficzną pamięć, więc potrafi książkę przeczytać i ją po prostu na pamięć zapamiętać, zacytować i tak dalej, ale nie przepracował w biznesie ani jednego dnia.


Karol: Świetne porównanie.


Sebastian:  Dokładnie. I wtedy nawet jeśli ta organizacja decyduje się, taki duży model językowy, czyli tego studenta, absolwenta już sobie wyjaśniliśmy, z fotograficzną pamięcią przyjąć właśnie w swoją organizację, to jednak mimo tego całego jego pięknych osiągnięć związanych właśnie z tymi studiami, fotograficzną pamięcią, to jednak on musi przejść pewną praktykę. Być może czasami trzeba go, tu może myślę, że HR-owo to będzie zła definicja, dostroić do organizacji i to właśnie są duże modele, czyli bierzemy, one są wytrenowane na wiedzy ogólnej, w ogóle tak naprawdę o wszystkim, ale jednak tej wiedzy praktycznej nie mamy. Rzeczywiście osadzamy w organizacji, możemy je dostroić na wewnętrznych na przykład dokumentach i wtedy już coraz lepiej będzie ten styl tutaj realizować naszej organizacji na przykład przy generowaniu pewnych treści. Więc to jest dla mnie duży model językowy, ale też dalej, nawet jeśli dostroimy, to nie oznacza, że on już zacznie znamieć, jak my musimy go poznać, tak jak się pracuje. Po to jest właśnie bardzo często okres, okres ten pierwszy pracownika, ten kiedy mamy trzy miesiące i się sprawdzamy i poznajemy się. I tak samo z dużymi modelemi językowymi. Bardzo często organizacja musi się dostosować do dużego modelu językowego, musi go poznać, musi wiedzieć na jakich zadaniach, z jakimi zadaniami on sobie bardzo dobrze radzi i następnie z każdym dniem troszeczkę te procesy ulepszać i wtedy z niego jest największa korzyść biznesowa. To jest dla mnie duży model językowy. I tutaj ja powiedziałem o tym dostosowaniu, to jest właśnie dostrajanie, gdzie my możemy na różnych tekstach sobie tutaj go jeszcze ulepszyć, więc on od razu ma wbudowaną tą wiedzę, w różnych językach może rozmawiać, więc myślę, że to jest dla mnie duży model językowy.


Karol: No dobrze, ale okazuje się, że korzystamy z modeli, wydaje nam się, skoro rozmawiamy z nimi po polsku, że będą wiedziały wszystko o polskiej historii, będą miały ten charakter taki nasz lokalny, a okazuje się tutaj, że ilość danych, którymi karmione są te modele jest zaskakująco mała, jeżeli chodzi o właśnie nasz polski język i polskie dane. Dokładnie, tu też nie będę zabierał teraz Remkowi, który powie nam w ogóle… Wiesz, tu chodzi o to, żebyśmy zarysowali w ogóle ten cały obraz, potem z Remkiem wejdziemy w detale.


Sebastian:  Tak, ale znów będę jakąś analogię do życia nam powiedzieć, bo dla mnie duże modele językowe, które są trenowane głównie na treściach angielskojęzycznych, a ten procent nieangielskojęzycznych jest dużo, dużo mniejszy.


Karol: Dobrze pamiętam, 0,7%.


Sebastian:  0,07% albo 9% teraz pierwsza lama miała języka polskiego, a bardziej właśnie taki był procent zbiorów trenujących w języku polskim w stosunku do całego zbioru. Rzeczywiście to są bardzo małe. Duże modele przez swoją budowę i że wewnętrznie pracują na tokenach powoduje, że trochę są takie właśnie językowo-agnostyczne, czyli potrafią mówić i ten język polski wydaje się perfekcyjny nawet. Natomiast nawet te modele duże, bym powiedział, jak liderzy, łącznie z GPT-4 Omni, okazuje się, że one mówią bardzo dobrze w języku polskim, ale ja znów przez tą analogię. Dla mnie to jest Amerykanin, który urodził się i wychował w Ameryce, ale perfekcyjnie zna język polski. I tu I tu są takie niuanse, kiedy ja widzę, że właśnie tak naprawdę ten model, mimo że zna bardzo dużo języka polskiego, bo to jest 0,0%, to jak sobie weźmiemy na całą liczbę tekstów, to się okaże, że kilkanaście tomów ogromnych książek gdzieś tam w procesie trenowania był.


Karol: Mówi dobrze po polsku, a idzie na lotnisko, a gość na ochronie i tak mówi, że hello sir.


Sebastian:  Tak, to jest z jednej strony, ale z drugiej strony, jak poprosisz na przykład takiego właśnie duży model językowy, czyli tego Amerykanina, który perfekcyjnie mówi w języku polskim, ale całe życie mieszkał w Ameryce, kiedy mówisz na przykład mu wygeneruj mi dialog dwóch emerytów, polskich emerytów, to on to wygeneruje w perfekcyjnym języku polskim, może nawet w takim prostym języku, no bo emeryci, ale jednak powie tam Hej, kolego, jak się masz. A ten drugi emeryt powie, wspaniale, a ty. Dokładnie, więc to będzie perfekcyjny język polski, ale żaden emeryt tak, emeryci się w Polsce nie spotkają. Najczęściej jest, co tam u ciebie słychać. Stara bida, tak.


Karol: Czyli zobacz, okazuje się, że te kwestie kulturowe są niezwykle ważne, jeżeli chodzi o porównanie tych modeli dużych, zagranicznych, a modeli lokalnych, prawda.


Sebastian:  Tak. Dokładnie. Ja nie jestem też z zawodu lingwistą. Myślę, że tutaj w którejś części warto by było zaprosić kogoś ze SpeakLeasha właśnie z tym obszarem, zwłaszcza jeszcze naukowym, ale też jak przyjrzymy się tym tekstom w języku polskim, to zauważysz, że troszeczkę ta konstrukcja jest bardziej taka angielska niż polska. Zauważysz, że nieraz wyrazy są takie, które w językach angielskich są częstsze.


U nas nie są błędem, tylko trzeba się mocno skupić, żeby to zauważyć. Ja na przykład rozpoznaję, kto używa duży model językowy, choćby właśnie do generowania jakichś komentarzy, newsów na stronę, kiedy są wśród tytuły albo tytuły. Jednak w języku polskim mówimy tytuł czy wśród tytuł realizujemy, nie wiem, To jest wielki przewodnik po dużych modelach językowych i to pierwsza litera rzeczywiście jest duża, natomiast reszta jest już z małej, zgodnie z jakby to było normalne zdanie. W językach angielskich to w tytule każdy wyraz jest z dużej. I nagle ja widzę, kto generował model. Ja nieraz sam, bo sobie rzeczywiście koryguję, czy stylizuję swoje notki, które nieraz umieszczam w socialach i rzeczywiście muszę sobie nieraz tam lekko… Ale plot lepiej sobie radzi z tym niż GPT. Tak, to też zależy od modeli, coraz lepiej sobie radzą, oczywiście można sobie prompt systemowy gdzieś tam zmienić, można sobie w prompcie w ogóle, tak, można z tym walczyć, ale trzeba o tym wiedzieć i jak zobaczymy sobie do polskiego internetu, jeszcze wiele osób nie wie. Więc czym będą bardziej… modele popularne i osoby nie mają tej wiedzy, czy o promptowaniu, nawet nie wiem, jak to po polsku powiedzieć, czy też generowaniu instrukcji do dużych modeli językowych, czy właśnie użyją modelu jakiegoś troszeczkę mniejszego, tańszego, a nie pierwszego lidera z pierwszej półki, to nagle się okaże, że właśnie nagle nasz język, nasze otoczenie może mieć dużo takich tekstów, które które jednak mają jakieś wady i nagle zaczniemy te tytuły używać tak jak na przykład anglosasi, a nie jak Polacy.


Karol: A zapytam w drugą stronę, czy duży moduł językowy oparty o zagraniczne dane tak samo gorzej rozumie prompty wpisywane w języku polskim, lokalnym. Z tymi niuansami takimi, wiesz, jeżeli chodzi właśnie o kulturę, o sposób mówienia.


Sebastian:  Na pewno gdzieś przewija się, ale nie mam literatury ani żadnych badań, przewija się, że jednak w ogóle promptowanie w języku angielskim jest skuteczniejsze. Nawet jak podajemy kontekst polski albo prosimy o wynik w języku polskim, to jednak, żeby prompty były po angielsku i widać, że te modele lepiej się… lepiej się zachowują. Więc to też jest jakiś element. Więc myślę, że to jest ważne też właśnie, żeby walczyć o ten polski model.


Karol: Słyszałeś o tym, że w Stanach zatrudnia się jako prompterów poetów. A tego nie słyszałem, nie. Zobacz, duży zasób słów, umiejętność formułowania wyobrażenia i oczekiwania. w zwerbalizowany sposób.


Sebastian:  Ja w ogóle tak bardziej zajmuję się modelami tekstowymi właśnie we wdrażaniu, już mówię, takim biznesowym, ale myślę, że to, co mówisz, to w ogóle w promptowaniu graficznym to mam bardzo chyba mocne właśnie, kiedy takie opisowe przymiotniki właśnie albo w generowaniu potraw na przykład, żeby.


Karol: Żeby gdzieś w tym zdjęciu było… To jest niezwykle ważne, to domain-specific knowledge. Potem umiejętność zwerbalizowania tego i przełożenia na ten język. Dlatego się śmieję zawsze, że wiesz, no zobacz, póki co interfejsem na razie jest klawiatura. Ja cały czas z moją miłością Conversational AI twierdzę i wierzę w to, że coraz bardziej popularnym będzie interfejs głosowy. No a potem Neuralink.


Sebastian:  Dokładnie. Po pierwsze, klawiatura jest takim czymś tak sztucznym, bo to żaden zmysł nasz.


Karol: Słuchaj, ja nawet sprawdziłem, ile lat ma klawiatura, wynalazek klawiatury. Nie mówię oczywiście o klawiaturze komputerowej, ale klawiatura ma ponad 150 lat.


Sebastian:  No tak, maszyny do pisania były, ale rzeczywiście ona jest taka bardzo sztuczna, bardzo powolna i jak w każdej komunikacji, to tą klawiaturę najdłużej trzeba było się nauczyć. I tak tutaj możemy skasować znak, a w maszynie nie mogliśmy i to trzeba było dążyć do tej perfekcji, ale rzeczywiście gdzieś jest to sztuczne, jest ta bariera, więc ja też tutaj kibicuję, żeby pozbyć się tej klawiatury, zwłaszcza jak jestem na jakichś zakupach i mam bardzo dużo wolnego czasu i niekoniecznie ten proces mi się podoba i myślę tak, żeby właśnie mieć takie połączenie, żeby sobie spokojnie albo programować, albo coś sobie realizować takiego twórczego, no ale nie będę wyciągał właśnie klawiatury w kolejce i stąd myślę też te smartfony, które zmniejszyły trochę tą klawiaturę, ale tak, jeszcze pokolenie Z tu dochodzi, które już całkowicie nie lubi klawiatury i rzeczywiście ten interfejs głosowy dla niego jest bardzo, bardzo ważny.


Karol: No dobrze, czyli pojawia się myśl, stwórzmy model lokalny, polski, językowy. I od czego zaczynasz.


Sebastian:  Zanim w ogóle pojawiła się ta myśl, nie wiem, czy będę mógł cytować, to znaczy mówić o konkurencji twojej, ponieważ w ogóle pierwsza myśl o dużym modelu językowym pojawiło się w podcaście nieliniowym. Pozdrawiamy serdecznie. Dokładnie.


Karol: Właśnie wiesz co, rozmawialiśmy nawet ostatnio. Najlepsze jest to, że my nie traktujemy siebie jako konkurencji, bo mamy, zauważ, zupełnie inny cel. Nasze rozmowy są zupełnie inne, tam są dużo bardziej technologiczne, sfokusowane właśnie na ten aspekt technologiczny. A ja staram się rozmawiać o rzeczach skomplikowanych możliwie prostym językiem.


Sebastian:  No ale chciałem.


Znów nie znam tej polityki, jaka jest. Ale rzeczywiście to był okres, to był gdzieś okolice sierpnia 2022. Michał Dulemba.


Pozdrawiamy serdecznie. Ja byłem w trakcie promocji książki, chociaż to nie była jakaś kryptoreklamowa podcast, tylko rozmawialiśmy o innowacjach, rozmawialiśmy właśnie o sztucznej inteligencji. I wtedy to było gdzieś tydzień po premierze, jak nagrywaliśmy, bo premiera to rzeczywiście coś innego, ale to było tydzień po premierze Blooma, czyli taki europejski model. który miał być odpowiedzią na modele OpenAI. Nie będziemy mówić teraz o jakości tego modelu. I on się pojawił, on miał bardzo dużo języków europejskich, też miał bardzo dużo języków spoza Europy, ale nie miał języka polskiego. Nie miał też wtedy języka włoskiego, niemieckiego. jak dobrze pamiętam. Więc taka była dziwna sytuacja, że europejski projekt, to Francuzi bardzo mocno ten projekt, zresztą tam u nich się narodził, mocno był w ten projekt Hugging Face zaangażowany i biznes i też właśnie ośrodki naukowe francuskie. I właśnie Michał wtedy rzucił, mówi, wiesz Sebastian, tydzień temu była premiera Bluma, może, bo on nie ma języka polskiego, coś zrobił, żeby Blum miał język polski.


Karol: Popatrz, do jakich dobrych rzeczy potrafi prowadzić rozmowa podcastowa.


Sebastian:  Nie był to na żywo rozmowa, więc mogłem coś powiedzieć, a mógł Michał to wyciąć, no ale wiesz, powiedziałem, postaram się, zresztą ja czasami wracam, może nie czasami, że co tydzień, ale tam kilkakrotnie tam chciałem sobie przypomnieć, jak to było właśnie z tym właśnie Blumem i Bielikiem, ale ja bardzo niepewnie powiedziałem, postaram się, mimo że jestem urodzonym optymistą. No ale nagraliśmy, ten podcast się pojawił, no i dobra, trzeba się zająć tym Bloomem i sprawdzić. Tak jak powiedziałem, Hugging Face mocno był w niego zaangażowany, więc zacząłem pisać do Hugging Face’a. Ale dostawałem odpowiedzi najczęściej z okolicy działu sprzedaży, klientów, więc mówili mi tam pięknie, że spokojnie skontaktują, myślą o języku polskim, ale jakby… Nic szczególnego tam nie otrzymałem. No i wtedy postanowiłem szukać właśnie w internecie jakichś kontaktów, ale zrobiłem troszeczkę inaczej, to znaczy, bo jak pisałem do na przykład dyrektorów albo jakichś tam szefów zespołu związanymi właśnie za, nie wiem, właśnie jakieś języki inne niż francuskie czy jakiegoś zespołu danych, no to nikt nie chciał odpowiadać, no wiadomo, człowiek z ulicy, z Polski tam pyta jakieś rzeczy. Więc rozpocząłem wędrówkę od dołu, czyli szukałem w internecie stażystów, którzy pracowali w Blumie, do nich pisałem i kiedy zaczynałem, o widziałem, że pracowałeś w Blumie, więc chciałbym o tym porozmawiać i tutaj było lepiej, bo rzeczywiście ta komunikacja, była tam odpowiedź od razu, tak, pracowałem, a w czym mogę pomóc, więc mówiłem, jaki jest problem i prosiłem, czy mógłbym mnie wyżej gdzieś skontaktować z kierownikiem.


I tak sobie Krok po kroku podążałem tą ścieżką i w pewnym momencie… Tylko jesteś optymistą, ale też strategiem chyba. Nie wiem, czy jestem strategiem. Jestem bardzo uparty i to chyba jest bardziej, że jak mnie wyrzucą, to próbuję jakoś inaczej, ale może to i ta strategia jest. No dobrze.


No i tak… Dotarłem do osoby, która zajmowała się w Blumie kwestią wrażliwości danych i w ogóle już nie było wtedy regulacji żadnych, ale właśnie tak, żeby już te dane były przygotowane, żeby nie było tam jakichś danych osobowych w zbiorze trenującym, żeby tutaj było zabezpieczenie też przed jakimś właśnie łamaniem prawa i tak dalej, i tak dalej. I on powiedział, że po pierwsze mnie skontaktuje już z osobami z Hugging Face’a, którzy tam zajmowali się Bloom’ą i są, już bym powiedział, C-level. I z drugiej strony mnie skontaktuje, bo też był zaangażowany w takim open science’owym, czyli takim otwartym projekcie Elitera AI, która wtedy stworzyła GPT-NeoX’a, GPT-J. On GPT-NeoX miał 20 miliardów parametrów, tylko i wyłącznie język angielski tutaj. No i to był wtedy jedyny model otwarty, duży model językowy na Transformerze oczywiście, na architekturze Transformer, który właśnie był otwarty. I skontaktował mnie z szefową tego projektu.


Karol: Wyjaśnijmy tylko słuchaczom, jaka jest różnica między modelem otwartym a zamkniętym.


Sebastian:  Definicja w ogóle, co to jest model otwarty, to tak naprawdę w pełni otwarty to powinien być całe źródło danych, całe zestawy danych, na których był trenowany.


Powinien być za darmo możliwość pobrania wszystkich jego wag i uruchomienia na swojej infrastrukturze. i powinien być też źródła na przykład związane z samymi skryptami, na których był trenowany. Czyli można by było odtworzyć, tak, można by było cały trening odtworzyć na sobie. Różnie to jest, teraz na przykład Lama 3.1 jest też nazywana otwartym modelem, ale bardziej chodzi, że możemy sobie pobrać wagi, je sobie uruchomić u siebie, dostroić i tak dalej, i tak dalej. Więc ten GPT-NeoX był taki bardziej otwarty, bo właśnie zbudowany na takim zestawie Depile, który właśnie można było sobie pobrać.


Może nie tak jak teraz, bo teraz wszystkie zestawy danych są na Hugging Face i one są naprawdę otwarte. a tam trzeba było się trochę pogrzebać, dostać od kogoś jakiś dostęp do FTP-a, bez hasła, ale jednak trzeba było mieć jakieś dane do połączenia. I już tu dostałem taką ofertę, to znaczy tak, Hugging Face Odpowiedział, że projekt Big Science, który był opiekunem tego Bluma, jest zamknięty, oni tylko trenują specjalizowane modele, choćby na przykład medyczne i kończą całkowicie projekt, bo pod to był grant, grant się skończył, więc jeśli będzie kontynuowany, to mnie zaproszą. Oczywiście mogłem sam sobie w pewien sposób dostroić Bluma, ale tutaj wychodziło właśnie i GPU, i zestawy danych, no to już było bardzo trudne. Z Elitery było lepiej, ponieważ oni odpowiedzieli, że chcieliby wytrenować na GPT-NeoX coś nieangielskiego. Jeśli ja się zgłosiłem, to chętnie na przykład język polski albo już w ogóle słowiańskie by mogli ze mną stworzyć taki model. Przy czym, może nie dali warunek, ale gdzieś, że ma to sens i wtedy by mogli dać nam GPU do tego, jeśli byśmy właśnie zewidencjonowali, pozbierali gdzieś minimum jeden terabajt danych. No i to już była oferta. To już była oferta.


Karol: No i wtedy… Ale to była oferta udostępnienia infrastruktury przy założeniu, że ty dajesz pracę dane… Tak, tak, tak.


Sebastian:  Wiedzy przede wszystkim. GPU było tak, nie miałem nic, ani umowy, ale GPU się, jak nazbieracie jeden tera, to my się spokojnie od sponsorów załatwimy GPU. To też nie było, że te GPU tak czekało, a ja miałem taką umowę, że wystarczy… Ale ta wiedza, od razu nam przekazali różne rzeczy właśnie, jakie to mają być dane, że jak najlepiej zróżnicowane. No tu dużo było właśnie takich też jakichś wskazówek. No i przede wszystkim pokazali strukturę tych ich własnych zestawów danych, jak oni to realizowali. Ja jeszcze wcześniej w tym Bloomie też bardzo dużo, jak spinałem się komunikacyjnie i szukałem, to ja też tam rozmawiałem, jak oni pracują, więc też dostałem dużo dostępów do narzędzi, które były też open, otwarte. Oni tam właśnie ten zestaw danych budowali na takim decatalogu, nie wiem, to po francusku się jakoś wymawia, czyli katalog taki, więc zbudowali najpierw wszystkie ewidencje zrobili, gdzie są jakie teksty, w którym kraju, do kogo należą te prawa, czyli zbudowali takie właśnie repozytorium samej właśnie metadanych związanych ze stawami danych, a następnie zbudowali dopiero dataset i pobrali. Depile był podobnie, ale on miał bardzo, nie było żadnych danych, właśnie metadanych, one były gdzieś poukrywane w folderach i innych rzeczach, więc taki trochę bałaganik był mały. Więc myśmy postanowili, że jak już dostaliśmy tą ofertę budowania zestawu danych 1Tera i będziemy sobie teraz sprawdzać, ile mamy tych polskich danych od Wikipedii po różne właśnie wolne lektury, projekty Gutenberg i nie wiem, jakieś dyskursy parlamentarne, ustawy i tak dalej, to jednak Od początku postanowiliśmy, że zrobimy jednak bliżej Big Science i Bloom, że bardzo mocno będziemy tworzyć do każdego zestawu danych manifesty. I w tych manifestach sobie umieścimy wszystkie metadane, do kogo dotyczy, jaka jest licencja tego zbioru, jaka jest wolumetria manifesty.


Karol: Czyli udokumentujesz cały proces budowy modelu, tak żeby nie było wątpliwości skąd pochodzą dane, do kogo należały i jakie jest źródło.


Sebastian:  Tak. Następną rzeczą, co mi się bardzo nie podobało w tych dwóch projektach, że one jednak właśnie były albo porozrzucane na różnych FTP-ach, bo GitHub nie umożliwia takiej ogromnej, że tak powiem, repozyt… Teraz już są różne tam podprojekty w GitHubie, gdzie można duże ilości danych czy w Hugging Face’ie przechowywać. Wtedy to było tak bardzo, bym powiedział, że na GitHubie były pewne skrypty, które pobierały z różnych rozproszonych zestawów danych, a my postanowiliśmy, że jakby… No jednak w większości przypadków gdzieś wszyscy data scientisti pracują jednak na gotowych pakietach Pythonowych i stwierdziliśmy, że stworzymy do tego pakiet. Czyli żeby w dziesięciu linijkach móc pobrać sobie całą Wikipedię I jeszcze to, co ty mówisz, sprawdzić jej prawa i zastanowić się, że na przykład jeśli budujemy jakiś model, nie wiem, do użycia komercyjnego i tutaj to bierzemy tylko te, które są bardzo mocno, że tak powiem, jasne te prawa, więc taki pakiet stworzyliśmy i od początku bardzo mocno nad tymi metadanymi pilnowaliśmy. Później dołożyliśmy do tego, jak już zaczęliśmy trenować model, to za chwilę jeszcze różne klasyfikacje, żeby zobaczyć, co to jest za content, jaka jest jego jakość. I pod kątem różnym, językowym, bo na przykład uratowaliśmy od zaginięcia polski Usenet.


Nie wiem, czy pamiętasz coś takiego. Więc polski Usenet charakteryzował się tym, że wszyscy w internecie myśleli, że są anonimowi, więc wiele osób tam używało naprawdę toksycznego, toksycznej, że tak powiem, polszczyzny. Oprócz tego, no też wtedy to były czasy, gdzie nie używało się języka polskiego, bo było różne strony kodowe, więc wszyscy w polskawem mówili, więc… ale to są ogromne repozytory, tam chyba 20 GB tego Useneta jest i uratowaliśmy go, to znaczy nie trenowaliśmy na nim bielika, to zaraz powiem, bo jego jakość jest straszna, ale jeśli na przykład urodzi się jakiś projekt specjalizowanego modelu do wykrywania właśnie toksycznych treści, to to może być świetny model, nie wiem, do weryfikacji albo i nawet trenowania, więc w SpeakLeashu jest cała ewidencja. No i to był 5 sierpień 2020 roku, kiedy powstał właśnie SpeakLeash. 30 listopada, już ten pomysł powstał. 5 sierpnia to była właśnie ta premiera podcastu Michała Dulemby ze mną. później 30 listopada, później kiełkowały te pomysły, zacząłem się tam spotykać ze znajomymi, pojawiła się ta nazwa, żeby SpeakLeash używać, żeby, ponieważ kontaktowaliśmy się tylko z zagranicznymi ośrodkami naukowymi, można powiedzieć, albo firmami, więc stwierdziliśmy, że chcemy nazwać taką nazwę, która rzeczywiście będzie pokazywało to, co my robimy, czyli że zbieramy te ziarno, jakim jest słowo, przechowujemy je odpowiednio, klasyfikujemy, a później będziemy zamieniać to na jakiś duży model językowy, więc ta nazwa SpeakLeash nam się bardzo podobała.


Karol: Ja się uśmiecham, bo zawsze się śmieję, że siejmy ziarno sztucznej inteligencji i niech pada na żyzną glebę.


Sebastian:  No dokładnie jeszcze takie mogą być elementy, bo też chcieliśmy zbudować społeczność, czyli nie tylko właśnie budować różne narzędzia, czy zestawy danych, czy model, ale przede wszystkim budować społeczność osób, które zajmują się deep techem.


Teraz to rozszerzyliśmy bardzo, bo na początku to jednak byli technolodzy, teraz… w naszej społeczności jest naprawdę bardzo interdyscyplinarny przekrój i biznes i sektor publiczny i osoby, które bardziej używają dużych modeli językowych i osoby, które projektują lub wykorzystują. Ale SpeakLeash, ale stwierdziliśmy, że też będziemy się z zagranicą często komunikować, więc jak ci biedni obcokrajowcy mają wymawiać ten SpeakLeash, więc Też zapisaliśmy ją w takim speaklish, więc to tak fajnie brzmi, mam nadzieję.


30 listopada na konferencji Hiperautomatyzacja 6.0 profesora Sobczaka, którego też pozdrawiamy, właśnie była taka premiera z Pichlerza, więc minęło gdzieś 600 dni od Oficjalnej premiery, nie mówię pomysłu, że była już nazwa, 600 dni. No i tak zaczęliśmy w tej pierwszej zbierać dane, zbudowaliśmy ten pakiet, zbudowaliśmy dashboard do zestawu danych. Pamiętajmy, teraz może i łatwiej by było te zestawy dane na Hugging Face umieścić. Ale wtedy ten Hugging Face pod zestawy danych jeszcze takie masowe, bo mówiliśmy o 1 tera, nie było to takie oczywiste. Więc stworzyliśmy pakiet do dziś, ten pakiet jest i świetnie z niego się korzysta. Jak ja nieraz testuję jakieś duże modele językowe, albo w ogóle modele, to ja sobie chętnie ten pakiet, bo nie wiem, w 10 linii kodu mam całą Wigipedię i mogę sobie na przykład… uruchamiać różne testy na Wikipedii albo właśnie na Usenet, żeby np. wykrywać jakieś wrażliwe, toksyczne, ofensywne teksty, no to możemy sobie właśnie tą pakietem naszym wykorzystać. No i zbieraliśmy, zbieraliśmy te dane, zbieraliśmy w różny sposób.


Karol: Powiedzmy też może, wiesz, bo Tyleś mówi, zbieram dane, zbieram dane i tak dalej, a to jest temat tak samo bardzo szeroki, jeżeli chodzi o jakość danych, ich oznaczenie, pochodzenie, opis, to w jaki sposób są dostarczane i tak dalej.


Sebastian:  Tak, to po pierwsze wszelkie źródła, po pierwsze integrowaliśmy.


Karol: Gdybyśmy mogli w sposób obrazowy opowiedzieć właśnie o zbieraniu danych, bo mówimy tutaj o usenecie, o innych źródłach, spróbujmy dać kilka przykładów.


Sebastian:  No to jakbym powiedział, są trzy kategorie takich danych. Pierwsza kategoria to są dane, które są na otwartych licencjach. Dobrym przykładem jest Wikipedia, ale jest gdzieś w jakichś dumpach, takich plikach skompresowanych, ciężko z nimi pracować. Ale one są otwarte, można oczywiście z nich korzystać. Więc pierwsze co… to integrowaliśmy dane rozproszone w różnych formatach do jednego formatu, opisywaliśmy skąd one zostały pobrane, na jakiej są licencji, więc to jest ta pierwsza część danych. Druga część to są dane gdzieś zamknięte, więc.


Karol: Będące w repozytoriach, wydawcy.


Sebastian:  Tak, i nieraz kontaktowaliśmy się z różnymi wydawcami, bo wiedzieliśmy, że ktoś posiada jakiś fajny, dobry zestaw danych.


Nie wiem, z jakichś powodów nie jest on w ich modelu biznesowym, więc jest do korzystania. I na przykład wtedy dostawaliśmy taką paczkę, umieszczaliśmy i u nas ona była otwarta. No i ta część ostatnia, to jest część, ponieważ jest taki projekt Common Crawl, czyli taki ogólny backup wszystkich stron, jakby scrapping, który właśnie to Amazon nad nim opiekuje się i to jest takie ogromne repozytorium wszystkich danych, które może nie wszystkich, ale dużą część danych na stronach WW, ale on ma jedną wadę, bardzo ciężko po nim cokolwiek pobierać, to są ogromne przecież wolumetrie danych i to jest jeden problem, drugi, że on nie jest sklasyfikowany pod kątem językowym na przykład, czyli nie wiemy, bierzemy taką paczkę z marca i mamy wszystkie strony www z marca i teksty, które są w internecie, ale po prostu nie wiemy w jakim języku, bardzo często też one są bardzo zaszumione, te dane, jakimiś właśnie fragmentami, tekstami technicznymi. No i to jest ten, z takich właśnie repozytorów, bo to Common Crawl jest największe, ale takich repozytorów jest jeszcze kilka, więc tutaj pobieraliśmy takie dane, identyfikowaliśmy polskie dane, Sprawdzaliśmy, chociaż on, ten Common Crawl, akurat ten zestaw danych szanuje tam wszystkie robots TXT, czyli taki protokół, który pozwala robotom chodzić po stronach www i które dane zapisać.


Natomiast tu jest taka… My pobieramy te dane, umieszczamy w naszym repozytorium, ale dajemy badaczom i wszystkim osobom, nie tylko badaczom, firmom, że jeśli chcą korzystać z tych danych, jakby to jest taka licencja warunkowa, to znaczy robot z TXT pozwalał, ale jeśli chcesz skorzystać z tych danych, to powinieneś sprawdzić, czy czasem na stronie… Nie ma jakiegoś oddzielnego regulaminu, który zakazuje takie dane, więc my to nazywamy taką licencją warunkową. Więc to jest ta trzecia część, którą właśnie to jest bardzo ogromny wolumen tych danych, ale jednak tu… Podczas trenowania modelu trzeba takie dane sobie pobrać i na przykład sprawdzić, czy nie ma oddzielnego regulaminu, który mówi, że właśnie jest zakaz. I to jest ta najtrudniejsza część tych elementów. Chyba, że ktoś trenuje na przykład bardzo mocno na użytek własny, jakiś edukacyjny, albo jest to ośrodek naukowy, gdzie nie będzie publikował jakichś modeli i innych rzeczy, to myślę, że Oczywiście nie jestem prawnikiem, żeby to tak 100% powiedzieć, ale myślę, że można takich danych użyć. Ale u nas one są odpowiednio oznakowane i po stronie dostawcy albo bardziej osoby, która właśnie ćwiczy model jest właśnie sprawdzenie takich niuansów, bym powiedział, ale bardzo ważnych związanych prawnie. I to jest ta część właśnie naszego repozytorium danych.


Karol: I repozytorium danych składa się z plików tekstowych, które są de facto językiem pisanym.


Sebastian:  Tak, to są czyste teksty, jakby nie ma w nich żadnych znaczników albo innych rzeczy formatujących, po prostu czysty tekst. Czysty tekst, który jest właśnie u nas, oczywiście odpowiednio skompresowany, złączony, żeby tutaj sobie właśnie ułatwiać przy jakimś przenoszeniu i to są teraz 2,2 chyba terabajty danych, które mamy nazbierane, ale tam cały czas pozyskujemy takie dane.


Karol: Pamiętasz, kiedyś mieliśmy jedną rozmowę, interesowało mnie to, czy nie byłoby zasadne wykorzystać w modelu językowym danych będącymi transkrypcją języka mówionego, bo zobacz, że tak jak rozmawialiśmy na początku o interfejsach, rozmawiamy z modelem za pomocą klawiatury, ale coraz częściej używamy do komunikacji języka naturalnego. Czy to nie byłby dobry pomysł, żeby czerpać i również wykorzystywać te dane mówione.


Sebastian:  Tak, u nas też w SpeakLeashu są takie podprojekty, które realizują właśnie transkrypcje różnych rzeczy, natomiast tu też jest problem, że tego książek, artykułów jest ogromne ilości. a tej wolnej transkrypcji jest mało, bo jednak transkrypcja już, to znaczy już słowo mówione, to najczęściej są licencje, bo to są jakieś filmy, to są podcasty, to są rzeczy, gdzie już… Dokładnie takie projekty realizujemy, że jeśli gdzieś właśnie któryś podcaster albo gdzieś też jest bardzo dużo na przykład jakichś elementów związanych właśnie z komisjami śledczymi na przykład.


Karol: Słuchaj, co byś powiedział w ogóle, gdyby spróbować w jakiś sposób odezwać się do środowiska podcastowego, żeby wyraźli zgodę na wykorzystanie ich twórczości.


Sebastian:  Tak, to jest bardzo dobry pomysł. Tylko pamiętajmy też, że ilość tych danych kontra w ogóle inne to będzie tak znikomy, ale myślę, że warto się odezwać, bo to właśnie to, co my w SpeakLeashe robimy. My nie tyle też zbieramy rzeczy, które muszą być stricte wykorzystane do dużych modeli językowych. My po prostu… Też w naszej społeczności mogą powstawać jakieś mniejsze modele, co w ogóle trend rozwoju dużych modeli językowych idzie też w kierunku takim właśnie, że zaczynają się pojawiać modele małe czy mini nawet.


Karol: Tak samo jak bazy wektorowe, prawda.


Sebastian:  Dokładnie. Też właśnie te dane nie muszą być już do dostrajania czy do uczenia, trenowania modeli, ale właśnie wykorzystywane do jakichś baz wektorowych, żeby zrobić na przykład jakąś bardzo fajną wyszukiwarkę albo chatbota za pomocą jakby mądrości czy wiedzy zawartych w podcastach jakichś branżowych. Tak, to jest bardzo dobry pomysł.


Karol: To jest przykład startupu Piotra Bombola, adaily.com, który koncentruje się tylko i wyłącznie w analizie najlepszych kampanii marketingowych.


Sebastian:  Tak. No to u nas są projekty takie transkrypcyjne, tylko mówię, że w tym, jakby już mówię, jeśli chodzi o Bielika samego albo inne duże modele językowe, to jest ważny element, ale tutaj na pewno musiałaby być taka wolumetria ogromna, liczba takich podcastów. Ale jak już zaczniemy trenować, bo teraz Bielik jest w języku polskim, ale na przykład jakieś multijęzykowe i inne rzeczy, no to już tych podcastów światowych jest trochę, z których można czerpać.


Karol: Co dalej. Bo mamy decyzje, mamy dane, mamy infrastrukturę.


Sebastian:  A pytanie, co dalej w ogóle ze SpeakLeashem, czy jeszcze historia.


Karol: Nie, pytanie, jeżeli chodzi o historię, bo tak naprawdę, wiesz, dopiero zaczynamy.


Sebastian:  Tak. Jak na początku zaczęliśmy działać, to wiele takich od naszych członków, że tak powiem, SpeakLeasha było, Sebastian, co dalej. Bo jeszcze była ważna rzecz, że jak mieliśmy już taką nieformalną rozmowę właśnie z tą literą AI, umowę nawet, że jak my nazbieramy jeden terabajt danych… to oni nam właśnie załatwią infrastrukturę, powiedzą się z wiedzą, podzielą się wiedzą, to w międzyczasie zaczęły się pojawiać inne open modele i tutaj nie wiem, jaka teraz jest kolejność, ale chyba pierwsze było Lama, która tak namieszała, później pojawił się chyba Falcon, ale też nie wiem, jak on był bardzo open i Mistral, więc zaczęły się pojawiać modele i jakby Elitera zaczęła też… uruchamiać dużo innych też projektów, bo pamiętajmy, to nagle nie tylko LLM, bo to w pewnym momencie były takie duże modele językowe, ale zaczęły się pojawiać multimodale, zaczęły się pojawiać modele właśnie generujące grafikę, wideo i wszystko, więc Elitera się bardzo mocno rozdrobniła, też trochę widzę zmieniła swój profil i nagle Komunikacja między SpeakLeashem a Eliterą zaczęła być coraz taka mniej intensywna, no i zaczęły się właśnie pojawiać głosy, co dalej Sebastian. Ja cały czas wtedy mówiłem, najpierw masa, później rzeźba, czyli niezależnie czy z Eliterą zaczyna coś tam się dziać i oni się zaczynają rozpraszać, mamy nazbierać jeden terabajt danych. Jeśli elitera się wykruszy, to mając tą masę na pewno ktoś znajdzie się, który pomoże nam zrobić tą rzeźbę albo sam sobie zrobi tą rzeźbę.


Karol: A jakbyś miał zobrazować to, ile to jest jeden terabajt danych.


Sebastian:  To jest właśnie dobre pytanie, bo dużo osób, jak wymieniamy sobie dane, ja robię prezentację nieraz w PowerPoint, mam cztery slajdy na krzyż, ale oczywiście tu wrzuciłem jakiś obraz, coś tam i nagle chcę wysyłać, a on mi mówi, sorry, 50 mega, 50 mega zajęło mi. Tutaj pamiętajmy, że te dane są całkowicie bez grafiki, audio i tego wzbogacenia, bez formatowania, to Czysty tekst. Czysty tekst, więc naprawdę nie chciałbym podawać tutaj, kiedyś pamiętam na konferencji CLARIN, CLARIN to jest taki bardzo duży projekt europejski, ale w Polsce na Politechnice Wrocławskiej jest prowadzony właśnie zajmujący się przetwarzaniem tekstów, języka i w ogóle I teraz są głównym tutaj twórcą między innymi Pluma. Więc Clarin kiedyś na którejś konferencji podawał jednostkę Quo Vadisów, czyli dany zestaw to ile Quo Vadisów. I teraz jeśli dobrze pamiętam, to jeden Quo Vadis to było 21 megabajtów w ogóle.


Więc to naprawdę, jeśli byśmy sobie… nie chcę teraz liczyć, jeden tera policzyli przez te 21, to myślę, że tych tomów Quo Vadisów wyszło nam naprawdę sporo, więc to jeden tera jest naprawdę bardzo dużo. Wikipedia cała, Wikipedia cała, która ma jeden, chyba półtora miliona definicji, to jest kilka giga, więc tu ten jeden tera to jest naprawdę ogrom. Zresztą, jak GPT-3 był trenowany, To właśnie cała Wikipedia, to było 3% całego zestawu danych w Wikipedii angielskiej, więc to mówimy o naprawdę, ten 1 tera to jest dużo. No i tak ta cały czas masa, masa, masa i już zaczęliśmy się zbliżać. Ale zanim zaczęliśmy się zbliżać, jak zaczęliśmy tworzyć w ogóle SpeakLeash, to zauważyliśmy, bo było dużo inicjatyw, jak trenowały się w Polsce modele Berto. To było dużo inicjatyw, później trochę przycichło z Bertem, bo jednak ta, bym powiedział, GPT architektura okazało się, że rzeczywiście jest tutaj bardzo taka efektywna, można powiedzieć i nie wiem dlaczego, może z tych powodów jakoś przygasło i tak jak zakładaliśmy sobie spichlę, to stwierdziliśmy, że też chcemy jakby trochę odtworzyć tą społeczność tych osób wokół w ogóle modeli językowych, I dlatego też stwierdziliśmy, żeby tutaj nie przygasnąć, to powiedzieliśmy, że będziemy się starać trochę ten projekt jako projekt komercyjny traktować, czyli starać się promować wszędzie, gdzie możemy się promować. I właśnie zaczęliśmy też być na wszystkich konferencjach, jakie mogą być. Co nie było trudne, ponieważ mieliśmy tak bardzo, bym powiedział, bardzo mieliśmy ambitny plan. Już zaczęły się takie pierwsze pokazywać, że ten ambitny plan, mimo że jesteśmy na początku drogi, ale jednak idziemy krok po kroczku w tym kierunku. Więc jakby dostawaliśmy dużo wyjściówek jako prelegenci, Marcinie, wyjściówek, szansę jako prelegenci na różnych konferencjach. Mimo, że nie wszyscy z organizatorów wierzyli, że to wyjdzie. Profesor Sobczak z hiperautomatyzacji, jak mnie zapowiadał właśnie na tej konferencji, gdzie była premiera, mówi, że świetny projekt, ale w ogóle w niego nie wierzy, że wyjdzie. ale teraz niedawno byliśmy właśnie już Bielika prezentować na hiperautomatyzacji wersję drugą, więc rzeczywiście powiedział, że stało się inaczej. Więc byliśmy na wszystkich konferencjach, jakie mogą być branżowych i pokazywaliśmy SpeakLeash i dzięki temu po każdym pojawiało się 10-20 nowych członków na Discordzie, ale też jakąś markę wyrabialiśmy sobie. Więc też mieliśmy bardzo, i dalej mam nadzieję, mamy bardzo dobre relacje właśnie z konsorcjum Plum, bo większość ośrodków, które tam wchodzą, mimo że to są ośrodki naukowe, to jednak znaliśmy z konferencji, z różnych spotkań branżowych.


Karol: Wyjaśnijmy tylko, PLLuM de facto jest modelem konkurencyjnym dla Bielika.


Sebastian:  No tak, ale to jest tak, jak powiedziałeś przed chwilą o podcasterach związanych z AI. Troszeczkę po pierwsze, no tu nie ma, ja cały czas mówię, że jak wejdzie AI Act, oby tak nie było i rzeczywiście troszkę zablokuje też wejście innych modeli spoza Europy, też troszeczkę zwiększa tą jakby różne warunki, żeby być… dokładnie, który powiedział, że multimodale jednak ze względów na regulacje w Europie na przykład nie wpuści, to my potrzebujemy w tej Europie bardzo dużo modeli różnego rodzaju, więc ja myślę, że w Polsce jest miejsce na kilka, a jak jeszcze weźmiemy kilka modeli językowych, a jeśli wejdziemy jeszcze do tego specjalizacji, czyli że coraz mocniej Natomiast jednak patrzymy na ślad węglowy, jaki idzie za dużymi modelami językowymi i mówimy sobie, to może jednak robić specjalizowane, ale o mniejszych wymaganiach i ekologiczne, ale z drugiej strony nawet mądrzejsze.


w swojej domenie, to tych modeli w Polsce i w Europie powinno być setki. PLLuM nie jest konkurencją, jakbym powiedział, z tego powodu, że naprawdę potrzebujemy dużo tych modeli. I tutaj chyba nie ma tej złej konkurencji. Ale z drugiej strony uważam, że każda dobra konkurencja, jak my wypuszczamy duży model językowy, Bielika, to my bierzemy wszystkie inne i przepuszczamy przez różne testy, benchmarki i patrzymy jak jesteśmy tutaj.


Chociażby Arena właśnie. I to jest po to, żeby właśnie jeszcze bardziej podnosić i to jest jakaś konkurencja, ale bardzo zdrowa. No i tak jak już nazbieraliśmy, wracając do historii, 800 gigabajtów danych, czyli byliśmy blisko, to na swojej drodze spotkaliśmy cyfronet, który, no i to myślę, że szczęście, to znaczy z jednej strony, Spotkały się dwa bardzo, bym powiedział, takie ambitne, bardzo ambitne grupy osób. Cyfronet to jest fantastyczna w ogóle instytucja, nie wiem czy to instytucja, ale nazwijmy to instytucja na potrzeby tej rozmowy. Ale świetna grupa osób, naprawdę bardzo kompetentnych, bardzo merytorycznych naukowców, ale z drugiej strony takich właśnie z zacięciem, takim open, bym powiedział biznesowym, ale to też. No i poczuliśmy chemię, a właśnie oni wtedy budowali, a bardziej byli już w trakcie wygrzewania testów Heliosa, czyli superkomputer, ale z dużą ilością GPU. dedykowane dla świata naukowego, ale już do tych obliczeń AI-owych. No i tak stwierdziliśmy, no macie trochę danych, to może moglibyśmy wygrzewając tego Heliosa, bo on jeszcze nie był dopuszczony, że tak powiem,.


Karol: Wyjaśnijmy, właśnie mówiąc, wygrzewając, chodzi o pewien okres testowy.


Sebastian:  Tak, dokładnie.


Dotarcie. W samochodach to chyba jest takie dotarcie. Więc razem się spotkaliśmy i zaczęliśmy właśnie na nim trenować, próbować trenować duże modele językowe. No i tak to gdzieś w grudniu 2023, czyli rok po powstaniu, można po premierze, tutaj zaczęliśmy już myśleć o modelach językowych, ale pamiętajmy też, nawet jak był pomysł modeli językowych, To jeszcze powiem jedną rzecz właśnie, że bardzo dużo u nas inicjatyw powstaje właśnie na ludziach, którzy do nas dołączają.


Myśmy byli, jak zakładaliśmy SpeakLeash, to byliśmy mocno sfokusowani właśnie na dane, bo gdzieś ci pierwsi założyciele to byli właśnie automatycy, robotycy z dużych przedsiębiorstw, data scientisti, ale jeszcze nie tacy rasowi deeptechowcy, czyli zajmującymi się jakimiś właśnie takimi głębokimi sieciami neuronowymi właśnie. I pierwsze, co właśnie, to masę zaczęliśmy budować. Później dołączył do nas Krzysiek. Nie będę używał nazwisk, bo nie pytałem, nie wiem, czy… Ale myślę, że zaprosimy go, to opowie w ogóle całą historię. Krzysiek jest po prostu fantastyczną osobą, którą miał bardzo dużo… nawet sukcesów w takich konkursach Pol-Eval, czyli jak były właśnie modele jeszcze, no właśnie architekturze BERT, to właśnie wygrywał, dostrajał tam modele na różne zadania, takie typowe NLP. No i jak Krzysiek do nas dołączył, to po pierwsze, że już miał dużo właśnie doświadczenia w takim Nie wiem na ile polewal i konkursy taka liga właśnie można powiedzieć praktycznie, no ale miał bardzo duży zasób wiedzy o właśnie modelach, dostrajaniu ich, a przede wszystkim testowaniu, benchmarkach różnych modeli. No i właśnie Krzysiek narzucił nam taką pierwszą, dobrze, jeśli myślimy o modelu w ogóle, bo już zaczęliśmy myśleć, to pierwsze co, to robimy benchmarki polskie, robimy, bierzemy wszystkie modele, bo tylko wiedzieliśmy, że one na małej ilości tekstów są trenowane, ale nigdy nikt nie zrobił takich pełnych testów, jak one sobie będą radzić, właśnie z różnymi zadaniami, z rozbiorem zdania, z wygenerowaniem tekstu jakiegoś.


Karol: A ta weryfikacja jest niezbędna. Niezbędna. Żebyśmy stwierdzili, czy nasza praca ma sens.


Sebastian:  Tak, to zabił nasz romantyzm, ale wtedy właśnie z jego rąk ten leaderboard, czyli taki, wzięliśmy wszystkie Mistrale, Lamy, Open Chaty i inne modele, które były dostępne na rynku. Stworzył on zestaw zadań, korzystając z różnych zadań, które były wcześniej, czy z Paul Evala, czy taki był właśnie Benchmark Clay, który miał różne zadania, czasami to były też wiedzowe zadania, na przykład ileś tam odcinków jeden z dziesięciu, prawda, i on to wszystko zebrał z różnych testów wcześniejszych, też dołożył trochę od siebie różnych nowych testów i tak powstał ten pierwszy leaderboard i I wtedy mówi, teraz panowie możemy zacząć myśleć o budowaniu modelu, bo zaczęliśmy wiedzieć, gdzie jest ta granica, gdzie ten bielik może być lepszy, żeby się nie okazało. Że po prostu wytrenujemy sobie.


Karol: Właśnie miałem powiedzieć, że to jest chyba jedno słuszne podejście, tak samo jak w pracy z każdym klientem. Najpierw potrzeba i określenie celu na bazie tych potrzeb.


Sebastian:  Dokładnie. Później dołączy do nas Krzysiek, Kriso. Znów nie będę używał nazwiska, ale na pewno się pojawi też w programie. Który zaczął, już miał pierwszy model, chyba jego pierwszy model był na jakiejś architekturze Lama, jeśli dobrze pamiętam. Też zrobił framework, cały framework do trenowania modeli, trochę tam ulepszył wszystkie będące na… i jak już do nas dołączył, to miał na prywatnej karcie zbudowany model, który miał 500 milionów parametrów. Parametry one pokazują, ale nie tak siłę modelu, to trochę jak z pojemnością silnika. Czym więcej niby ta moc samochodu powinna być, ale wiemy o tym, że teraz dwa razy wtrysk, coś tam, coś tam, może się okazać, że ten Pojemność będzie mniejsza, moc większa. Ale te parametry trochę pokazują tę moc właśnie jak pojemność silnika. Więc 500 milionów parametrów pojawił się u nas i z naszym zestawem danych jeszcze bez GPU cyfronetu zbudował jednomiliardowy model.


I on… zaczął już generować teksty takie przypominające bardzo język polski. Już dało się to czytać. To trochę niepolityczny będzie, przepraszam naprawdę, ale nazywaliśmy go udarek, bo trochę mówił jak po udarze. Jeszcze raz przepraszam. To są problemy neurologiczne bardzo poważne i tragedie, ale… No tak mówił ten nasz generał o tekstach.


Karol: Ale zakładamy, że mamy dystans tutaj i wynika to z dystansu przede wszystkim z samych siebie.


Sebastian:  Tak, tak, to wszystko, ten leaderboard, już tego zaczęliśmy właśnie testować, ten nasz model APT3, Krzysiek tą nazwę, trzeba będzie Krzyśka wypytać, dlaczego APT3. No i wtedy pojawił się cyfronec z Heliosem, a przede wszystkim, Helios to jedno, ale cyfronec właśnie z tym fantastycznym zespołem. Tutaj Marek, Łukasz, Szymon właśnie, którzy właśnie tutaj poczuliśmy chemię tą. Mimo, że jesteśmy właśnie z odmiennych trochę światów, bo jednak SpeakLeash, chociaż już wtedy też miał już wiele osób ze świata nauki, oprócz biznesu. Więc z Cyfronetem zaczęliśmy współpracę, dostaliśmy grant i to też jest, że właśnie nagle, myślę, że duży sukces, że projekt Open Science, taki zbudowany przez wolontariuszy, ale już teraz fundacja nagle dostaje grant.


Karol: Właśnie miałem zapytać, sam SpeakLeash jest fundacją, tak.


Sebastian:  Tak, jest fundacją. Jest fundacją bardzo długotrwałą. Fundację tak długo rejestrowaliśmy, że naprawdę chyba krócej 1 TB danych nam zajęło niż zarejestrowanie fundacji, ale jesteśmy już fundacją.


Karol: Powiem Ci, jestem w trakcie likwidacji fundacji Voice Launch, w ramach której integrowaliśmy to community ludzi związanych z conversational AI na całym świecie i zdecydowanie dłużej trwa likwidacja niż tworzenie, bo trwa to chyba już półtora roku.


Sebastian:  Okej, to dobrze. To nam się udało w 8 miesięcy. No i tak, jesteśmy fundacją, przy czym cały czas jeszcze nie mamy nawet konta bankowego. To też pokazuje, że cały czas to zbudowaliśmy wszystko z pracą rąk i żadnym finansowaniem. Ale dostaliśmy grant i razem z Cyfronetem zaczęliśmy właśnie pracę nad Bielikiem.


Nad nauką o modelu. Tak, nad trenowaniem już modelu i w 2024 w kwietniu wylądował, czyli w tym roku, wylądował Bielik 1.0. Gratulacje. Tak, ale tak nam się wydawało, że ten Bielig jest mocny, ponieważ on w tych leaderboardach wszystkich był na pierwszym miejscu. Oprócz tego myśmy spolonizowali empty bench, taki test. To jest taki dwuetapowy tekst. Na przykład pierwszy Jest jakieś zadanie, wygeneruj na przykład jakąś opowieść na temat wakacji na Hawajach. A drugi etap to na przykład spróbuj, żeby każde zdanie zaczynało się od litery A w tym opowiadaniu. Takie mocniejsze jakby. Albo coś wygeneruj, a później coś pownioskuj.


Albo odegraj rolę jakąś. Taki dwuetepowy, masę zadań. I teraz one były po angielsku i też były w otoczeniu angielskim. Czyli na przykład było odegraj rolę, nie wiem, Diego Murphy. Albo jakiegoś tam stand-upera. A myśmy to spolenizowali, czyli staraliśmy się, czyli nie na przykład wygeneruj, wypracowanie na temat właśnie jakiegoś stanu Teksas, tylko na przykład na temat Mazur, tak, polskich. Więc myśmy tego empty bencha spolonizowali i uruchomiliśmy na wszystkie modele i zobaczyliśmy, jak on się tutaj realizuje. Na przykład we wnioskowaniu Bielik 1.0 był lepszy niż GPT 3.5 Turbo. Więc to też pokazało, jeszcze wtedy nie było GPT.


Karol: Możesz przydać przykład takiego wnioskowania.


Sebastian:  Wiesz, to różne, głównie są zagadki takie logiczne, które są, więc to tego typu na przykład. I jeszcze EQ Bencha, czyli takie związane z emocjami. I to są podobne też zadania, tylko tam są takie zadania związane z emocjami na przykład. W jednym pokoju siedzi Jan, Adam i Krysia i nagle Krysia obraża jakoś Adama i opuszcza z trzaśnięciem drzwiami pokój. Jak się czują pozostali.


Opisz emocje. I takie zadanie jest, gdzie on tam ma jakieś klucze i porównuje. No i ostatnim takim bardzo ważnym to jest ta arena, czyli gdzie już ludzie oceniają modele, czyli Losowane są modele. My chyba teraz mamy około 12 czy 13 modeli, które testujemy, nie tylko oprócz Bielika. I są losowane dwa modele. Nie widzimy generowane dwie odpowiedzi. Ty wpisujesz zadanie i nagle możesz ocenić dopiero po ocenie, który lepszy.


Karol: Bez uprzedzeń, bez bajasów decydujesz, która odpowiedź bardziej odpowiada twoim oczekiwaniom.


Sebastian:  I teraz nagle okazało się, że ten Bielik 1 zaczął się bardzo dobrze w tych benchmarkach pokazywać, ukazywać, co my też trochę widzieliśmy, bo cały czas proces trenowania był tego uzależniony, że cały czas… Bo pamiętajmy, że właśnie, że to nie jest tak, że tworzymy model i uczymy go raz i na tym koniec.


Nie, to jest duża praca, są różne procesy po kolei, które… w których różne są techniki i to rzeczywiście jest, cały czas musimy patrzeć jakość tych danych, dlatego właśnie wprowadziliśmy ten klasyfikator jakości w naszym datasecie i wszyscy mogą z tego korzystać, bo nagle zaczęliśmy zauważyć, że model coś źle robi, no i zaczęliśmy patrzeć w ogóle na biury treningowe i mówimy, o nie, trochę dużo jest tego, spróbujmy właśnie wyrzucić te gorszej jakości, no i taka praca to jest. No i ten bielik wylądował, no i pojawiło się dużo takiego mediowego hałasu, że to jest taki nadwiślański czat GPT albo polski słowiański czat GPT. Wtedy byliśmy bardzo dumni, że ktoś nas porównuje do czata GPT, chociaż pamiętajmy, że my tych parametrów, czyli tej pojemności silnika, mieliśmy wtedy 7 miliardów, a chat GPT nie da się powiedzieć, ile tych parametrów mają, bo oni zaczęli ukrywać wszystko. Chyba bodajże pierwsza wersja 3,5 to miała chyba ze 170 miliardów parametrów, tak z pamięci mówię, więc to widać było, a teraz to myślę, że to są ogromne ilości tych parametrów. I byliśmy dumni, że ktoś nas porównuje, ale zapomnieliśmy, że właśnie ludzie usłyszeli o tym, że ten Bielik jest super i on jest jak czat GPT. No i zaczęli go trenować, to znaczy używać jak czata GPT.


I teraz, żeby uruchomić sobie takiego Bielika, trzeba mieć GPU. odpowiednią taką, żeby on w pełnej precyzji jakby odpowiadał. No ale są też wersje takie upakowane, które mają mniejszą precyzję, ale można uruchomić na słabszej maszynie, na przykład na własnym komputerze.


No i ludzie zaczęli… czyli używać tych słabszych wersji. Na Hugging Face też mieliśmy taką wersję pod CPU. Pamiętajcie, my cały czas mamy grant do trenowania w cyfronecie, a żeby udostępniać teraz wszystkie… Utrzymać i udostępnić to jest zupełnie inna historia. Inna historia i my nie mamy takich środków, żeby teraz na przykład dla całej społeczności, każdego obywatela jakiegoś czata GPT umieścić. No i nagle się okazało, że ludzie czasami dostają odpowiedzi. A jeszcze jest kolejna rzecz. To jest model kompaktowy, który nie ma aktualnej wiedzy. On jest bardziej do transformacji, do pracy w biznesie.


No nie tylko w biznesie. Czyli on świetnie sobie radzi. Dajemy mu komentarz, mówimy sprawdź, czy tam nie ma jakiegoś hejtu na przykład. Wejdź w rolę. Tak, wejdź w rolę, coś tam. że dajemy mu kontekst, czyli na przykład dajemy mu w dziesięciu punktach, co jest najlepszego do zwiedzenia we Wrocławiu czy Warszawie na przykład, a on pięknie z tego zbuduje ci całą opowieść. Od tego jest bielik, a nie jest takim, że zapytasz go na przykład, kto jest marszałkiem Sejmu, I że on odpowie, bo on tą wiedzę ma sprzed dwóch lat albo trzech, kiedy był proces zbierania danych.


Karol: Wiesz co, teraz mi przyszło do głowy, muszę przetestować Bielika, jak sobie radzi z korektą językową, bo publikuje w ramach podcastu również transkrypcję odcinków. Do tej pory eksperymentowałem albo z Claude’em, albo z Gemini’em, jeżeli chodzi o wejście w rolę takiego redaktora, korektora tekstu. Ciekaw jestem, jak by sobie z tym poradził Bielik.


Sebastian:  Już Bielik jedynka radził sobie doskonale właśnie z korekcją tekstu, który mu podałeś. Bardzo dobrze sobie radził z oczyszczaniem tekstu, na przykład z OCR-a, czyli mówiliśmy mu na przykład instrukcję a tu masz jakiś tekst, który właśnie jest jakiegoś OCR-a i on może mieć szum. Więc jak najbardziej jeden sobie radził, a Bielik 2.0 też sobie doskonale radzi. Więc zapraszam do testu.


Karol: Jakie są naprawdę obszary. Wskazaliśmy kilka przykładów, ale jakie ty widzisz obszary w wykorzystaniu lokalnych modeli językowych. Gdzie Bielik pełni swoją funkcję, o której myślałeś, budując cały projekt.


Sebastian:  Ja bym trochę zmienił definicję, bo powiedziałeś lokalny model. Zbudowaliśmy na pewno kompaktowy, mały model. Teraz co robimy, to staramy się właśnie jeszcze go lokalnie, że tak powiem, dostroić, bo wróćmy właśnie po co stworzyliśmy Bielika. Po pierwsze chcieliśmy właśnie mieć polski model, który można uruchomić na własnej infrastrukturze, głównie do zadań biznesowych, na przykład tych regulowanych.


Karol: Co jest bardzo dużą wartością, bo dane zostają w firmie i nie musimy ich przesyłać gdziekolwiek do chmury.


Sebastian:  Dokładnie. I drugą rzeczą oczywiście, żeby były modele takie on-prem, które mogliśmy uruchomić, no ten Mistral na przykład, Lama czy Falcon, ale one miały bardzo słaby język polski. No i teraz trzeci aspekt jeszcze, który się tu pojawia, kiedy zaczęliśmy właśnie już mocno zbierać dane, to nagle się też pojawiło bardzo dużo tych aspektów, o których też dzisiaj wspomnieliśmy, czyli stara bida versus jak się masz, super i w ogóle.


Czyli tutaj trzy aspekty poruszam. Pierwszy to jest on prem, żeby on był w celach biznesowych. Drugi, dobrze po polsku mówił. I trzeci to już był… już nie tylko takim rodowitym Polakiem, ale rodowitym Ślązakiem, Kaszubem, potrafił wszystkie regionalne i inne rzeczy, których… To już cała kultura, a nie tylko… Ale nie w sposób przerysowany, tylko wtedy, kiedy jest to potrzebne. Czyli trzy cele. Te dwa były od początku, ten trzeci zaczął się, pojawiał się w ogóle, tak jak zaczęło do naszej społeczności, też dołączać dużo osób, nie tylko z biznesu, ale właśnie… Zresztą zobacz, planujemy też odcinek i chcemy o języku porozmawiać, o kulturze. Cel pierwszy.


Omprem. Tak. Bielik pierwszy ma 7 miliardów parametrów, Bielik drugi ma 11 miliardów parametrów Dalej się da na jednej karcie uruchomić, no dwie połączone to będzie jeszcze lepiej, ale nie trzeba mieć takiego ogromnego, wiesz, jakiegoś centrum superkomputerowego, żeby uruchomić go na przykład w banku lokalnym jakimś dużym. Więc pierwszy cel został osiągnięty, naprawdę. Drugi, czy się nadaje do tych biznesowych.


Karol: Czyli pierwszy cel to jest trochę na zasadzie niech Bielik będzie obecny pod strzechami.


Sebastian:  Tak, można tak powiedzieć i w lokalnym biznesie, jakby to nie brzmiało.


Karol: Udało się. Dwójka. Może się wydawać śmieszne, ale biorąc pod uwagę, zobacz, stopień adopcji rozwiązań technologicznych. Popatrzcie na raporty ministerstwa. Ten odsetek firm, które korzystają z rozwiązań lejowych na poziomie 5, 6 czy 7%, pokazuje tylko i wyłącznie potrzebę tego, żeby takie rozwiązania były dostępne właśnie lokalnie.


Sebastian:  Tak. Druga rzecz to jest ta biznesowa, że tak powiem, sprawność. Pierwsza wersja Bielika już była wysoka sprawność biznesowa, to znaczy potrafił strukturyzować dokumenty, potrafił streszczać biznesowe dokumenty, potrafił wyciągać z dokumentów, biznesowych, w ogóle z dokumentów potrafił wyciągać, nie wiem, osoby, wydarzenia, zdarzenia, robić taką numeryczną jakby zestawienie czasami jakiejś liczby i tak dalej. Potrafił, tu mówię o biznesie takim, jak na przykład jest bankowy, potrafił generować fajne teksty, jak mu dałeś ten kontekst, to z tym sobie też doskonale, czyli już można było na małym blogu albo u małego wydawcy sobie go uruchomić, radził sobie też bardzo doskonale z wszelką klasyfikacją, filtrowaniem różnych treści. Czyli można było, nie wiem, jak komentarze albo jakiś forum dyskusyjny, to sobie zrobić jakieś usprawnienie polegające, że sobie na przykład odpowiednie rzeczy filtrował. Lekko jedynka nie radziła sobie z taką technologiczną strukturyzacją danych, czyli jak ja sobie potrafiłem, żeby dane były w JSON-ie, to on wygenerował to w JSON-ie, ale czasami mu się tam ręka omskła i na przykład zmienił lekko jakąś zmienną i to… My jako ludzie nawet nie zauważylibyśmy to znane, ale jeśli automat by czytał tą odpowiedź Bielika, to nie umiałby przetworzyć. Więc to było problemem w jedynce. No i oczywiście ta jedynka już bardzo naturalnie i poprawnie mówiła w języku polskim. ale miała dalej te naleciałości amerykańskie.


Dlaczego. Bo myśmy użyli Mistrala, który tutaj nie został dostrojony, tylko nawet bazowy model został stworzony, ale jakby stwierdziliśmy, że bierzemy tego Mistrala, ponieważ ten Mistral miał dużo rzeczy takich jak na przykład kody źródłowe. Więc nie musieliśmy mu dawać dodatkowo kodów źródłowych. Też potrafił różne inne rzeczy, które są właśnie potrzebne w tej, też czasami w tych czynnościach biznesowych. I on tej kultury trochę od tego Mistrala nam jednak wypożyczył sobie. I jednak pięknie w języku polskim mówił, ale czasami miał te nalaciołości, o których mówiliśmy na początku, że jednak widać był, że to jest Polak, ale taki wychowany we Francji. Albo odwrotnie, Francuz, który perfekcyjnie od małego po polsku, albo pamiętajmy Mistral też po angielsku potrafi, więc różne tu można było… I jedynka była bardzo dobra, ale właśnie z tymi aspektami. O kulturowych rzeczach niestety w jedynce jeszcze nie mogliśmy nawet marzyć. Co zrobiliśmy w dwójce. No w dwójce przede wszystkim właśnie trochę nadaliśmy mu tyle tekstów wysokiej jakości, że jednak kazaliśmy zapomnieć mu o wszystkich naleciałościach.


Karol: Trochę jest z tym budowaniem i trenowaniem modeli jak z dorastaniem i wchodzeniem w kulturę, środowisko, rozumieniem otaczającego świata.


Sebastian:  No trochę, wiesz, to jest trochę tak, że możesz na przykład jakiemuś temu geniuszowi, który w wszystkich językach operuje, na przykład w oryginałach czytać wszystkie książki, nie wiem, artystów, tych nie artystów, ale angielskich jakichś pisarzy, ale można mu też później w przekładach, bo bardzo często te przekłady zawierają pewne elementy, idiomy polskie albo inne rzeczy, prawda. Więc to jest właśnie to, żeby mu dać, nie tylko w oryginałach poczytaj te wszystkie książki, ale też w przekładach i jeszcze polskich tych, więc tą kulturę można tam naprawdę rzeczywiście tutaj różnie dawać. I w dwójce już wiedzieliśmy, jaka jedynka ma wady, więc w dwójce przede wszystkim poprawiliśmy bardzo tą techniczną część, co mówiłem, tej strukturyzacji, te JSON-y są teraz naprawdę wysokiej jakości i zwiększyliśmy tam o 4 miliardy parametrów, więc dalej można to uruchomić na swoim własnym serwerze. Ale drugie już daliśmy naprawdę też, uruchomiliśmy różne projekty produktów regionalnych, potraw regionalnych, więc już zaczęliśmy zaszczepiać te wątki mocno kulturowe w dwójce. Oprócz tego uruchomiliśmy, ale to pewnie będzie czekać na trójkę. Już naprawdę, bo dopiero teraz, też ważne, że teraz mamy tysiąc osób w społeczności i możemy uruchomić różne inne inicjatywy. I na przykład jest bardzo ciekawa inicjatywa, gdzie są tworzone właśnie bardzo podchwytliwe w ogóle zestawienia idiomów, takich sarkastycznych, ironicznych tekstów, dużo modeli się wykładało na tym na przykład, tak. Czyli dam taki przykład.


Karol: Zobacz, kontekst, kultura, wiedza o bycie i cała reszta. Tak.


Sebastian:  Wszystko, ale też, żeby coś wyciągać. Na przykład dam opinię o jakąś bankową, tak. Przy twoich odsetkach to tylko chleb i margaryna imponujące Wersal, prawda. I teraz Ja nie mówię już o dużych modelach językowych. Też za mało użyłem też jakichś polskich, to było tak na szybko tylko coś wymyśliłem, ale jakbyśmy dali to do klasycznego machine learningu, to on by zobaczył, nie ma żadnych słów o wydźwięku negatywnym. Ja powiedziałem Versal, Tak, imponujące na przykład. Chleb, margaryna, no to można powiedzieć neutralne.


Karol: A to zobacz, chodzi o właśnie wyczuwanie niuansów, ironii, sarkazmu, który jest niezwykle silnie umocowany właśnie w kulturze.


Sebastian:  Tak, tylko tutaj ja dałem przykład, że myślę, że po angielsku to tak samo by brzmiało, ale jakbyśmy dodali… do takiej opinii, nie dość, że sarkazm, ale jeszcze jakieś polskie idiomy, tak. Jakieś takie już naprawdę, a jeszcze nie wiem, może dodali do tego jakieś wtrącenia z gwarą związane, tak.


Karol: A wyobrażasz sobie, wiesz co, to mała dygresja. Wyobrażasz sobie teraz model językowy, z którym komunikujesz się za pomocą interfejsu głosowego, który nie tylko bazuje na NLU, ale potrafi wyczuć ironię, emocje i całą resztę.


Sebastian:  No to jest właśnie coś.


Karol: Wiesz, ale mówię nie bazując na słowach, tylko na twojej intonacji.


Sebastian:  To jest właśnie coś, chciałem powiedzieć, co OpenAI tam w którymś miejscu pokazał, ale nie wiem, czy to jeszcze opublikował, że można odczytywać różne rzeczy.


Tak. Bo my teraz to, co w naszym modelu robimy, robimy tylko warstwę tekstową. W tym tekście jest dużo ukrytych. Są badania, że można zrobić wykrywacz kłamstw na samej bazie tekstu pisanego. Bo są pewne rzeczy, że jak ktoś kłamie, to mało opisowo daje, bo nie chce brnąć w to, że może nie używa bardzo często takich mocno ja, ja, ja, bo trochę mu gdzieś jest wstyd, więc Więc my na razie tą warstwę, że tak powiem, realizujemy, ale myślę, że rzeczywiście jak podłączylibyśmy sobie tutaj jeszcze mikrofon i te wszystkie rzeczy, pauzy, różne znaczniki takie niesłowne, które się tam nieraz mówi, To jak najbardziej. A jeszcze jak podłączymy gestykulację na przykład. Oczywiście te gestykulacje bardzo często są bardzo sztuczne, wyuczone, ale to też można by było algorytmem zrobić, bo jak widzę niektórych polityków, to rzeczywiście widzę, że on dwa dni temu…


I piramidka. Piramidka, dokładnie. Więc myślę, że to jest do zrobienia wszystkiego. No i teraz wracając, ten tabelik dwójka już jest naprawdę biznesowo bardzo dobrze przygotowana. Można dalej ją uruchomić na własnej infrastrukturze, bo ma te 11 miliardów parametrów i da się ją uruchomić na jednej karcie. Ramu trzeba mieć niestety dużo. Tu nie będę psuł znów. Jutro Remek, to i tak się opublikuje, to można powiedzieć, że na Remka LinkedIn można to przeczytać. Dobrze.


Karol: Odsyłamy do Remigiusza.


Sebastian:  Remek już jest takim celebrytą AI, ale to naprawdę to jest w takim pozytywnym tym, bo jest naprawdę fantastyczną osobą i fantastycznym inżynierem, jeśli chodzi o… A ja bym powiedział nie celebrytą, tylko prawdziwym ewangelistą, który….


Karol: Sieje dobre ziarno, które trafia na dobrą glebę, a sposób i umiejętność opowiadania Remka o rzeczach właśnie skomplikowanych w niezwykle zrozumiały sposób jest niezwykła.


Sebastian:  Tak, przepraszam cię Remku za celebrytów. Pozdrawiamy cię serdecznie. Dobrze, teraz wracając, więc ta dwójka jest mocna pod tym kątem, natomiast Pracujemy bardzo jeszcze mocno nad tymi elementami kultury. Mi się marzy właśnie projekt GWAR wszelkich i tam zasiałem ziarno, ale niektórzy mówią trudno.


Karol: Zobacz, że taki model językowy jest niezwykłym narzędziem do tego, żeby zachowywać kulturę i przenosić ją do kolejnego pokolenia. Tak samo jak kiedyś tym były książki, tak teraz właśnie te modele budowane na bazie książek, tekstów będą nośnikiem kultury dla następnych pokoleń.


Sebastian:  U nas Bielik jest podłączony na Discordzie, więc można iść na Discord, można wywołać Bielika i rozmawiać z nim na Discordzie.


Są kanały, które po prostu tam osoby robią fantastyczną w ogóle robotę rozmawiając z Bielikiem. Bardzo często proszą o odgrywanie ról. I to z różnych powodów. Coraz bardziej widzę, że przewijają się różne gry paragrafowe, to chyba tak się nazywa, czy książki paragrafowe, że gdzieś można… Ja nie wiem, czy też dobrze użyłem w ogóle tego słowa, ale no takie, że wiesz, czytasz jedną książkę i możesz wybrać następny, następny. To wymaga po prostu paragraf po paragrafie różnych decyzji. Tak sobie to wyobraziłem.


No i odgrywają różne role, tak. I rzeczywiście Bielik świetnie sobie radzi po staropolsku, po innym, ale jednak śląski, kaszubski jeszcze nie ma takiej naturalności. Jak go poproszę, żeby powiedział po śląsku, A pracujecie z muzeami na przykład. Jeszcze nie, od razu mówię. Czekaliśmy na fundację, żeby w pełni współpracować, bo jednak muzea jako takie organizacje z sektora publicznego bardzo często one jednak wymagały, nie wyobrażały sobie, a co wy jesteście. My jesteśmy projektem takim, na GitHubie można znaleźć, prawda. To podajcie KRS. Tak, więc teraz zaczynamy i są jakieś tam pierwsze… pierwsze, że tak powiem, kontakty, też zaczynamy w ogóle współpracować z różnymi, bo wcześniej, tak jak mówiłem, trochę w tej branży się krążyliśmy, więc jak współpracowaliśmy, to z Klarinem na przykład, czy gdzieś tam z Naskiem, ale teraz na przykład też zaczynamy z jakimiś właśnie wydziałami jakiegoś literatu z Nastwa, czy takimi Dla mnie bym powiedział egzotycznymi i to jest fajne, że rzeczywiście możemy właśnie uruchamiać te projekty GWAR, bo jeszcze dokończy ten wątek, bo jeszcze w stylu takim śląskim słabo te dialogi buduje Bielik, ale na przykład już zna, co to jest Carminadel, prawda, a inne modele jeszcze nawet tego słowa nie znają.


Karol: A słuchaj, czy na przykład rozmawiacie też z, nie wiem, z nadawcami publicznymi, z Polskim Radiem, które zobaczcie, jakie ma duże archiwa, jeżeli chodzi o wiesz, chociażby Teatr Polskiego Radia, audycje, komentowanie piłki nożnej, komentarze polityczne i tak dalej, i tak dalej.


Sebastian:  Zanim odpowiem na pytanie, ty na moje nie odpowiedziałeś, czy wiesz, co to jest karminadel. Nie, przepraszam. To jest po śląsku kotlet mielony. Nie wiem, czy dobrze akcent, no widzisz. No i też modele też pierwszy raz słyszą. No, Carminadel to jest kotlet mielony.


Karol: Pierwsze słyszę. Jakbyś mnie zapytał, to bym pomyślał, że mówisz do mnie po hiszpańsku.


Sebastian:  No, a ja widzisz, przez to, że tam testuję nieraz te modele, to zadaję im pytanie, czy wiedzą, co to jest Carminadel, albo mówię im na przykład, zrób mi właśnie zdanie czy chcesz kotleta mielonego dziś na obiad, na przykład w stylu śląskim. I wtedy widzę, czy on potrafi na przykład to stworzyć. Ale dobra, wracając do twojego pytania.


Przepraszam, dobra, najpierw to pytanie. Znów fazy. Jesteśmy jedynkę, to już wiesz, co było. Teraz jesteśmy w fazie dwójki.


I tutaj dwójkę udostępniliśmy tylko… w arenie, żeby przetestować i u nas na Discordzie dwójkę wersję Bielika 2.0 po to, żeby zebrać feedback i teraz taka będzie wersja 2.1 albo wersja już alfa, tamta była beta, którą już udostępnimy z wagami, prawda. I to jest dwójka, która już będzie biznesowo będzie całkowicie z drobnymi elementami kulturowymi języka polskiego. Natomiast to, co chcemy zrobić w trójce, to nie mogę już zdradzić, bo jeszcze premiera dwójki niech będzie, ale tam rzeczywiście już marzy nam się, to tylko jedno zdradzę, przede wszystkim już multimodalne, a może nie multimodalne całkowicie wszystkie, ale przede wszystkim, żeby analizował grafikę, czyli można mu dać tekst i dać mu na przykład obraz, poprosić, przeanalizuj, co na nim jest i żeby on to realizował. Więc marzy nam się multimodal, ale do tego już musimy mieć tych danych rzeczywiście zdjęciowych to jest trochę trudniej niż otwartych, niż tekstowych, więc tutaj zaczynamy rozmowę, a jesteśmy już fundacją, zaczynamy rozmowę właśnie z wydawcami, zaczynamy rozmowy z różnym właśnie sektorem publicznym, który posiada takie dane. No i wtedy też trochę tutaj będzie, w zależności od wyników tych rozmów, będzie, w którą stronę ten Bielik Trójka nam odleci. Ale ambicje są, bo jakby doświadczenie, które jest w tej budowie jedynki, dwójki i ta społeczność, tysiąc osób, którą teraz, bo mówię, dużo projektów się tyczy, które zrealizowane nie załapało się do dwójki, choćby te te idiomy w całości, więc myślę, że będzie ciekawie.


Karol: Wiesz co, mam teraz taką myśl, Zobacz, ludzie, którzy znają kilka języków potrafią się świetnie odnaleźć podróżując, poznając nowe osoby, zwiedzając muzea itd. A czy systemy, które, jak masz takie wyobrażenie, jeżeli chodzi o przyszłość, które będą obsługiwały klientów, które będą wykorzystywały właśnie LLM-y. Być może już tak jest teraz, ja o tym nie wiem. Czy będą mogły wykorzystywać równolegle kilka modeli językowych.


Sebastian:  to też jest kwestia właśnie, w którą stronę trochę iść.


Karol: Czy budować duży model, duży model, który właśnie… Wiesz, robię takie trochę myślę obrazem naszej codziennej rzeczywistości, tak. I tak jak mówię, jak umiesz mówić kilkoma językami, a mało tego, jeżeli jeszcze wychowywałeś się w innym kraju i znasz właśnie kulturę, niuanse i tak dalej, dużo łatwiej ci jest się komunikować i.


Sebastian:  To mówię, teraz jest dużo takich nurtów, czyli możemy sobie zrobić duży model, który w każdym języku sobie rozmawia i tak działa. Teraz bardzo mocno są te architektury multiagentowe, czyli każdy model może być innym agentem, może być gdzieś jeszcze inny agent, który wybierze ci, czyli tu naprawdę jest… że zamiast jednego dużego modelu możemy zbudować dla każdego języka małe, dla każdej domeny też nawet. I teraz gdzieś wcześniej jest jeszcze model, który tylko i wyłącznie, i nawet to już nie małe, tylko mini, który widzi i dobiera odpowiednie, albo daje zadanie agentowi odpowiednie. To naprawdę dużo można, że tak powiem, tutaj realizować.


Karol: Ciekawa przyszłość, co.


Sebastian:  Tak, tym bardziej też, gdzie ten model później będzie służył. Jeśli będziemy budować jakiś naprawdę globalny system dla jakiegoś sektora edukacyjnego albo dla w ogóle rozrywki na przykład, to rzeczywiście może będą jednak duży model, ale jeśli byśmy biznesowo sobie zrobili, to jeśli jest dana organizacja i na przykład ma oddziały w czterech państwach na przykład, to po co im ogromny model, który mówi w każdym języku i na rzeczu na świecie, jeśli on po prostu chce wybrać cztery modele, więc te systemy właśnie doboru mniejszych modeli do specjalizowanych zadań będą lepsze. Też Czy dokumenty, które są właśnie, czy będą jednak właśnie, one są po prostu w jednym dokumencie kilka języków, które się przeplata, na przykład takim ciężkim czasami jest na przykład kod źródłowy, który tak naprawdę jest język programistyczny i naturalny i po angielsku i po polsku czasami może być dokumentacja do tego kodu. Więc to wszystko różnie, gdzie my chcemy wykorzystać ten model. Na pewno będziemy dużo eksperymentować w Trójce właśnie, też w tych obszarach, o których Ty mówiłeś, ale ciężko mi teraz jest powiedzieć, w którą stronę pójdziemy. Zobaczymy, jaka będzie… właśnie ta premiera 2.1.


Co jest ważne. O tego jeszcze nie poruszyliśmy. Jedynka była na licencji nie do komercyjnego użycia. Dlaczego. Ponieważ wtedy trochę eksperymentowaliśmy z danymi i dużo mieliśmy zestawów, oprócz naszych zestawów danych, jeszcze dużo zestawów braliśmy z Hugging Face’a albo gdzieś leżących różnie. I One mimo, że miały napisane, że są otwartą licencją, to widzieliśmy na przykład, że dużo pochodzi na przykład jakichś odpowiedzi z GPT-4, więc nie byliśmy pewni i jakości.


Karol: To chcesz powiedzieć, że cały set danych w kolejnym modelu jest budowany od podstaw.


Sebastian:  Tak, to znaczy tu jeszcze trzeba powiedzieć, bo mamy model pierwszy, to jest bazowy, który bardziej potrzebujesz tekstów, czystych tekstów, o których tu rozmawialiśmy i ten bazowy bardziej tak buduje nam jakby zależności językowe, on tylko przewiduje słowa, a bardziej tokeny, które są, on nie ma żadnej tej domenowej wiedzy. A później budujemy instrukcyjny model i instrukcyjny już model, jak sama nazwa, już bardziej nie generuje właśnie następne słowo, czy token przewiduje, tylko bardziej już nam odpowiada na całe instrukcje. Ale do jego uczenia już potrzebujemy danych, bym powiedział, specjalnie przygotowanych. To mogą być instrukcje tworzone przez ludzi, to mogą być instrukcje syntetyczne, to mogą być różne dialogi, ale już one muszą mieć specjalną strukturę, być dobrze przygotowane.


I my… jakby nasze dane są głównie na model bazowy. Więc model bazowy jest na naszych danych, oczywiście odpowiednio przefiltrowanych pod kątem właśnie własności, pod kątem jakości i tak dalej, ale jednak nasze dane. A w instrukcyjnych to już musieliśmy skorzystać w pierwszej wersji z różnych innych źródeł, jeśli chodzi instrukcji i bardzo małego zestawu danych naszych instrukcji takich stworzonych ludźmi. W wersji drugiej już się trochę odmieniło, bo po pierwsze mamy bardzo dużo instrukcji z różnych testów, bo jedynka była na arenie i już mamy jakieś wszystkie instrukcje zebrane. Zrobiliśmy edytor takich wewnętrznych instrukcji. Więc i jeszcze oprócz tego, Już jedynką mogliśmy też tworzyć pewne syntetyczne instrukcje, więc to powoduje, że już mogliśmy i też nauczyliśmy w ogóle, jaki jest wpływ instrukcji, jakich trzeba było, a w tej jedynce właśnie trochę tak eksperymentowaliśmy. Więc w dwójce już mogliśmy całkowicie dać własne, do których i jakości i do jakby właścicielstwa byliśmy pewni, że to nie ktoś wygenerował GPT-4 i umieścił na Hugging Face, że to jest otwarta.


Karol: Jakbyś miał powiedzieć, jakie są idealne use cases dla… Ale ja chyba nie dokończyłem jeszcze tej myśli, tylko ostatniej myśli.


Sebastian:  Dwójka będzie już do użycia komercyjnego. Wersja 2.0, co spowoduje, że chcemy z takim… z zaprzyjaźnionymi firmami, albo firmami, które już nas poznały, albo nawet członkowie są tych firm w naszej społeczności, że możemy dostać feedback, jak Bielik naprawdę pracuje w jakichś biznesowych use case’ach.


Karol: Idealnie to się zbiega z moim pytaniem właśnie.


Sebastian:  No i właśnie, tylko chciałem tylko dodać to i zakończyć, że dwójka, dwa jeden, jak już będzie udostępnione, będzie udostępnione na licencjach, również w zastosowaniach komercyjnych.


Karol: A jakie będą twoim zdaniem idealne use cases.


Sebastian:  Jak patrzysz, jak czujesz. Przede wszystkim najwięcej… To jest obsługa klienta pewnie. Na październik będziemy mieć takie pierwsze badania, bo to jest też bardzo fajnie, że ta nasza społeczność, jak pewien redaktor radia w net powiedział, że już jesteśmy jak grawitacja, przyciągamy już bardzo mocno różne osoby, więc bardzo dużo mamy już… z takiego biznesu biznesu, czyli nie technologów. I zrobiliśmy takie badania małe, do czego wykorzystywane są w ogóle w Polsce duże modele językowe na 300 firmach. Jedynie co, to te badania są lekko jeszcze… Zróbmy z tego odcinek. Jak najbardziej. Jedno co, to są skrzywione troszeczkę, bo to były głównie firmy technologiczne polskie, 300 firm technologicznych, ale to są też ważne badania, bo oni najczęściej pracują z klientami, oni są ci pierwsi, którzy te technologie, nazwijmy je przełomowe gdzieś tam robią. wdrażają dla 300 firm i tam w pierwszej trójce to było głównie chatboty, ragi, właśnie gdzieś tam w kontakcie z klientem albo wewnętrznie wśród pracowników, jakieś procedury, wyjaśnialność. Duża była też strukturyzacja dokumentów, czyli przetwarzania wszelkich dokumentów. Więc to będą te pierwsze, że tak powiem, use case’y, których PLL będzie służył. No i generowanie tekstów wszelkich, korekta tekstów, to też będą te obszary.


Karol: Jak obserwuję w ogóle w branży, to wydaje mi się, że na przykład księgowość jest idealnym obszarem do tego, żeby bazować na modelach. OCR, analiza, klasyfikacja i tak dalej.


Sebastian:  Właśnie chciałem dopytać, czy tu rozumiemy się, bo To jest też ważny element, który warto cały czas powtarzać, że jak pojawiła się generatywna sztuczna inteligencja, to wszyscy tą generatywną i LLM-y zaczęli chcieć wrzucać wszędzie, że ona ma wszystko robić, ale rzeczywiście w finansach strukturyzacja, znów zamiana tekstów na jakieś informacje, a później przetwarzanie je albo klasycznymi jakimiś metodami, zwykłymi, numerycznymi, albo takim AI-em na przykład, jakimś troszeczkę bardziej Do wykrywania pewnych rzeczy, jakichś fraudów, niefraudów, innych rzeczy. Ale tak, jakbyśmy mieli faktury, paragony, to wszystko, mimo że jest, wydaje nam się ustrukturyzowane, to tak naprawdę jest mało ustrukturyzowane. Bardzo często tytuły… faktur to pozycji na paragonach, to bardzo trudno rozszyfrować, a duże modele językowe zaczynają sobie z tym radzić. Dwa, brak polskich liter też powoduje, że czasami, chociaż już coraz rzadziej jest to stosowane, ale nawet jak ten OCR przeczyta w moim mailu małpę zamieni na copyright jakiś, ale nam sobie potrafi z taką semantyką też poradzić. I teraz tu jest fajne, że kiedyś dane osobowe, jak poprawki maili, to wysyłać do OpenAI’a, ttrochę ciężko, a teraz dzięki temu, że Bielik może stać podbiórkiem, to można przetwarzać ogromne ilości tekstów. No i właśnie kolejna rzecz, że nawet logi systemowe można by było przetwarzać przez duże modele językowe, tylko jakbyśmy przepuścili logi nawet z małego portalu, to by tam nam wystawił OpenAI taki rachunek, a tu Bielik, jeśli już zakupiliśmy tę kartę, to nie musimy się rozliczać za żadne tokeny, czyli ile przetworzyliśmy, Tylko po prostu już zakupiliśmy tę kartę i on może 24 godziny byłby.


Karol: Sebastian, w takim razie stworzyłeś nie tylko środowisko ludzi, którzy to tworzą, ale też środowisko do tego, żeby tak naprawdę ta technologia weszła trochę pod strzechy. Może górnolotnie to brzmi, ale taka chyba była idea.


Sebastian:  Po pierwsze, to nie stworzyłem, a stworzyliśmy, bo to cała społeczność.


Karol: Oczywiście, jest to chyba niskie upłonę dla całej społeczności.


Sebastian:  Tak, ale tak, jak już mówiłem o masie i rzeźbie, to ja myślę, że bardzo dobrze ten redaktor mówił, że pierwsza to jest ta grawitacja, że zaczęliśmy przyciągać osoby, a ja teraz zaczynam sobie mówić, bo już mamy tysiąc osób naprawdę bardzo aktywnych i ja teraz mówię, że jest faza rozpylania, prawda, czyli te tysiąc osób może robić bardzo dużo inicjatyw, może uczyć się u nas i następnie robić różne rzeczy z tego. Czy mogą pączkować na tym startupy na przykład nowe.


Karol: A myślałeś w ogóle na przykład o tym, żeby w ramach Bielika zobacz, jest tak niska świadomość i zrozumienie tego, co można zrobić teraz z technologią, jaka technologia istnieje i tak dalej. Jak edukować rynek. Masz jakiś pomysł.


Sebastian:  Wydaje mi się, że to trochę się dzieje. Już tutaj wymieniliśmy Remka, który na wszystkich konferencjach świetnie mówi o w ogóle użyciu, dostrojeniu dużych modeli językowych, ale mamy też Adriana, który na wszystkich konferencjach mówi o oczyszczaniu danych, czyli Tak jak my oczyszczamy dane, jak my klasyfikujemy te dane, jak ten potok przygotowania danych u nas wygląda, on o tym mówi. Więc teraz, jeśli firma, która nie tyle musi duży model już tworzyć od podstaw, ale będzie dostrajać tylko, albo chociaż oczyszczać dane do innych właśnie do baz wektorowych na przykład, to świetnie może wykorzystywać te rzeczy, o których mówi Adrian. Dużo Igor i Szymon są na programistycznych konferencjach i pokazują różne elementy, które my się podczas pracą z dużymi pakietami danych zmierzamy. Więc tych takich edukacyjnych jest dużo. Wydaje mi się, że tego, co brakuje teraz, to tej edukacji takiej zarządczo-biznesowej, czyli technologicznie nie jest źle, to znaczy zawsze mogłoby być lepiej, wydaje mi się, że SpeakLeash, ale też inne inicjatywy coraz lepiej tutaj się sprawdzają. Natomiast właśnie ta kolaboratywna inteligencja, jak budować zespoły właśnie związanych z pracowników i sztucznej inteligencji. Ja bardzo też staram się czasami, też dużo na Discordzie właśnie dyskutujemy, ale staramy się to też gdzieś rozpylić właśnie definicję, co to jest co-pilot, co to jest chatbot, co to jest bot, co to jest agent, tak. Bo bardzo często… używamy to zamiennie i nagle pojawiają się różne problemy.


Karol: Miałem kiedyś też pomysł na odcinki w 99 twarzach, żeby właśnie wchodzić w definicję pojedynczych pojęć i rozkładać to na drobne i edukować i uczyć, tłumaczyć od podstaw. I tak jak mówisz, o ile technologia już zaczyna mieć swoje źródła, śledzić, czytać, rozumieć, to na poziomie zarządu, tam gdzie pojawia się budżet, finansowanie, decyzja.


Sebastian:  Tak, już zaczynają ludzie w firmach, nie zależy to, czy są technologiczni, czy nie, wiedzą, co to już jest sieć neuronowa, już wiedzą, co jest machine learning.


Karol: A ja uważam, że żyjesz w swoim świecie zamkniętym, w zamkniętej grupie.


Sebastian:  Dobrze.


Karol: Mówię to z całą, wiesz, z sympatią, wiesz, że kibicuję temu projektowi niezwykle mocno, ale pamiętaj, proszę, Sebastian, my żyjemy w tej bańce.


Sebastian:  To znaczy, przez ludzi powiedziałem, nie żebym tutaj chciał teraz zgrupować ich bardzo mocno, ale chodziło jednak rzeczywiście, że jednak mam z korporacjami, dużymi firmami, nie mam kontaktu z małymi firmami, nie mam kontaktu, nie wiem, ze studentami, no może czasami, ale to podyplomowymi. Więc masz rację, może to być ta bańka, o której ja… Gratuluję zresztą nowe studia podyplomowe. Tak. I to też jest kolejna fajna rzecz, bo te studia znów z przyjaciółmi ze SpeakLeasha zostały tworzone, więc to też pokazuje, że ten rzeczywiście SpeakLeash jest w fazie rozpylania i to jest fajnie.


Karol: Na koniec, jakie są idealne use cases dla Bielika, bo rozmawialiśmy o komunikacji, o chatbotach, o OCR-ach. Coś jeszcze przychodzi ci do głowy.


Sebastian:  Ja myślę, że idealne use case’y dla Bielika to są takie właśnie jak dla dużych modeli językowych, nawet o większej ilości parametrów niż Bielika, więc to jest bardzo fajne, więc to rzeczywiście wymieniłeś właśnie przede wszystkim, ale dzięki temu, że on jest on-premowy, czyli że można go przepuścić przez wrażliwe danych, zaczyna się nam tutaj otwierać, bo OpenAI nawet myślę, że ciutkę lepiej będzie analizował maile, na przykład od klientów, tak, niż bielik. Powiedziałbym ciutkę, nie mam tutaj, to znaczy ciutkę, to też powinniśmy bielika sprawdzić, czy w ogóle zna taką, ten, ale no, nieważne. Natomiast, co jest ważne, dlaczego OpenAI mailem, no bo jednak maile od klientów mogą zawierać, no wyobraźmy sobie maile od klientów w kancelariach prawnych, tak, wyobraźmy sobie maile od, na przykład nawet w jakimś służbie zdrowia, czy prywatnej, czy jeszcze raz, nie mówię, że Bielik ma leczyć, ale już bym mógł sobie sklasyfikować maila, że ktoś chce się umawiać do tego lekarza, więc pomóc, nie wiem, w czytaniu, rozładowaniu kolegi i tak dalej. Dlaczego teraz OpenAI nie może. No bo Tylko i wyłącznie jest możliwość w chmurze, a nawet chmurza prywatna czasami jednak do maili, w którym nie wiemy, co może się pojawić, bo nawet jak sobie będziemy takie maile analizować, to mógł klient na przykład opisać wszystko. Albo u prawnika to mogą być naprawdę w sprawach jakichś rodzinnych, rozwodowych rzeczy straszne. I Bielik właśnie On ma te same cechy jak duże modele językowe, czyli może sobie właśnie przetwarzać dokumenty, teksty, budować, możemy chatboty na nim, ragi, możemy wszystko. Natomiast jest jeszcze lepiej, bo możemy go uruchomić u siebie i odłączyć całkowicie od internetu i chmury. To jest fantastyczne właśnie.


Karol: A zwracają się, tak samo jak opowiadałeś o twoich początkach i o tej fazie przygotowania całego projektu, zwracają się do ciebie inne kraje, które chcą budować własne modele. Siejesz ziarno.


Sebastian:  Tak, w Bieliku, przepraszam, w SpeakLeashu na Discordzie są dwa kanały, chorwacki i czeski, które kiedyś robiliśmy, ale mówiąc szczerze, te dwa kraje nie miały tyle zaangażowania i motywacji, co my tutaj w tym. Natomiast bardzo ważny element jest, to jest chyba wiesz, podróż z Bielikiem wokół państw bałtyckich,.


Karol: Pozdrawiamy Michał Domański, Peter Sankus. Tak. Którzy… Notabene, dosłownie przed naszym spotkaniem rozmawiałem z Michałem właśnie.


Sebastian:  Którzy wzięli Bielika, to znaczy ich w ogóle, to nie ich celem było w ogóle poznać, to znaczy pokazać wszystkim Bielika, oni po prostu chcieli budować społeczność i chcą dalej taką europejską, zaczęli od krajów bałtyckich, żeby zobaczyć, jak u nich właśnie rozwija się innowacje, sztuczna inteligencja, ale Bielik był takim naszym, wiesz, jak kiedyś woziło się lalki z cepeli albo inne rzeczy, żeby dać, to oni wzięli takiego Bielika. I Wiele fajnych kontaktów tutaj nieoficjalnie jeszcze, bo nie miałem z nimi spotkania takiego już po, z całym podsumowaniem raportem, ale wiele kontaktów i fajnych tutaj elementów nam przemycają i myślę, że może być, że może tutaj być jakieś nawiązanie z innymi krajami.


Natomiast My chcemy w Bieliku, znaczy ze SpeakLeashem i z Bielikiem chcemy iść dalej. To znaczy chcemy, teraz mamy takie dwa duże projekty związane z dużymi modelami językowymi europejskimi. Mówię tutaj o Mistralu i jeszcze w Niemczech. Natomiast robimy mapę takich europejskich inicjatyw, ale pełnego takiego ekosystemu, czyli że są modele kompaktowe, że są właśnie odpowiednie benchmarki i odpowiednie zestawy danych i to badamy, więc okazuje się, że z Polską w Europie nie jest źle.


I to można powtórzyć. No i chcemy trochę powalczyć ze SpeakLeashem, nie wiem jeszcze w jakiej konfiguracji, bo to już będzie wymagało dużych środków i pod kątem inwestycji, i pod kątem zasobów. ale chcemy zawalczyć, chcemy tutaj coś jednak pokazać też na tej scenie trochę bym powiedział komercyjnej w Europie. Oczywiście cały czas utrzymując społeczność z SpeakLeash, żeby to w Polsce ten element społeczny był, a niech się tą wiedzę, którą zbudowaliśmy teraz w SpeakLeashu, Niech to będą eksportowe usługi, które możemy świadczyć dla całej Europy. Tym bardziej, że AI Act wchodzi i to, co powiedziałem, będzie ogromna potrzeba mieć tutaj na lokalne modele i ta wiedza, żeby była tutaj. Więc zobaczymy, ale ciężko pracujemy też w tym obszarze, bym powiedział, takim.


Karol: Sebastian, zatem siej to ziarno. Niech trafia na żyzną glebę i niech przynosi owoc obfity.


Sebastian:  Dziękuję bardzo.


Karol: Dziękuję Ci za to, co robisz. Dziękuję Ci za Twojego ducha. Dziękuję Ci za to, że tak integrujesz cały zespół, że tak doceniasz cały ten zespół Spieglerza. I co. I mam nadzieję, że to nie tylko nasza pierwsza rozmowa tutaj w 99 twarzach, ale też mam nadzieję, że uda nam się porozmawiać z innymi filarami tego całego przedsięwzięcia.


Sebastian:  Dobrze, że to jest podcast, a nie jakiś wideopodcast, bo byśmy widzieli moje mocne zaczerwienienie się. Dziękuję za miłe słowa, ale rzeczywiście to jest ogrom pracy społeczności. Ja to tylko tam staram się dotrzymać im tempa. I to się udaje na razie.


Karol: Niech będzie z nami wszystkimi za to.


Sebastian:  Nie wiem, jak teraz odpowiedzieć politycznie, bym odpowiedział amen, ale nie wiem, czy tutaj… Peter Sankos mówi amen. Amen. No to tak możemy zakończyć.