Generatywna AI-czym jest i co nowego wprowadza?
W drodze do celu nie cel jest najważniejszy, lecz droga, która do niego prowadzi. Prawdziwość parafrazy tego słynnego cytatu ilustruje przykład historii firmy OpenAi. Za jej praojca uważa się Elona Muska, któremu przyświecała idea stworzenia doskonałej sztucznej inteligencji (AGI). Mało kto zdawał sobie wówczas sprawę, że na ścieżce prowadzącej do ziszczenia tej koncepcji pojawią się rewolucyjne dzieła takie jak chat GPT 3, chat GPT-3.5 i chat GPT-4.
Generatywna Sztuczna Inteligencja – dla laika
SI, jaką znamy obecnie, opiera się na generatywnym modelu językowym. Oznacza to ni mniej, ni więcej, że potrafi zrozumieć tekst i generować wypowiedzi, które imitują ludzką mowę. Na tym opierają się popularne chatboty, które podbiły serca i umysły użytkowników sieci, przedsiębiorców, futurologów i krytyków.
Generatywne Al opiera się na głębokim uczeniu maszynowym. Tak samo, jak każdy algorytm, algorytm sztucznej inteligencji pobiera dane wejściowe. Istnieje jednak pewna różnica pomiędzy prototypami AI a generatywną sztuczną inteligencją. Ta ostatnia próbuje zrozumieć informacje, które ma stworzyć. W rezultacie powstaje nowa, w pełni unikalna treść.
Tworzenie unikalnych danych jest możliwe dzięki algorytmom, które są zaimplementowane w generatywnym AI. Są to tak zwane sieci neuronowe generatywno-dyskryminacyjne. Pierwsza z nich nazywana jest generatorem. Odpowiada za fałszywe treści, które wyglądają przekonująco i mogłyby wprowadzić w błąd. Druga sieć to dyskryminator. Jego zadanie polega na odfiltrowaniu informacji, tak by wyłapać błędne dane i je skorygować. Obie sieci neuronowe uczą się wzajemnie od siebie, co wpływa na jakość generowanych treści.
Powiew zmian – chat GPT 3.5
W listopadzie 2022 roku światło dzienne ujrzała kolejna wersja produktu firmy OpenAI. Był to tak zwany chat GPT-3.5. Niemal natychmiast zrobiło się głośno o tym produkcie, a spekulanci wyliczali dobre i złe strony stale rozwijanej sztucznej inteligencji. Podobnie jak poprzedniczki, chat GPT-3.5 jest generatywną AI. Różnica pomiędzy wersją 3.5 a poprzednimi tkwi w szczegółach. Warto zwrócić uwagę na takie czynniki jak liczba parametrów, długość treści, którą może wygenerować i liczba języków, które może obsłużyć.
Wersja chat GPT-3.5 operuje na ogromnych bazach danych. Obsługuje około 40 języków, tworzy treści ograniczone do około 3125 słów. Cieszy się również liczbą 175 mld parametrów, co czyni ją całkiem wydajną. Kierunek rozwoju generatywnej AI, którą wytyczyła firma OpenAI, zaniepokoił ekspertów na całym świecie. Pojawiały się pesymistyczne wizje dotyczące wykorzystania SI i nadzieje związane z wykorzystaniem możliwości tego narzędzi w sferze biznesu.
Przeskok jakościowy - chat GPT-4
Do 14 marca 2023 roku pojawiła się usługa PLUS, która umożliwia zakup subskrypcji na korzystanie z bardziej zaawansowanych narzędzi. Te obejmują DALLE-3 (generatywna SI, która przetwarza treści w obrazy. Działa na licencji Microsoftu i jest powiązana z OpenAI) i chat GPT-4, która mylnie jest określana mianem kolejnej wersji popularnego chatbota.
Chat GPT-4 jest zupełnie innym narzędziem od omawianego powyżej chat GPT-3.5. To duży model językowy, który jest w pełni multimodalny. Co oznacza ten tajemniczy wyraz? Pod hasłem multimodalność kryje się umiejętność generowania nie tylko samej treści, ale i obrazów lub filmów. Nie jest to co prawda kreator grafiki, ale potrafi opisać zdjęcie, obraz bądź schemat. Potrafi też wykonywać dość skomplikowane zadania, w tym programistyczne.
Cechą szczególną tego modelu językowego jest zdolność do samouwagi. Chatbot sam potrafi wyłapać popełnione błędy i je skorygować. Jest również sterowny, co oznacza, że rzadko traci wątek, gdy postawi się pytanie wyrwane z kontekstu. Dzięki sterowności właśnie możliwa staje się dłuższa konwersacja.
Jeśli spojrzeć na możliwości chat GPT-4, to jest on 10 razy wydajniejszy od popularnej wersji 3. Ma 100 bilionów parametrów, pracuje w 50 językach i tworzy treści o długości od 8000 do 32000 słów. Taka specyfikacja tworzy już szerokie możliwości w edukacji i świecie biznesu. Tworzy też wyzwania i zagrożenia.
Wyzwania i możliwości - chat GPT-4
O ile premiera komercyjnej wersji chat GPT-3.5 wywołała spore zainteresowanie wśród użytkowników prywatnych, tak multimodalny “dinozaur” wydany w marcu 2023 roku wzbudził spore zamieszanie w świecie nauki, biznesu i polityki. Zaczęto zastanawiać się nad zagrożeniami związanymi z wykorzystaniem tego modelu językowego przez ludzi o nieczystych intencjach. Jeśli spojrzeć na sferę bezpieczeństwa zagrożeniem jest wykorzystanie tego narzędzia do tworzenia deep fake’ów. Również i przestępczy półświatek działający w darknecie nie przeszedłby obok tego narzędzia obojętnie.
Inny ciężar gatunkowy wyzwań, które stawia technologia oparta o generatywny i multimodalny model językowy, prezentuje sfera zatrudniania. AI wykonuje skomplikowane zadania szybciej i taniej niż człowiek. Wykorzystuje się ją w branży kreatywnej i marketingu. Coraz głośniej mówi się o potencjalnym zastosowaniu GPT (także w kolejnych reinkarnacjach) w pozostałych branżach (IT, edukacja, administracja publiczna, służba zdrowia, sądownictwo). Zdaniem ekspertów w ciągu zaledwie dekady AI pozbawi zatrudnienia od 30 do 50% aktywnych zawodowo ludzi.
Jak na dłoni widać, że potencjalne zmiany dotyczą gospodarki globalnej i systemu oświaty. Zawody przestaną być tak bardzo statyczne, jak do tej pory. Jeśli pokusić się o predykcje, to człowiek przyszłości będzie zmuszony przekwalifikowywać się nawet i kilka razy w ciągu całego swojego życia. Kompetencje miękkie w połączeniu z umiejętnością radzenia sobie w klimacie ciągłych zmian będą pożądane (już są).
Istnieje też jeden aspekt omawianej kwestii, niemniej istotny. Otóż głębokie przeobrażenia biznesowo-technologiczne wpływają na zmiany społeczne. Coraz głośniej wybrzmiewają wątki dotyczące gwarantowanego dochodu podstawowego. Od lat rodzi on kontrowersje. Dotyczą one wykorzystania go jako elementu zastraszania i narzędzia o charakterze opresyjnym w reżimach autokratycznych i totalitarnych.
Generatywna AI to nie tylko rzeczywistość zredukowana do wyzwań i potencjalnych zagrożeń. To również możliwości. Zmierzch części zawodów nie oznacza bowiem końca świata. Powstaną kolejne, a sytuacja dotychczasowych white collar zależeć będzie od nich samych. Generatywne i multimodalne modele językowe mogą polepszyć jakość opieki medycznej, trasportu i edukacji. Z pewnością zmniejszą koszty związane z administracją publiczną i prowadzeniem działalności. Są też dobrym punktem wyjścia do tworzenia i wdrażania nowych gałęzi usług.
Jaka jest Twoja reakcja?