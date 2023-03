fot. Levart_Photographer on Unsplash

OpenAI w końcu zaprezentowało GPT-4, model językowy nowej generacji, który był rozwijany przez większą część zeszłego roku. Czym różni się od GPT-3.5, który stanowi podstawę ChataGPT? GPT-4 to multimodalny model dużego języka, co oznacza, że może odpowiadać zarówno na zapytania tekstowe, jak i graficzne.

GPT-4, jak twierdzi OpenAI, jest też bardziej kreatywny i zabawny. Na podstawie zdjęcia zawartości lodówki, może wygenerować przepisy, które wykorzystują przedstawione składniki, a - po tym, jak zobaczy mema - może Ci wytłumaczyć, dlaczego powinien Cię śmieszyć. GPT-4 lepiej wypada też lepiej od poprzednika w różnych profesjonalnych i akademickich testach porównawczych. Na przykład zdaje symulowany egzamin adwokacki z wynikiem zbliżonym do 10% najlepszych zdających; w przeciwieństwie GPT-3.5, który oscylował w okolicy 10%.

Firma nazywa go „najnowszym kamieniem milowym w swoich wysiłkach na rzecz skalowania głębokiego uczenia”. GPT-4 jest już dostępny dla płacących użytkowników OpenAI za pośrednictwem ChatGPT Plus (są jednak limity), a programiści mogą zapisać się na listę oczekujących, aby uzyskać dostęp do interfejsu API.

Teoretycznie połączenie tekstu i obrazów mogłoby umożliwić modelom AI lepsze zrozumienie świata, bo dzięki niemu AI może być w stanie poradzić sobie z tradycyjnie słabymi punktami modeli językowych, takimi jak rozumowanie przestrzenne. Nie jest jednak jeszcze jasne, czy dotyczy to GPT-4, bo OpenAI pilnie strzeże swoich tajemnic, mimo że GPT-4 zasila już bardzo wiele narzędzi. Microsoft wdrożył go w Bing Chat, Stripe używa GPT-4 do skanowania witryn biznesowych i dostarczania podsumowania personelowi obsługi klienta, Duolingo wbudowało GPT-4 w nowy poziom subskrypcji do nauki języków, Morgan Stanley tworzy system oparty na GPT-4, który będzie pobierał informacje z dokumentów firmowych i udostępniał je analitykom finansowym, a Khan Academy wykorzystuje GPT-4 do zbudowania pewnego "automatycznego nauczyciela".

„W swobodnej rozmowie rozróżnienie między GPT-3.5 i GPT-4 może być subtelne” – napisał OpenAI w poście na blogu zapowiadającym GPT-4. „Różnica pojawia się, gdy złożoność zadania osiąga wystarczający próg — GPT-4 jest bardziej niezawodny, kreatywny i jest w stanie obsłużyć znacznie bardziej szczegółowe instrukcje niż GPT-3.5”.

Jednym z bardziej interesujących aspektów GPT-4 jest jego zdolność do rozumienia obrazów i tekstu. GPT-4 może opisywać — a nawet interpretować — stosunkowo złożone obrazy, na przykład identyfikując adapter Lightning Cable na podstawie zdjęcia podłączonego iPhone'a. Ta funkcja nie jednak jest jeszcze dostępna dla wszystkich klientów OpenAI. OpenAI testuje ją na początek z jednym partnerem, firmą Be My Eyes. Obsługiwana przez GPT-4, nowa funkcja wirtualnego wolontariusza Be My Eyes może odpowiadać na pytania dotyczące przesłanych do niej obrazów.

Wraz z GPT-4, OpenAI wprowadza nową funkcję API, komunikaty „systemowe”, które pozwalają programistom określać styl i zadania poprzez opisywanie konkretnych kierunków. Komunikaty systemowe, które pojawią się również w ChatGPT w przyszłości, to zasadniczo instrukcje, które nadają ton — i ustalają granice — dla kolejnych interakcji sztucznej inteligencji.

Jednak nawet z komunikatami systemowymi i innymi aktualizacjami OpenAI przyznaje, że GPT-4 jest daleki od doskonałości. Nadal „ma halucynacje” faktami i popełnia błędy w rozumowaniu, czasami z dużą pewnością siebie. W jednym przykładzie cytowanym przez OpenAI, GPT-4 opisał Elvisa Presleya jako „syna aktora” – oczywisty błąd.