
A konkretniej są to dwa modele z tej Llama 3. Reszta ma być udostępniona w nieokreślonej przyszłości.
Nowe modele - Llama 3 8B, zawierający 8 miliardów parametrów, i Llama 3 70B, zawierający 70 miliardów parametrów - to według Mety - "wielki wydajnościowy skok" w porównaniu do poprzedniej generacji.
Parametry w zasadzie określają umiejętności modelu AI w rozwiązywaniu problemów, takich jak analiza i generowanie tekstu; modele z większą liczbą parametrów są ogólnie bardziej zdolne. Modele Llama 3 8B i Llama 3 70B zostały przeszkolone na dwóch niestandardowych klastrach GPU zawierających 24 000 jednostek i należą do najlepiej działających modeli AI generatywnej dostępnych dzisiaj.
Jakie wyniki osiągają nowe modele Mety?
Meta wskazuje na ich wyniki osiągane w najpopularniejszych benchmarkach AI, takich jak MMLU (który próbuje mierzyć wiedzę), ARC (który próbuje mierzyć nabywanie umiejętności) i DROP (który testuje rozumowanie modelu nad fragmentami tekstu). Mimo że ich wiarygodność budzi wątpliwości, pozostają one jednym z niewielu standaryzowanych sposobów, którymi posługują się gracze, tacy jak Meta, oceniając swoje modele.
Llama 3 8B przewyższa inne otwarte modele, takie jak Mistral Mistral 7B i Google Gemma 7B (oba zawierające 7 miliardów parametrów) na co najmniej dziewięciu benchmarkach: MMLU, ARC, DROP, GPQA (zbiór pytań z biologii, fizyki i chemii), HumanEval (test generacji kodu), GSM-8K (problemy matematyczne), MATH (inny benchmark matematyczny), AGIEval (zestaw testów rozwiązywania problemów) oraz BIG-Bench Hard (ocena rozumowania na podstawie zdrowego rozsądku).
Llama 3 70B pokonuje Gemini 1.5 Pro na MMLU, HumanEval i GSM-8K, i - chociaż nie dorównuje najbardziej wydajnemu modelowi Anthropic, Claude 3 Opus - uzyskuje lepsze wyniki niż najmocniejszy model z serii Claude 3, Claude 3 Sonnet, na pięciu benchmarkach (MMLU, GPQA, HumanEval, GSM-8K i MATH).
Jak działają modele Llama 3?
Meta twierdzi, że użytkownicy nowych modeli mogą spodziewać się większej "sterowności", mniejszej skłonności do odmowy odpowiadania na pytania i większej dokładności w pytaniach związanych z historią i dziedzinami STEM, takimi jak inżynieria, nauka oraz ogólne rekomendacje dotyczące kodowania.
Jest to częściowo zasługa znacznie większego zbioru danych: kolekcji 15 bilionów tokenów, czyli zestawi siedmiokrotnie większego niż zbiór treningowy Llama 2. Skąd pochodzą te dane? Tego Meta nie chciała ujawnić, podając tylko, że korzystała z "publicznie dostępnych źródeł", zawiera cztery razy więcej kodu niż w zbiorze treningowym Llama 2 i że 5% tego zbioru zawiera dane niemieckie (w około 30 językach), aby poprawić wydajność w językach oprócz angielskiego.
Meta twierdziła również, że użyła syntetycznych danych - tj. danych wygenerowanych przez AI - aby stworzyć dłuższe dokumenty, na których miały być trenowane modele Llama 3, co jest dość kontrowersyjnym podejściem ze względu na potencjalne wady wydajnościowe.
Wprawdzie modele, które dziś udostępniamy, są dostosowane tylko do generowania treści w języku angielskim, zwiększona różnorodność danych pomaga modelom lepiej rozpoznawać subtelności i wzorce oraz skutecznie wykonywać różnorodne zadania.
- pisze Meta w poście na blogu udostępnionym dla TechCrunch.
Wielu dostawców LLMów uważa dane treningowe za przewagę konkurencyjną i dlatego zachowuje je i związane z nimi informacje w tajemnicy. To właśnie te szczegóły są również potencjalnym źródłem procesów sądowych związanych z prawami własności intelektualnej, co stanowi kolejny powód do nieujawniania zbyt wielu informacji.
Ostatnie doniesienia ujawniły, że Meta, dążąc do utrzymania konkurencyjności, w pewnym momencie używała chronionych prawami autorskimi ebooków do szkolenia AI, pomimo ostrzeżeń własnych prawników firmy; Meta i OpenAI są przedmiotem trwającego procesu sądowego wytoczonego przez autorów, w tym komiczkę Sarah Silverman, z powodu rzekomego nieautoryzowanego wykorzystania danych chronionych prawem autorskim do szkolenia.
Jak Llama 3 radzi sobie z toksycznością i stronniczością. Według Mety - lepiej.
Meta twierdzi, że opracowała nowe sposoby filtrowania danych, aby podnieść jakość danych treningowych modelu, i zaktualizowała swoje pakiety bezpieczeństwa.
Modele Llama 3 są dostępne do pobrania już teraz i zasilają Meta AI assistant na Facebooku, Instagramie, WhatsApp i Messengerze. Wkrótce będą hostowane na innych platformach chmurowych, w tym AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, Nvidia NIM i Snowflake. W przyszłości wersje modeli zoptymalizowane pod kątem sprzętu od AMD, AWS, Della, Intela, Nvidii i Qualcomm również zostaną udostępnione.
Pobierz ebook "Ecommerce w 2025 r. Ebook z poradami dla firm"
Zaloguj się, a jeśli nie masz jeszcze konta w Interaktywnie.com - możesz się zarejestrować albo zalogować przez Facebooka.
Pozycjonujemy się jako alternatywa dla agencji sieciowych, oferując konkurencyjną jakość, niższe koszty i większą …
Zobacz profil w katalogu firm
»
1stplace.pl to profesjonalna agencja SEO/SEM, specjalizująca się w szeroko pojętym marketingu internetowym. Firma oferuje …
Zobacz profil w katalogu firm
»
Projektujemy i wdrażamy strony internetowe - m.in. sklepy, landing page, firmowe. Świadczymy usługi związane …
Zobacz profil w katalogu firm
»
Pomagamy markom odnosić sukces w Internecie. Specjalizujemy się w pozycjonowaniu stron, performance marketingu, social …
Zobacz profil w katalogu firm
»
W 1999 roku stworzyliśmy jedną z pierwszych firm hostingowych w Polsce. Od tego czasu …
Zobacz profil w katalogu firm
»