SeamlessM4T, który może tłumaczyć i transkrybować blisko 100 języków w tekście i mowie, jest dostępny w modelu open source, wraz z zestawem danych do tłumaczenia SeamlessAlign.
Meta właśnie dołożyła kolejną cegiełkę do rozwoju Generative AI i stworzyła model sztucznej inteligencji, SeamlessM4T, który może tłumaczyć i transkrybować blisko 100 języków w tekście i mowie. Jest on dostępny w modelu open source, wraz z zestawem danych do tłumaczenia SeamlessAlign.
Meta twierdzi, że SeamlessM4T stanowi "znaczący przełom" w AI, które tłumaczy "mowę na mowę" lub "mowę na tekst".
- Nasz model zapewnia tłumaczenia na żądanie, umożliwiając osobom posługującym się różnymi językami efektywniejszą komunikację, pisze Meta. - SeamlessM4T rozpoznaje języki źródłowe bez konieczności korzystania z oddzielnego modelu identyfikacji języka.
SeamlessM4T jest w pewnym sensie następcą modelu tłumaczenia maszynowego "tekst na tekst" - No Language Left Behind oraz Uniwersalnego Tłumacza Mowy, jednego z niewielu bezpośrednich systemów tłumaczenia "mowy na mowę" obsługującego język Hokkien. Rozbudowuje ono także Massively Multilingual Speech, framework Mety, który zapewnia technologię rozpoznawania mowy, identyfikacji języka i syntezy mowy dla ponad 1100 języków.
Meta nie jest jedyną firmą inwestującą w rozwijanie zaawansowanych narzędzi sztucznej inteligencji do tłumaczenia i transkrypcji.
Poza dostępnymi już usługami komercyjnymi i modelami open source od takich firm jak Amazon, Microsoft, OpenAI, Google tworzy tzw. Uniwersalny Model Mowy, który jest częścią większej inicjatywy giganta mającej na celu zbudowanie modelu zdolnego do zrozumienia tysiąca najpopularniejszych języków na świecie. Mozilla z kolei przewodzi projektowi Common Voice, w którym opracowywane są algorytmy do trenowania automatycznego rozpoznawania mowy.
Jednak SeamlessM4T należy do bardziej ambitnych dotychczasowych prób połączenia zdolności tłumaczenia i transkrypcji w ramach jednego modelu.
Meta twierdzi, że do jego stworzenia wykorzystała publicznie dostępny tekst (w ilości rzędu "dziesiątek miliardów" zdań) oraz mowę (4 miliony godzin) z internetu. Dokładne dane nie zostały jednak ujawnione, choć firma podkreśla, że pozyskane przez nią dane — które mogą zawierać dane identyfikujące osobę — nie były chronione prawem autorskim i pochodziły głównie z otwartego źródła lub źródeł z licencją.
Tak czy owak. Meta wykorzystała pozyskany tekst i mowę do stworzenia zbioru danych treningowych dla SeamlessM4T, nazwanego SeamlessAlign. Naukowcy dopasowali 443 000 godzin mowy do tekstów i stworzyli 29 000 godzin "dopasowania mowy do mowy", które "nauczyły" SeamlessM4T, jak transkrybować mowę na tekst, tłumaczyć tekst, generować mowę z tekstu oraz tłumaczyć słowa wypowiedziane w jednym języku na słowa w innym języku.
Wierzymy, że SeamlessM4T jest istotnym przełomem w dążeniu społeczności AI do stworzenia uniwersalnych systemów wielozadaniowych", napisała Meta w poście na blogu.
Pobierz ebook "Jak otworzyć sklep internetowy - ebook z poradami dla firm"
Zaloguj się, a jeśli nie masz jeszcze konta w Interaktywnie.com - możesz się zarejestrować albo zalogować przez Facebooka.
Pozycjonujemy się jako alternatywa dla agencji sieciowych, oferując konkurencyjną jakość, niższe koszty i większą …
Zobacz profil w katalogu firm
»
W 1999 roku stworzyliśmy jedną z pierwszych firm hostingowych w Polsce. Od tego czasu …
Zobacz profil w katalogu firm
»
Pomagamy markom odnosić sukces w Internecie. Specjalizujemy się w pozycjonowaniu stron, performance marketingu, social …
Zobacz profil w katalogu firm
»
Projektujemy i wdrażamy strony internetowe - m.in. sklepy, landing page, firmowe. Świadczymy usługi związane …
Zobacz profil w katalogu firm
»
1stplace.pl to profesjonalna agencja SEO/SEM, specjalizująca się w szeroko pojętym marketingu internetowym. Firma oferuje …
Zobacz profil w katalogu firm
»