Trwają prace nad aplikacją, która pozwoli tłumaczenie w czasie rzeczywistym rozmów prowadzonych przez telefon komórkowy. Choć przedstawiciele Google przekonują, że wkroczyli już w zaawansowane stadium projektu, to najprawdopodobniej na takie oprogramowanie przyjdzie nam poczekać jeszcze klika lat. Warto przyjrzeć się, na czym polega praca firmy z Mountain View i co może oznaczać dla użytkowników stworzenie tego typu narzędzia.
Trochę historii
Jak podkreśla Monika Konieczny, project manager EmpathyInternet Software House, prace nad stworzeniem aplikacji umożliwiającej automatyczne tłumaczenie (zarówno tekstów, jak i mowy)trwają praktycznie od lat 60. XX wieku. Był to jeden z pierwszych problemów, jaki zajął naukowców, od kiedy stworzony został komputer. Niemal równolegle z tym procesem prowadzone były badania nad stworzeniem syntezatora i generatora mowy. Działania Google nad stworzeniem aplikacji umożliwiającej tłumaczenie rozmów w czasie rzeczywistym poprzedza wiele lat zmagań na tym polu.Telefoniczny tłumacz ma wykorzystywać dwa znane już narzędzia Google - internetowy translator (Google Translate) oraz system rozpoznawania głosu wykorzystywanego m.in. w Androidzie. Nowy system ma obsługiwać wszystkie popularne języki na świecie.
- W ostatnich latach w dziedzinie rozpoznawania, tłumaczenia i syntetyzowania mowy nastąpił gigantyczny postęp. I dlatego możliwe będzie stworzenie automatycznego tłumacza, który może działać w tak niewielkim urządzeniu jak telefon komórkowy - powiedział szef programów tłumaczeń Google'a Franz Och w rozmowie dla Timesonline.co.uk.
Jak to działa?
Proces przekładu mowy przez maszynę możemy składa się z kilku etapów. Najpierw głos musi zostać nagrany i odpowiednio przetworzony na tekst pisany. Tak uzyskany tekst zostaje przetłumaczony (przez np. GoogleTranslate) i następnie przetworzony przez syntezator mowy. Do istotnych przekłamań może dojść na każdym z tych etapów. Najtrudniejsza jest pierwsza faza procesu. Dlaczego? - Każdy z nas ma swój niezwykle indywidualny sposób mówienia i zniekształcania niektórych wyrazów. Często zdarza się, że dana osoba mówi na tyle niewyraźnie, że odbiorcy trudno ją zrozumieć nawet gdy, gdy posługuje się w tym samym językiem. Stopień trudności jest znacząco wyższy gdy sprawa dotyczy języka innego niż ojczysty. Specyfika języka, wielość kontekstów dodatkowo komplikuje sprawę - mówi Monika Konieczny.
Niejednokrotnie korzystając z tradycyjnego translatora, otrzymujemy zabawne, nie do końca wierne oryginałowi przekłady. Przy narzędziu, które dodatkowo musi odszyfrować to, co zostało powiedziane, sprawa utrudniona jest podwójnie.
- Dodatkowym problemem jest wieloznaczność (dezambiguacji) używanych przez nas wyrazów i sformułowań. Dla przykładu angielskie słowo „file” w kontekście informatycznym oznacza plik, w prawniczym – akta, potocznie przetłumaczyć je można również jako pilnik. Gdy pojawi się w wypowiedzi, może przysporzyć wiele problemów. GoogleTranslate bazuje między innymi na mechanizmie tłumaczenia przez analogię do którego wykorzystywane są ogromne korpusy wielojęzyczne - wyjaśnia Konieczny.
Choć na zrealizowanie każdego z tych etapów translator będzie potrzebował nieco czasu, to już aktualnie wykorzystywane internetowe technologie, jak choćby Google Translate, czy syntezatory mowy, jak polska Ivona, pokazują, że mówimy tutaj o milisekundach.
Co potem?
Google ciągle pracuje nad tym, by udoskonalić swój system tłumaczeń. Włączając w pracę nad translacją ogromną społeczność, której członkowie mogą edytować poszczególne teksty, firma zyskuje sporą grupę darmowych tłumaczeń. Zdaniem Moniki Konieczny, prawdopodobnie po oddaniu do użycia tworzonego właśnie translatora mowy sprawa wyglądać będzie podobnie. Ludzie dla zabawy będą nagrywać swoje wypowiedzi. Dzięki temu Google będzie mogło stworzyć dużą bazę głosów, co pozwoli na nieustanne dopracowywanie aplikacji i poprawianie jakości przekładu mowy na pismo a co za tym idzie – samego tłumaczenia tekstów.
- Wydaje mi się, że Google w pierwszej fazie udostępni bezpłatnie mechanizm ogromnej społeczności biorącej niezwykle aktywny udział w pracach nad kolejnymi projektami Google. Dzięki temu zyska tysiące aktywnych testerów, którzy będą mieli ogromny wpływ na ostateczny obszar narzędzia. Dopiero w kolejnej fazie, gdy jakość tłumaczeń osiągnie komercyjny poziom, umożliwi korzystanie z wersji aplikacji przystosowanych do obsługi wysoce specjalistycznych tłumaczeń z dziedziny prawa, medycyny, etc. - mówi Konieczny. Kiedy możemy spodziewać się nowego narzędzia? Trudno jest jednoznacznie stwierdzić. - Mam nadzieję, że tłumaczenie mowy w czasie rzeczywistym możliwie będzie już za 2-5 lat - dodaje.
Zgodnie z obecnymi założeniami technologia ma obsługiwać 52 języki świata. W przyszłości - jak zapowiada Google - swoim zasięgiem objąć może nawet sześć tysięcy języków.
Google wzoruje się na polskiej firmie?
O komentarz w sprawie projektu Google poprosiliśmy również Edward Żołędzia z Teleconsulting.
- Firma Google przechwyciła nasz pomysł i próbuje go zrealizować. Nad naszym projektem pracujemy przeszło trzy lata. Z powodu niewielkich środków finansowych i braku zainteresowania ze strony osób obsługujących w ramach funduszy pomysły innowacyjne, prace przedłużają się. Mamy konkurencję w postaci w/w firmy – komentuje Żołędź.
Żołędź wyjaśnia, jak z technicznego punktu widzenia możliwe jest stworzenie takiego rozwiązania, jak projektu Teleconsulting-Tłumacz czy pomysł Google. Jego zdaniem wszystko zależy od przyjętych rozwiązań technicznych i organizacyjnych. - Wbrew potocznym opiniom, odwzorowanie tłumaczenia może odbywać się lepiej niż przy korzystaniu z tłumacza symultanicznego. To tylko kwestia zastosowanych narzędzi. Telefon komórkowy może być nośnikiem większego systemu lub narzędziem wykorzystywanym do zwięzłych i prostych dialogów – mówi Żołędź.
Podkreśla on, że komórka jako narzędzie na początku będzie zawodziła, ale tylko dlatego, że musi nauczyć się pewnych zasad jej użytkownik. - W sytuacji zaawansowanej projekt może funkcjonować lepiej niż obecne translatory, a nawet bez błędnie. Nie zgadzam się z twierdzeniem, że maszyna może być gorsza, jak każde inne urządzenie ma prawo się psuć i tylko tyle, reszta zależy od tego czegoś, co w nią włożymy! – dodaje.
Taka aplikacja jest pierwszym krokiem w porozumiewaniu się ludzi - w przekazywaniu dialogów, myśli na zasadzie odwzorowania telepatycznego. - Z oczywistych względów jest to jeszcze daleka przyszłość – podusmowuje Żołędź.
Pobierz ebook "Social media marketing dla firm i agencje się w nim specjalizujące"
Zaloguj się, a jeśli nie masz jeszcze konta w Interaktywnie.com - możesz się zarejestrować albo zalogować przez Facebooka.
Pozycjonujemy się jako alternatywa dla agencji sieciowych, oferując konkurencyjną jakość, niższe koszty i większą …
Zobacz profil w katalogu firm
»
1stplace.pl to profesjonalna agencja SEO/SEM, specjalizująca się w szeroko pojętym marketingu internetowym. Firma oferuje …
Zobacz profil w katalogu firm
»
W 1999 roku stworzyliśmy jedną z pierwszych firm hostingowych w Polsce. Od tego czasu …
Zobacz profil w katalogu firm
»
Projektujemy i wdrażamy strony internetowe - m.in. sklepy, landing page, firmowe. Świadczymy usługi związane …
Zobacz profil w katalogu firm
»
Pomagamy markom odnosić sukces w Internecie. Specjalizujemy się w pozycjonowaniu stron, performance marketingu, social …
Zobacz profil w katalogu firm
»
He he he, system rozpoznawania mowy :-)<br /> Miałem takie cuś w telefonie, że wystarczyło niby powiedzieć "dom" albo "żona" i telefon miał sam rozpoznać i zadzwonić. Nie chce pisac, ile faków poszło na ten ficzer, zanim go wyłączyłem :-)
JEST TO BARDZO PROSTE ROZWIĄZANIE, TYLKO TYLE ŻE KOSZTOWNE I PRACOCHŁONNE.<br /> <br /> E.Ż
Globalizator działa 2-fazowo. Najpierw jest tworzone automatyczne tłumaczenie przy pomocy Translatiki oraz modułu tłumaczącego przez analogię (wykorzystującego pamięci tłumaczeń). Dopiero to wstępne tłumaczenie maszynowe jest przekazywane do tłumaczy-ludzi, którzy je weryfikują/korygują. Dzięki temu cały proces tłumaczenia jest szybszy, zwiększa się pamięć tłumaczeń.
Ale z tego co widzę globalizator to tylko nakładka na serwis, a prace tłumaczeniowe wykonują tam ludzie. Czyli nie jest to tłumaczenie maszynowe.
Hmm niestety pewnie jeszcze sporo czasu minie zanim jakość tłumaczeń słowa mówionego będzie na akceptowalnym poziomie. W Polsce też trwają prace nad aplikacjami związanymi z tłumaczeniem automatycznym. Ciekawym przykładem jest np. <a href="http://globalizator.pl" target="_blank" rel="nofollow">http://globalizator.pl</a> - na razie tylko tłumaczenie tekstów (ale z jakością wyższą niż google bo oprócz automatów nad tłumaczeniami praują również ludzie) ale pewnie niebawem również tłumaczenia mowy :)
Jakieś 2-3 tygodnie temu, widziałem już działający system Googla <br /> Dźwięk (lektor Francuski) - > AI - > Angielskie napisy; więc zostało dopracowanie mechanizmu, a potem zrobienie lektora... ale to akurat pikuś ;)
BZDURY UKRADLI POMYSŁ. CUDZE CHWALICIE WŁASNEGO NIE ZNACIE.<br /> ZOBACZ <a href="http://www.teleconsulting.pl" target="_blank" rel="nofollow">http://www.teleconsulting.pl</a><br />
konkretny krok. Ciekawe jaka będzie jakość tego wszystkiego
zakładam ze Google nie podchodziłoby do tematu nei mając pomysłu na tłumaczenie dzwięk-dzwięk... w każdym innym wypadku ta funkcjonalonosc moze sie okazać ulomna
Do czasu stworzenia prawdziwego AI, każde tłumaczenie maszynowe będzie ułomne.<br /> <br /> Poza tym przejście przez tak dużą liczbę systemów (dźwięk -> tekst -> tłumaczenie -> tekst-> dźwięk) musi powodować błędy.
Niesamowite. Jestem ciekaw efektów, chociaż spodziewam się, że wyjdą często takie potworki jak w przypadku automatycznego tłumaczenia tekstów ;)