Głos z maszyny

Syntetyczna mowa coraz śmielej wkracza w nasze życie. Forma stosowanego w tych urządzeniach głosu jest na tyle doskonała, że często trudno odróżnić wygenerowaną mowę od mowy człowieka.

Syntetyczna mowa coraz śmielej wkracza w nasze życie. Korzystamy już z usług używających sztucznego głosu komputerów, biletomatów, bankomatów, wirtualnych asystentów czy telefonicznych konsultantów. Forma stosowanego w tych urządzeniach głosu jest na tyle doskonała, że często trudno odróżnić wygenerowaną mowę od mowy człowieka.

Czy zatem wkraczamy w erę, kiedy konsultanci, doradcy czy sprzedawcy zostaną zastąpieni przez systemy komputerowe? Prawdopodobnie niedługo tak się stanie, dlatego warto dowiedzieć się jak konstruowana jest mowa syntetyczna, a także spojrzeć z perspektywy firmy, która może czerpać z niej korzyści.

Początki syntezy mowy
Mówiące komputery pojawiały się w fantastyce naukowej, w filmach i książkach jeszcze w latach 60/70 ubiegłego wieku. Pamiętamy z owych publikacji jak potężne systemy, czy np. inteligentne domy, mówiły do nas wyraźnym głosem przypominającym do złudzenia ludzki. Jednym z najpopularniejszych urządzeń mówiących w latach 80/90 ubiegłego wieku był KITT (Knight Industries Two Thousand) z popularnego serialu telewizyjnego „Knight Rider” – każdy widział choć jeden odcinek, a jeśli nie, to prawdopodobnie przynajmniej słyszał o „gadającym samochodzie”. Od tego czasu to wyobrażenie o maszynach komunikujących się ludzkim głosem nabrało nieco innego kształtu. Dzisiaj każdy na stacjonarnym komputerze może uruchomić syntezator mowy i sprawić, by przysłowiowy pecet przemówił.

Jednak mimo faktu, że syntezę mowy łączymy ściśle z XX czy też nawet XXI wiekiem, to pierwsze próby odtworzenia głosu miały już miejsce w późnym wieku XVIII, a dokładniej w 1779 roku, kiedy Christian Kratzenstein zbudował model, za pomocą którego można było odtworzyć 5 samogłosek: a, e, i, o, u. Kilka lat później - w 1791 roku - kolejny projekt tworzenia mowy przedstawił Wolfgang von Kempelen. W dużym skrócie jego ideą było skonstruowanie urządzenia, które za pomocą przepuszczanego przez odpowiednie rurki powietrza wyda określony dźwięk. Maszynę według wyliczeń Kempelena w połowie XIX wieku zbudował Charles Wheatstone.

Kolejne ciekawe projekty pojawiły się już w połowie XX wieku. Jednym z nich był Pattern Playback wynaleziony przez Franka Coopera w Haskins Labs. Jego model opierał się na badaniu intensywności składowych spektogramu nagranej rozmowy. Następnie nastała era komputerów, a wraz z nią rozpoczął się nowy rozdział w syntezie mowy.

Dzisiejsza synteza mowy
Obecnie dominująca forma syntezy mowy rozpoczęła się wraz z początkami komputerów około roku 1950. Wydawać by się mogło, że najlepszym umożliwiającym syntezę rozwiązaniem jest nagrywanie całych sentencji, słów czy sylab. Jednak próby odtwarzania tak ułożonych zdań brzmiały nienaturalnie. Brakowało im m.in. intonacji, rytmu czy właściwej szybkości. Naukowcy doszli zatem do wniosku, że znacznie łatwiej jest modelować wyrazy oraz całe zdania, składając je ze znacznie mniejszych cząstek, odpowiadających pojedynczym lub też podwójnym głosom. Właśnie to zjawisko przyjęto się nazywać przetwarzaniem tekstu w mowę, czyli Text-To-Speech (TTS). Nie ma przy tym znaczenia czy jest on wprowadzany ręcznie, zapisany w pliku czy też jest wynikiem pracy systemu OCR (Optical Character Recognition). Dużą zaletą TTS, w porównaniu do nagrywania wyrazów bądź zdań, jest fakt, że stosując mniejsze jednostki, można w stosunkowo prosty sposób zapisać dane obejmujące - co może wydawać się niewiarygodne - cały język.

Naukowcy pracujący nad rozwojem najlepszej metody TTS przywołują stwierdzenia, że język jakim posługujemy się i tak nie jest przecież idealny. Warto jednak wykorzystać naturalny sposób jego przyswajania. Dla przykładu, zaczynając od wczesnych lat rozwoju człowiek, jeszcze jako dziecko, uczy się poszczególnych zasad budowy zdań, intonacji, przejść, itp. Dopiero na pewnym etapie rozwoju osiąga na tyle gruntowną wiedzę, która pozwala mu na wypowiedzenie praktycznie każdego zdania bezbłędnie. Wystarczy zatem przygotować odpowiedni zestaw początkowy, bazę danych i zaprzęgnąć odpowiednio skonstruowane algorytmy sztucznej inteligencji, żeby otrzymać system, który sam nauczy się wypowiadać prawidłowo wszystkie możliwe zdania.

Jeśli rozpatrujemy model TTS, to jest on identyczny dla wszystkich przypadków
Modelowanie mowy, czyli synteza
Idealny system syntezy mowy powinien składać się z dwóch elementów - modułów podzielonych na dodatkowe mniejsze segmenty. Pierwszą z większych części jest NLP (Natural Language Processing), który odpowiada za przygotowanie zapisu fonetycznego tekstu czytanego z odpowiednią intonacją i rytmiką. Generowane jednostki pojedyncze noszą nazwę fonemów. Jednak w zależności od wyboru metody mogą być tworzone także difony – podwójne, trifony – potrójne.

Drugi moduł DSP (Digital Signal Processing), jak sama nazwa wskazuje, przetwarza sygnał cyfrowy, czyli zamienia dane otrzymane z NLP na mowę mówioną. Odpowiadają za to zastosowane algorytmy. Do tej pory używano czterech różnych metod:

1. Synteza formantowa
Jest najprostsza w implementacji, ale jej ogromną wadą jest niska jakość generowanej mowy. Skonstruowanie w oparciu o nią modelu sprowadza się do zaprojektowania filtrów cyfrowych generujących dźwięk o częstotliwościach zbliżonych do mowy ludzkiej i charakterystycznych dla poszczególnych głosek. Utworzony w ten sposób sygnał odzwierciedla charakterystyczne formanty głoski. Używając go nie jesteśmy jednak w stanie prawidłowo zamodelować głosu.

2. Synteza artykulacyjna
Daje znacznie lepsze efekty niż synteza formantowa, jednak podobnie jak ona charakteryzuje się przetwarzaniem za pomocą reguł. To co odróżnia ją od najprostszego sposobu to to przechowywanie w badzie danej głoski – jest on opisana około 60-cioma parametrami. Mimo faktu, że znacznie udoskonala to opis, to jednak równie bardzo go kompikuje. Tak więc obliczenia nad wyganerowaniem stosownego dźwięku trwają zbyt długo. Dodatkowo należy wspomnieć o problemach jakie występują z analogiem elektromagnetycznym, który odpowiada za generowanie głosek. Wszystko to powoduje, że metoda artykulacyjna nie jest zbytnio popularna.

3. Synteza konkatenacyjna
Rozwijana od lat 70 ubiegłego wieku, jest jednocześnie jedną z najczęściej używanych metod syntezy mowy. Popularność zapewniło jej generowanie, w stosunkowo prosty sposób, bardzo naturalnej, dobrze brzmiącej i zrozumiałej mowy. Konkatenacja opiera się na kilku etapach, z których pierwszym jest nagranie odczytu lektora wymawiajacego charakterystyczne dla danego języka frazy. Kolejnym jest podział nagrania na najmniejsze jednostki naturalnej mowy (fony, difony, trifony i sylaby). Konkatenacja oparta na słowach jest niepraktyczna ze względu na liczbę wszystkich wyrazów i różnice przejść pomiędzy nimi. Trochę lepiej sytuacja wygląda przy wykorzystaniu sylab. Jednak z uwagi na ich liczbę, w zależności od języka, nawet 160 000 nie wydaje się optymalnym rozwiązaniem. Natomiast ze względu na stosunkowo niewielką liczbę difonów (np. dla języka angielskiego 1500), to właśnie ich używa się najczęściej do modelowania mowy.

Stworzona z difonów baza jest wykorzystywana w kolejnych etapach do budowania pojedynczych wyrazów i w efekcie całych zdań. Nie ma zatem potrzeby ich przechowywania, dzięki czemu rozmiar bazy może zostać zachowany na minimalnym poziomie. Dzięki temu można ją przeszukiwać na średniej klasy komputerze w czasie niemal rzeczywistym, bez potrzeby angażowania dużej mocy obliczeniowej.

W tym momencie wypadałoby także wspomnieć czym jest sami difon. Otóż jest to dźwięk jaki powstaje ze sklejenia drugiej połowy dźwięku głoski poprzedzającej i pierwszej połowy głoski następnej. W ten sposób- oprócz głosek - zapisuje się ważniejsze przejścia pomiędzy nimi, co umożliwia generowanie naturalnie brzmiącej mowy. Czas trwania difonu jest dłuższy i jego granice łatwiej znaleźć niż w przypadku pojedynczego fonemu.

Oprócz wielu zalet konkatenacja ma także wady, które powodują że nadal próbuje się nowych rozwiązań. Do negatywów metody możemy zaliczyć:

konkatenacja jednostek nagranych w różnych kontekstach;
problem wyboru jednostek akustycznych;
modyfikacja intonacji i czasu trwania;
problem kompresji nagranych segmentów.

4. Synteza korpusowa
Jest modyfikacją metody konkatenacyjnej. W wykorzystywanej przez nią bazie jednostek mogą znaleźć się zarówno difony, sylaby, trifony, a nawet całe wyrazy. Dodatkowo każdy z nich może być przechowywany w wielu postaciach głosowych. Synteza korpusowa polega na optymalnym doborze określonej jednostki w zależności od wyniku funkcji szacującej. Podstawowym warunkiem jest to, aby wypowiedziana mowa był jak najbardziej naturalna. Dla przykładu zdanie „Ola ma kwiat” najprawdopodobniej zostanie wygenerowane z całych wyrazów, ponieważ wspomniana funkcja zminimalizuje liczbę błędów na sklejeniach. W porównaniu do zdania „Ola nie ma kwiatów”, wyraz „kwiatów” zostanie wygenerowany z mniejszych jednostek. Jest to spowodowane faktem ograniczenia bazy – nie mogą się w niej znajdować wyrażenia w innych przypadkach niż podstawowe, czyli w mianowniku.

Obecnie prowadzone są badania nad udoskonaleniem funkcji estymacji. Celem jest utworzenie takiego równania, które wybierze najbardziej zbliżoną do mowy ludzkiej sekwencję jednostek akustycznych. Praktycznie jedynym problemem jest rozmiar korpusu, który może wynosić nawet kilkaset megabajtów, oraz złożoność procesu obliczeniowego. Dlatego mimo faktu generowania bardzo dobrej mowy, synteza korpusowa nie zyskuje na popularności.

Synteza mowy w Ivonie i podobnych rozwiązaniach

Proces powstawania silnika przetwarzania mowy jest charakterystyczny w zależności od wybranej metody. Na rynku tego typu aplikacji działa także polska firma Ivo Software, która stworzyła nagradzany również za granicą silnik Ivona. Udostępniła ona schemat swoich prac, który został podzielony na dwie części.

W pierwszej - tzw. offline - tworzona jest baza difonów. Najpierw jednak, po wyborze określonego języka, dla którego Ivo tworzy syntezę, określana jest baza podstawowych zwrotów, które następnie odczytywane są przez lektora i nagrywane w studiu. Następnie rozpoczyna się proces podziału na difony, badanie formy dźwiękowej i ewentualne poprawienie błędów. Na tym etapie Ivo wykorzystuje także stworzone przez siebie algorytmy sztucznej inteligencji, które przeglądają bazę i tworzą naturalne przejścia i reguły. Po zakończeniu fazy budowy bazy przechodzi się do konstruowania części online, czyli przetwarzania tekstu na mowę. W niej wprowadzany tekst jest dzielony na małe fragmenty, które wybierane są za pomocą funkcji, określającej jaką reprezentację fonetyczną przypisać przeczytanemu tekstowi. Ostatnim momentem jest już generacja cyfrowej mowy. Kiedy silnik i syntezator są gotowe, można je wykorzystać na wielu polach.

Ivona - jeden z najbardziej rozpoznawalnych polskich syntezatorów mowy
Zastosowania syntezy mowy
Można zastanawiać się komu tak naprawdę potrzebna jest synteza mowy. Okazuje się, że w życiu codziennym można znaleźć dla niej wiele zastosowań. I nie mówimy tutaj o podziale na osoby zdrowe i chore, czyli np. niedowidzące lub niewidome. Mówimy raczej o potrzebach każdego z nas.

Jaka jest zaleta zastosowania mowy syntetycznej w porównaniu do nagrywania jej na żywo? W każdym momencie można ją w prosty sposób zmienić, bez ingerencji w system. Co również ważne, mowa taka jest bardzo wyraźna, w porównaniu do standardowej mowy człowieka.

Jednym z pierwszych rynków, który szeroko sięgną po możliwości zatrudniania wirtualnych konsultantów i sekretarek, była telekomunikacja. Dlatego dzisiaj, kiedy dzwonimy na infolinię czy call-center, w wielu przypadkach rozmawiamy z automatem. Czasami jest on wykorzystywany także do udzielania informacji handlowych, czytania poczty głosowej, czy wiadomości SMS, e-mail i innych. Dla firmy jest to duże cięcie kosztów, a dodatkowo „zatrudniają” pracownika, który jest w stanie odpowiadać na pytania dzwoniących niezależnie od pory dnia i nocy i - co ważne - nigdy się nie myli.

Rozszerzenie automatycznych sekretarek o algorytmy sztucznej inteligencji, pozwoliło także na opracowanie systemów wirtualnych asystentów, sprzedawanych np. przez firmę fido:intelligence. Proponują oni przygotowanie pracownika, z którym będzie się można porozumiewać nie tylko przez pisanie tekstu, ale także przez mowę. Wirtualny asystent będzie się również uczyć w trakcie rozmowy z potencjalnym klientem, co ma zapewnić jeszcze lepsze zrozumienie i wrażenie naturalności u drugiego rozmówcy. Możemy go wykorzystać np. na stronie internetowej jako doradcę.

Innym rynkiem, na jakim wykorzystywana jest synteza mowy, jest edukacja językowa. Po przygotowaniu syntezatora nagranego przez native speakera, można w prosty sposób konfrontować swoją wymowę z lektorem i starać się ją poprawiać, zgodnie z „elektronicznym ideałem”. Można także wykorzystać syntezę do stworzenia platformy e-leariningowej i edykacyjnej, która pomoże przeprowadzać kursy zdalnie. Inną formą nauki, w której także może zostać wykorzystana synteza są słowniki multimedialne.

Odrębną działkę stanowią zabawki i proste urządzenia mówiące. Ostatnio, szczególnie w Stanach Zjednoczonych, ale także i innych krajach, rynek ten staje się coraz większy (również w Polsce). Najmłodsi uczą się poprzez zabawę, dlatego generując odpowiedni głos, rodzice mogą połączyć pożyteczne z użytecznym.

Jednym z ważniejszych rynków dla syntezy mowy jest komunikacja. Już dzisiaj jadąc tramwajem, metrem lub innymi środkami transportu, słyszymy głos pani informującej np. o nowych przystankach czy przejechanych piętrach. Jego dużą zaletą jest to, że jest on naturalny i idealnie brzmiący.

Potrzeba wykorzystania syntezy mowy pojawiła się również w urządzeniach Embedeed, czyli takich, w które na stałe zostaje wbudowany syntezator, a nie tylko nagrane dźwięki. Oprócz urządzeń wspomnianych przy okazji komunikacji należy tutaj wymienić systemy GPS, czytniki e-booków, komunikaty odczytywane w telefonach komórkowych, odtwarzaczach mp3 czy w systemach zarządzania budynkami (znanych kinomanom z filmów s-f).

Jednak wśród użytkowników komputerów najczęściej mówi się o syntezie wykorzystywanej w multimediach. Warto chociażby wspomnieć o podkładzie lektorskim w prezentacjach, materiałach promocyjnych, szkoleniowych, filmach. Często spotykamy się także z mówiącymi reklamami - w nich również używane są syntezatory.

Inne rozwiązania, inne syntezatory
Oprócz polskiej Ivony, na rynku istnieje także wiele innych tego typu narzędzi. Jeśli jednak porównamy jakość generowanego dźwięku, to niewiele z nich dorównuje produktowi pomorskiej firmy. Jednym z nich są produkty A Capella, która ma w swoich zasobach aż 50 różnych syntezatorów głosów - po dwa na każdy język, co daje imponującą liczbę 25 wirtualnych osób, których umiejętności językowej może wykorzystać każdy. Z ciekawostek warto wymienić fakt, iż jest to prawdopodobnie jedyna firma, która udostępnia także SDK do wykorzystania syntezy na platformie iPhoneOS.

Gdy wymieniamy silniki syntezy mowy, nie należy zapominać o międzynarodowym projekcie MBROLA, którego twórcy zapowiedzieli powstanie darmowej syntezy mowy dla każdego zainteresowanego. Co ciekawe, wśród listy można znaleźć także polski syntezator. Jest Milena, która doczekała się już wtyczek na wiele popularnych w świecie linuksowym aplikacji.

Z polskich firm, które dodatkowo postawiły na rozwijanie algorytmów sztucznej inteligencji pozwalającej na stworzenie bardziej realnego pracownika, jest PrimeSpeech, który współpracuje np. z Warszawskim ZTM.

Do tego zestawienia należałoby także dodać takie firmy, jak przywołana wcześniej fido:intelligence, które wykorzystują np. produkty Ivony i tworzą własne rozwiązania, m.in. czytające skanery czy telefony komórkowe.

Korzyści z syntezy mowy
Rynek syntezy rozrasta się z każdym dniem. Jest to możliwe dzięki obustronnym korzyściom jakie otrzymuje klient oraz firma. Ten pierwszy dostaje rzetelną, szybką, wyraźną i - co ważne - miłą obsługę. Natomiast obsługująca go firma, zmniejsza koszty utrzymania, dzięki czemu może uruchamiać coraz to nowsze rozwiązania.

Na koniec można zadać sobie pytanie, czy za kilka lat będą do nas mówić wszystkie sprzęty w domu? Lodówka, pralka, zmywarka, mikrofala, a może także telewizor, telefon i komputer zarządzający bezpieczeństwem domu? Po raz kolejny prawdopodobnie okaże się, że fantastyka stała się rzeczywistością, szybciej niż to się wszystkim wydawało.

Pobierz ebook "Ebook z raportem: Jak wybrać software house dla działań marketingowych i e-commerce"

Napisz komentarz

Zaloguj się, a jeśli nie masz jeszcze konta w Interaktywnie.com - możesz się zarejestrować albo zalogować przez Facebooka.

× Trwa zapisywanie komentarza...

× Twój komentarz został dodany!

Komentarze (1)

Roger zgłoś nadużycie
13.07.2009 / 17:07

Bankomaty Lukas banku, perony metra, kolejki SKM, windy Otisa, infolinie taksówkarskie... czy są miejsca, w których nie spotkam IVONY?

wizytówki firm: szukasz klientów dla firmy?

Zarejestruj domenę w bardzo dobrej cenie

Skorzystaj z kodu rabatowego redakcji Interaktywnie.com i zarejestruj taniej w Nazwa.pl swoją domenę. Aby …
Zobacz profil w katalogu firm »

NuOrder

Pozycjonujemy się jako alternatywa dla agencji sieciowych, oferując konkurencyjną jakość, niższe koszty i większą …
Zobacz profil w katalogu firm »

Ideo Force Sp. z o.o.

Pomagamy markom odnosić sukces w Internecie. Specjalizujemy się w pozycjonowaniu stron, performance marketingu, social …
Zobacz profil w katalogu firm »

TBMS Digital Marketing Agency

Projektujemy i wdrażamy strony internetowe - m.in. sklepy, landing page, firmowe. Świadczymy usługi związane …
Zobacz profil w katalogu firm »

Zamów hosting lub serwer w dobrej cenie

Interaktywnie.com jako partner Cyber_Folks, jednego z wiodących dostawców rozwiań hostingowych w Polsce może zaoferować …
Zobacz profil w katalogu firm »

cyber_Folks S.A

W 1999 roku stworzyliśmy jedną z pierwszych firm hostingowych w Polsce. Od tego czasu …
Zobacz profil w katalogu firm »

zamieść tutaj logo swojej firmy