W sklepie przy kasie komunikaty podaje syntezator mowy. AI przeczyta ci artykuł na stronie internetowej lub poda instrukcję postępowania w urzędzie. Czy to oznacza, że era lektorów się kończy? A może wręcz przeciwnie – nagrania lektorskie zyskają jeszcze wyższy status, ponieważ staną się faktycznie unikatowe? W tym artykule zastanawiamy się, czy studia dźwiękowe powinny bać się sztucznej inteligencji. Zapraszamy do lektury.

Jak sztuczna inteligencja zmienia rynek nagrań lektorskich?

Rozwój sztucznej inteligencji wykorzystywanej w syntezie mowy wpłynął na strukturę rynku usług audio oraz na sposób korzystania z treści cyfrowych. Jednym z głównych impulsów do powstania takich rozwiązań była potrzeba zwiększenia dostępności informacji. Automatyczne odczytywanie tekstu umożliwia odsłuch treści np. osobom niewidomym, a także użytkownikom, którzy nie potrafią czytać. Okazało się, że model oparty o AI jest atrakcyjny cenowo i sprawdza się przy cyklicznym odczycie komunikatów. Znalazł on zastosowanie np. w aplikacjach, komunikatach w windach czy w systemach obsługi klienta, gdzie treść jest krótka i powtarzalna.

Równolegle funkcjonują studia do nagrań lektorskich, wybierane głównie do projektów o innym celu komunikacyjnym. Syntezatory mowy obsługują raczej sytuacje czysto informacyjne, natomiast lektor czyta teksty, wymagające interpretacji i odpowiedniej intonacji. Wykorzystuje się go np. reklam, filmów, materiałów szkoleniowych oraz prezentacji sprzedażowych. Studio dźwiękowe realizuje więc nagrania perswazyjne, gdzie ważna jest odpowiednia narracja, świadome operowanie pauzą oraz dopasowanie stylu mówienia do odbiorcy. Z tej perspektywy technologia AI nie eliminuje zawodu lektora, lecz tworzy różne specjalizacje, zmienia zakres zamówień i sposób rozmowy z klientem.

Jaką rolę człowiek pełni w pracy z syntezatorami mowy?

Choć syntezatory mowy działają automatycznie, cały proces ich powstawania i późniejszego wykorzystania pozostaje pod nadzorem człowieka. Na etapie ich przygotowania lektorzy czytają treść w studiu dźwiękowym, dzięki czemu nagrywane są próbki dźwięku. Pozwalają one odwzorować barwę oraz w jakimś stopniu sposób mówienia. Kolejnym krokiem jest opisanie audio pod kątem akcentu, intonacji oraz stylu wypowiedzi, co ułatwia prawidłowe przetwarzanie języka przez AI. Inżynierowie i lingwiści projektują zasady konwersji tekstu na dźwięk, decydując o formie komunikatu. Po wygenerowaniu nagrań specjaliści odsłuchują je i oceniają naturalność oraz czytelność. Na tym etapie łatwo wychwycić błędy, takie jak niewłaściwe akcentowanie, brak logicznych pauz, niepoprawne odczytanie skrótów lub nazw własnych. Znaczenie ma również kontekst językowy i kulturowy, ponieważ sposób mówienia powinien odpowiadać odbiorcy i sytuacji. Ostatecznie to człowiek tworzy algorytmy, uczy sztuczną inteligencję, i decyduje, w jaki sposób dźwięk zostanie wykorzystany.

Dlaczego głos ludzki wciąż ma przewagę nad AI?

Czy wobec dynamicznego rozwoju sztucznej inteligencji i coraz powszechniejszych nagrań generowanych przez urządzenia, studia lektorskie mają powody do obaw o swoją przyszłość? Naszym zdaniem jednak nie, dlatego że nawet najlepszy algorytm nie potrafi dać tego, co dobry lektor. Głos człowieka reaguje na kontekst, emocje i intencje nadawcy. Lektor potrafi zmienić ton w jednym zdaniu, zaakcentować słowo lub zwolnić tempo, gdy tekst tego wymaga. W reklamie sklepu internetowego brzmi zachęcająco, a w audiobooku buduje napięcie. Doświadczeni lektorzy modulują wypowiedź w taki sposób, że słuchacz ma wrażenie obcowania z kilkoma postaciami, mimo że tekst czyta jedna osoba.

Nasze studio lektorskie z dobrymi głosami, np. od Krystyny Czubówny przyciąga klientów jeszcze jedną ważną rzeczą, której nie ma AI. Człowiek chce słuchać człowieka. O ile w windzie, gdzie syntezator mowy poinformuje nas, na które piętro zmierzamy, nie przywiązujemy uwagi aż tak bardzo do sztuczności dźwięku, o tyle oglądając ciekawy film, chcemy relacji, naturalności, rzeczywistości po prostu ludzkiej.

Czy bać się AI? Nie, trzeba za to szukać dróg specjalizacji, uzupełniać się, a nie konkurować ze sobą. Nagrania lektorskie są niezbędne tam, gdzie nadawca komunikatu chce oddziaływać na odbiorcę, wywoływać w nim emocje. Wiemy, że syntezatory mowy będą coraz lepsze, ale nie zastąpią w pełni lektora, który przecież także im użycza głosu i daje bazę do nauki. Potrzebujesz profesjonalnych nagrań z duszą? Zgłoś się do nas.