fbpx

Mateusz i Piotr stworzyli narzędzie lepsze niż Microsoft, Amazon i Google

Mateusz Staniszewski i Piotr Dąbkowski stworzyli najlepszą na świecie technologię do syntezy mowy i zainteresowali nią inwestorów. Na podstawie swojego rozwiązania zamierzają stworzyć całą gamę produktów, które mają pomóc przekształcić ich firmę ElevenLabs w miliardowy biznes.

6 wrześni 2022 roku  firma ElevenLabs zamieściła krótkie nagranie  w serwisie YouTube. Widać na nim Leonardo DiCaprio, który przemawia ze sceny podczas szczytu klimatycznego ONZ.

“Stoję przed wami nie jako ekspert, ale jako zaniepokojony obywatel” –  zaczyna swoją przemowę gwiazdor Hollywood.

Do piątej sekundy nie dzieje się nic zaskakującego. Jednak potem aktor zaczyna przemawiać głosami kolejno Joe Rogana, Steve’a Jobsa, Roberta Downeya Jr., Billa Gatesa i Kim Kardashian, zachowując za każdym razem płynność wypowiedzi, bezbłędnie oddając emocje, z idealnie odwzorowanym tembrem głosu.

Jest to prezentacja startupu firmy EleveLabs — generatywnej sztucznej inteligencji audio AI, która potrafi podkładać dubbing w filmach, czy naśladować mowę każdej osoby, w dowolnym języku.

Takie zaawansowane systemy audio AI mogą odmienć branżę filmową czy reklamową. Choć zastosowań jest znacznie więcej. Już teraz, dzięki polskiemu start-upowi, można sprawić, że bot podczas np. naszej prezentacji slajdów firmowych opowie o wyświetlanej treści głosem np. Krystyny Czubówny.

Konwersja mowy przyciąga inwestorów

Możliwości zaawansowanych systemów TTS robią wrażenie. W podstawowej ofercie ElevenLabs ma grupę dostępnych męskich i żeńskich głosów. Lektor może mówić w dziesiątkach języków, z dowolną intonacją i szybkością, oddając nawet emocje. Co istotne, jest też opcja klonowania. A to właśnie furtka, by nauczyć bota naśladowania mowy dowolnej osoby. Wystarczy kilkudziesięciosekundowa próbka czyjegoś głosu. Na razie klonowanie możliwe jest tylko w języku angielskim, ale start-up zapowiada, że prawdopodobnie w II kwartale pojawi się opcja z językiem polskim.

Ambicje twórców firmy są takie, by stworzyć narzędzie, które odmieni rynek produkcji kinowych (dubbing), streamingu, gier czy audiobooków. W przyszłości wszystkimi kwestiami audio zajmą się bowiem nie aktorzy czy lektorzy, lecz inteligentne boty. Ponadto start-up chce opracować narzędzia do syntezy mowy, które będą w trybie natychmiastowym dokonywać konwersji mowy na dowolny język. Na razie firma pracuje nad „stacją roboczą” do montażu lektora.

Nad projektami audio AI pracują ponadto takie firmy jak kanadyjski Resemble AI, amerykański WellSaid Labs, Microsoft oraz Google i Apple.

 

Dodaj komentarz