Ukryty głos sygnalizuje, że Twój inteligentny głośnik może słuchać

Ostatnia aktualizacja cze 9, 2023

Zadowolony

Sygnały, które wysyła twój głos

Z kim rozmawiasz

Twój humor

Jak długo będzie trwał wasz związek

Jeśli masz okres… lub jesteś w ciąży

Doktor Alexa cię teraz wysłucha

Przyszłość to mimika

Jeśli kiedykolwiek zdecydowałeś się przyjrzeć swoim interakcjom z asystentem głosowym, takim jak Alexa lub Asystent Google, zauważysz, że możesz nie tylko zobaczyć (i usunąć) transkrypcje swoich poleceń i pytań, ale także odtworzyć rzeczywisty głos nagrania.

Słuchanie piosenek, o które prosiłeś sześć miesięcy temu, jest czymś dziwnym. Znacznie więcej niż zwykłe czytanie transkrypcji. Tego dnia masz prawdziwe poczucie „ty", może po prostu śmiałeś się ze swoją rodziną i to się do tego krwawi lub brzmisz na znudzonego.

Przeczytaj to: Jak Amazon, Google i Apple wykorzystują dane z inteligentnych głośników

To dopiero początek, twierdzi Rébecca Kleinberger, asystentka naukowa w grupie Opera of the Future należącej do MIT Media Lab. W swoim doktoracie łączy badania z zakresu neurologii, fizjologii, muzyki, coachingu głosu i nie tylko, aby przyjrzeć się „podświadomym wskazówkom, które wyrażamy za każdym razem, gdy mówimy”, jak możemy sprawić, by ludzie byli bardziej świadomi własnego głosu i budować wokół niego nowe doświadczenia głos.

W ciągu sześciu lat badań nad naszymi głosami jej praca obejmowała badanie fizycznych wibracji wytwarzanych przez nasze ciała i ich związku z terapią wibracyjną; dlaczego nie lubimy brzmienia własnego głosu; jak mapujemy nasze mięśnie, aby wydawać dźwięki (nasza „postawa wokalna”); oraz w jaki sposób głębokie uczenie się może być wykorzystane do identyfikacji mówców w czasie rzeczywistym, nawet wśród osób mówiących wieloma językami.

Wraz z pojawieniem się inteligentnych głośników w naszych domach, rejestrujących nasze głosy za każdym razem, gdy wypowiadamy te magiczne słowa budzące, pomyśleliśmy, że warto zbadać, co przekazujemy za pomocą głosu ludziom i maszynom. A Kleinberger mówi, że niezależnie od tego, czy zdajemy sobie z tego sprawę, czy nie, „ludzki mózg ewoluował, by być niezwykle dobrym w analizowaniu wszystkich tych ukrytych elementów głosu. Jeśli są one wykrywalne przez maszyny, oznacza to, że w jakiś sposób nasz mózg wykrywa je na podstawie głosów innych ludzi. “.

Sugeruje myślenie o tych nieświadomych elementach jako o „feromonach głosu, prawie feromonach akustycznych, które wpływają na nas na wiele sposobów bez naszej świadomości”.

Sygnały, które wysyła twój głos

Z kim rozmawiasz

Nasz głos zmienia się w zależności od tego, z kim rozmawiamy i kontekstu, tak bardzo, że badacze i ich algorytmy mogą stwierdzić, czy rozmawiasz z matką, szefem czy przyjacielem. Mogą nawet wykryć wiek osoby, z którą rozmawiasz.

„Nawet gdy próbujesz mówić normalnie, kiedy rozmawiasz z małym dzieckiem, twój głos się zmienia” – mówi Kleinberger. „Prozodia, muzykalność, której używasz w swoim głosie, bardzo różni się od tego, kiedy rozmawiasz z dorosłymi”.

Twój humor

Wiemy, że zespoły Amazon Alexa już kierują badania nad analizą głosu, która może na przykład wykrywać, kiedy osoba mówiąca jest w pośpiechu i potrzebuje szybko informacji. Google również patrzy na emocjonalną sztuczną inteligencję, która kieruje się nastrojem użytkownika jako część swojej przyszłości.

I to jest możliwe. W 2014 roku zespół informatyków z University of Michigan uruchomił aplikację na smartfony o nazwie Priori, która została zaprojektowana do monitorowania rozmów telefonicznych w celu wykrycia wczesnych oznak zmian nastroju u osób cierpiących na chorobę afektywną dwubiegunową. „Te wyniki badań pilotażowych dają nam wstępny dowód na słuszność koncepcji, zgodnie z którą możemy wykrywać stany nastroju podczas zwykłych rozmów telefonicznych, analizując szerokie cechy i właściwości mowy, bez naruszania prywatności tych rozmów” – powiedział kierownik projektu Zahi Karam.

Jak długo będzie trwał wasz związek

Ten jest całkiem szalony. W swoim wystąpieniu TED o tym, dlaczego nie lubimy własnych głosów, które zachęcam do obejrzenia lub wysłuchania, Kleinberger zwraca uwagę, że analiza maszynowa rozmów między małżonkami może być wykorzystana do przewidywania, czy i kiedy się rozwiedziecie.

W zeszłym roku zespół z University of Southern California opublikował badanie, z którego wynika, że analiza AI wysokości tonu, zmienności wysokości tonu i intonacji w rozmowach między 134 parami biorącymi udział w terapii miała 79,3% trafność w przewidywaniu wyników małżeństwa, tj. związek by trwał. To w rzeczywistości nieco więcej niż prawdziwi eksperci, którzy mieli rację w 75,6% przypadków.

Jeśli masz okres… lub jesteś w ciąży

„Uważam, że związek między poziomem hormonów a głosem jest fascynujący” – mówi Kleinberger. „Wiemy, że to ma wpływ. Wiemy, że nawet nasze mózgi świadomie wykrywają to, czego tak naprawdę nie jesteśmy w stanie jasno zrozumieć. To czysto akustyczna informacja, która daje nam wskazówki dotyczące poziomu hormonów mówiącego. Myślę, że może to mieć ogromne konsekwencje, dobre lub złe pod względem wykrywania, etyki i szpiegostwa”.

Liczne badania przeprowadzone przez Nathana Pipitone i Gordona Gallupa wykazały, że słuchacze mogą wykryć, w którym momencie cyklu menstruacyjnego znajduje się mówiąca kobieta, prosząc uczestników płci męskiej o ocenę głosów pod względem atrakcyjności. O pierwszym w 2008 roku na Albany State University napisali: „Wyniki wykazały znaczny wzrost ocen atrakcyjności głosu, ponieważ ryzyko poczęcia wzrosło w całym cyklu menstruacyjnym u kobiet z naturalną cyklicznością”.

Następnie jest fakt, jak Kleinberger mówi w swoim TED Talk, że pewnego dnia asystenci głosowi mogą wiedzieć, że jesteś w ciąży, zanim to zrobisz. Ponownie, jest to w dużej mierze oparte na prawdziwych badaniach.

Badania przeprowadzone w 2012 roku w Hospital Italiano de Buenos Aires w Argentynie oraz w 2008 roku w Beirut Medical Center w Libanie wykazały różnice między głosami grup kontrolnych i grup kobiet w ciąży. Badanie w Bejrucie wykazało zarówno podobieństwa, jak i pewne różnice: „Nie było znaczących różnic w częstości występowania objawów głosowych u kobiet w ciąży w porównaniu z grupą kontrolną. Jednak zmęczenie głosu było bardziej powszechne w grupie ciężarnych. W odniesieniu do parametrów akustycznych było znaczny spadek MPT (maksymalnego czasu fonacji) w terminie”.

Doktor Alexa cię teraz wysłucha

Jedną z osób, z którą możesz dzielić się codziennymi rozmowami, jest Twój lekarz. Okazuje się, że medyczna metoda słuchania ciała jest praktykowana od tysięcy lat – a jeśli chodzi o głos, jest w trakcie aktualizacji.

„Słowo osłuchiwanie było używane przez starożytnych Greków” – mówi Kleinberger. „Chodzi o rozumienie ciała na podstawie dźwięku dochodzącego z ciała. Zasadniczo, kiedy lekarz przykłada stetoskop do słuchania serca, jest to rodzaj osłuchiwania. Używanie głosu jako narzędzia do osłuchiwania było stosowane w przypadku chorób serca i choroba płuc przez długi czas, słuchanie oddechu w głosie pacjenta. Ale teraz naprawdę zaczynamy wykonywać osłuchiwanie modulowane maszynowo.

Ostatnie badania dotyczące chorób, które możemy wykryć za pomocą głosu, obejmowały badania nad depresją i chorobą Parkinsona. Max Little, matematyk, a obecnie profesor nadzwyczajny na Uniwersytecie Aston, odkrył, że analizując głosy ludzi z 30-sekundowej rozmowy telefonicznej, algorytmy mogą wykryć subtelne turbulencje i zmiany tekstury. Dźwięki te brzmią naturalnie dla ludzkiego ucha, ale Little był w stanie wykorzystać je do wczesnego wykrycia choroby Parkinsona, z dokładnością około 99%. Kleinberger wyjaśnia, że osobie cierpiącej na chorobę Parkinsona bardzo trudno jest prowadzić rozmowę, ponieważ jej głos jest zmęczony i nie można go tak łatwo kontrolować, jak osoby zdrowe.

Jeśli chodzi o depresję, konwencjonalna mądrość jest taka, że ludzie po prostu mówią wolniej: „W rzeczywistości jest to bardziej złożone, ale wciąż ma związek z tempem. W mojej pracy nad depresją interesująca jest odmiana tempo od jednego słowa do drugiego i od poszczególnych sylab w tych słowach”.

Wiemy, że zdrowotne ambicje Doliny Krzemowej nie znają granic. Alphabet ma własny spin-off Verily Life Sciences, budujący soczewki kontaktowe do monitorowania poziomu glukozy i zegarki medyczne klasy medycznej. Tymczasem Amazon wydaje się mieć tajny zespół ds. zdrowia i dobrego samopoczucia w swoim oddziale Alexa, pod odpowiednio niejasną nazwą Alexa Domains.

Teoretycznie zawsze włączony, inteligentny asystent domowy, który wie, że jesteśmy chorzy, zanim to zrobimy i może skłonić nas do szukania pomocy medycznej z określonych powodów, może uratować miliony istnień ludzkich.

„Co z urządzeniami domowymi mogą zrobić z nagraniami głosowymi, które mogą być dla nas dobre lub złe? Nie jestem pewien” – mówi Kleinberger. „Jeśli nam pomogą, powiedz:„ może powinieneś iść do lekarza na kontrolę “- może to byłoby dobre. Jeśli wykorzystują to dla zysków firmy, może to trochę mniej dobre. Dlatego informowanie opinii publicznej o potencjale, niezależnie od tego, czy dzieje się to dzisiaj, czy za dwa, pięć czy dziesięć lat, myślę, że to bardzo ważne, aby wiedzieć. Cały czas rozmawiamy o danych, cóż, masz dużo danych w swoim głosie. To nie tylko to, co mówisz.

Przyszłość to mimika

Rzeczywiście, kiedy mówimy o prywatności w inteligentnym domu w 2018 roku, skupiamy się wyłącznie na treści tych nagrań głosowych i transkrypcji, na tym, ile mogą być one warte dla reklamodawców, jak można je połączyć z innymi informacjami, które gromadzą o nas Amazon, Google i Apple z usług takich jak Mapy Google, Gmail, Amazon Prime, iTunes, wyszukiwarka Google, iOS i Android itp.

To dodaje się do rosnącego publicznego podejrzenia, że wszyscy z Facebooka, Instagrama, Amazona podsłuchują nasze rozmowy przez mikrofony w smartfonach (omawiane firmy technologiczne temu zaprzeczają) i patenty ilustrujące, że Amazon ma projekty na wszystkie nasze rozmowy, nie tylko te zaczynające się od budzące słowo.

Druga połowa układanki, jeśli chodzi o asystentów głosowych, mówi Kleinberger, to głosy Alexy, Asystenta i Siri. Wiemy, że firmy technologiczne wybierają przyjazne, głównie kobiece głosy, które „nie są zbyt wysokie, ale niezbyt niskie” i „niezbyt dominujące”. W tej chwili nie rozmawiamy z nimi tak, jak rozmawiamy z innymi ludźmi – mam bardzo specyficzny „instruujący głos”, którego używam do Alexy i Asystenta Google. Jest nieco głośniejszy, nieco ostrzejszy, graniczący z protekcjonalnością i zwykle patrzę na inteligentny głośnik lub urządzenie, kiedy mówię, aby sprawdzić, czy je złapałem.

„Większość badań i większość populacji pokazuje, że rozmawiając z maszyną, używamy innego głosu” – mówi. „Nie prowadziłem badań na ten temat i nie zostało to udowodnione, ale podejrzewam, że jest to bliższe temu, jak niegrzeczny, snobistyczny człowiek rozmawiałby z kelnerem w restauracji. Czy firmy byłyby zainteresowane pójściem dalej i przekroczeniem niesamowitej doliny? To trochę test Turinga pod względem tekstury wokalnej. Co trzeba zrobić, aby stworzyć odpowiadający głos, który wystarczy, abyśmy uznali tę technologię za ludzką?

Począwszy od mowy skierowanej do dzieci, a następnie mowy kierowanej przez roboty i maszyny, jest to obszar badań, który się rozwija – Kleinberger ostatnio spędzał czas w zoo w San Diego, aby studiować mowę kierowaną przez zwierzęta i międzygatunkową. Ale, jak mówi, nie jest jasne, w jaki sposób asystent głosowy, który brzmi bardziej jak człowiek i może analizować nasze emocje w czasie rzeczywistym za pomocą naszego głosu, miałby przynieść korzyści… ludziom.

„Idzie w kierunku mimikry. Jako ludzie cały czas nieświadomie naśladujemy parametry wokalne innych ludzi. Akcenty i jąkanie są zaraźliwe. Czy to dobrze, czy źle, jeśli maszyny zaczną to robić?

„Myślę, że wkrótce technologia pójdzie w tym kierunku. Jeśli ludzie będą świadomi, że to się dzieje, nie musi to być coś złego. Może dzięki temu niektóre technologie będą mniej frustrujące. Jeśli twój głos jest oczywiście zdenerwowany, maszyna to wykryje i zamiast powiedzieć „och, wydajesz się zdenerwowany”, jeśli zacznie mówić w tym samym trybie wokalnym co ty, czy to pomoże, czy nie? Jeśli przejdzie w tryb manipulacji, trudne pytanie, ale interesujące”.

Ostatecznie sprowadza się to do równowagi sił między tobą a wielomilionową firmą, która opracowała asystenta głosowego, z którym rozmawiasz. Znają siłę sygnałów wysyłanych przez nasze głosy, więc im bardziej jesteśmy świadomi tego, co ludzie i maszyny mogą wykryć na podstawie naszych głosów i nadawać z ich własnego głosu, tym lepiej.