To odwieczny „problem przyjęć koktajlowych” – stoisz w pokoju pełnym ludzi, z drinkiem w ręku i próbujesz usłyszeć, co mówią pozostali goście.
W rzeczywistości ludzie są zadziwiająco dobrzy w prowadzeniu rozmowy z jedną osobą, ignorując jednocześnie konkurencyjne głosy.
Jednakże, co może wydawać się zaskakujące, jest to umiejętność, której do niedawna technologia nie potrafiła odtworzyć.
I to ma znaczenie, gdy chodzi o wykorzystanie dowodów audio w sprawach sądowych. Głosy w tle mogą utrudniać pewność, kto mówi i co jest mówione, co potencjalnie czyni nagrania bezużytecznymi.
Inżynier elektryk Keith McElveen, założyciel i dyrektor ds. technologii w Wave Sciences, zainteresował się tym problemem, gdy pracował dla rządu USA nad sprawą zbrodni wojennych.
„Próbowaliśmy ustalić, kto zlecił masakrę cywilów. Niektóre dowody obejmowały nagrania z wieloma głosami mówiącymi jednocześnie – i wtedy dowiedziałem się, czym jest „problem przyjęcia koktajlowego”” – mówi.
„Udało mi się usunąć z mowy hałasy, takie jak odgłosy samochodów, klimatyzatorów czy wentylatorów, ale kiedy zacząłem próbować oddzielać mowę od mowy, okazało się, że jest to nie tylko bardzo trudny problem, ale również jeden z klasycznych trudnych problemów akustyki.
„Dźwięki odbijają się od ścian pokoju, a rozwiązanie tego problemu jest matematycznie straszne”.
Według niego rozwiązaniem było wykorzystanie sztucznej inteligencji, która próbowała lokalizować i izolować wszystkie konkurujące ze sobą dźwięki na podstawie ich pierwotnego źródła w pomieszczeniu.
Nie chodzi tu tylko o inne osoby, które mogą mówić – występują również znaczne zakłócenia wynikające ze sposobu, w jaki dźwięki odbijają się po pomieszczeniu, przy czym głos osoby mówiącej jest słyszany zarówno bezpośrednio, jak i pośrednio.
W idealnej bezechowej komora – całkowicie wolna od pogłosu – jeden mikrofon na każdego mówcę wystarczyłby, aby zarejestrować to, co wszyscy mówią; jednak w prawdziwym pomieszczeniu problem wymagałby także użycia mikrofonu na każdy odbity dźwięk.
Pan McElveen założył Wave Sciences w 2009 r., mając nadzieję na opracowanie technologii, która mogłaby oddzielać nakładające się głosy. Początkowo firma używała dużej liczby mikrofonów w tzw. formowaniu wiązki.
Jednak potencjalni partnerzy komercyjni zgłaszali, że system wymaga zbyt wielu mikrofonów w stosunku do jego ceny, aby w wielu sytuacjach zapewnić dobre wyniki, a w wielu innych nie sprawdza się wcale.
„Powszechnym stwierdzeniem było, że jeśli znajdziemy rozwiązanie, które uwzględni te obawy, to oni będą bardzo zainteresowani” – mówi pan McElveen.
I dodaje: „Wiedzieliśmy, że musi być jakieś rozwiązanie, bo można to zrobić za pomocą zaledwie dwóch uszu”.
Firma ostatecznie rozwiązała problem po 10 latach badań finansowanych ze środków wewnętrznych i złożyła wniosek patentowy we wrześniu 2019 r.
Stworzyli sztuczną inteligencję, która potrafi analizować, jak dźwięk odbija się po pomieszczeniu, zanim dotrze do mikrofonu lub ucha.
„Wychwytujemy dźwięk docierający do każdego mikrofonu, cofamy się, żeby ustalić, skąd pochodzi, a następnie, w zasadzie, tłumimy każdy dźwięk, który nie mógł pochodzić z miejsca, w którym siedzi dana osoba” – mówi pan McElveen.
Efekt ten można pod pewnymi względami porównać do sytuacji, gdy aparat ustawia ostrość na jednym obiekcie, rozmywając pierwszy plan i tło.
„Rezultaty nie brzmią krystalicznie czysto, gdy można się uczyć tylko na podstawie bardzo hałaśliwego nagrania, ale i tak są oszałamiające”.
Technologia ta po raz pierwszy została wykorzystana w praktyce kryminalistycznej w sprawie o morderstwo w USA, gdzie uzyskane dzięki niej dowody okazały się kluczowe dla wydania wyroku skazującego.
Po aresztowaniu dwóch płatnych zabójców za zabicie mężczyzny FBI chciało udowodnić, że zostali wynajęci przez rodzinę przechodzącą spór o opiekę nad dzieckiem. FBI zaaranżowało, aby rodzina uwierzyła, że jest szantażowana za swój udział – a następnie usiadło, aby zobaczyć reakcję.
Chociaż dostęp do wiadomości tekstowych i połączeń telefonicznych był dla FBI stosunkowo łatwy, osobiste spotkania w dwóch restauracjach to zupełnie inna sprawa. Jednak sąd zezwolił na użycie algorytmu Wave Sciences, co oznacza, że nagranie audio przeszło z niedopuszczalnego do kluczowego dowodu.
Od tego czasu inne laboratoria rządowe, w tym w Wielkiej Brytanii, poddały ją serii testów. Firma obecnie sprzedaje tę technologię armii USA, która wykorzystała ją do analizy sygnałów sonaru.
Według pana McElveena, rozwiązanie to mogłoby się również sprawdzić w negocjacjach dotyczących zakładników i scenariuszach samobójstw, ponieważ pozwalałoby upewnić się, że obie strony rozmowy zostaną wysłuchane, a nie tylko negocjator z megafonem.
Pod koniec ubiegłego roku firma wydała aplikację wykorzystującą swój algorytm uczenia się, przeznaczoną dla laboratoriów rządowych zajmujących się analizą dźwiękową i akustyczną.
Docelowo firma zamierza wprowadzić na rynek wersje swojego produktu dostosowane do zastosowań w zestawach do nagrywania dźwięku, interfejsach głosowych do samochodów, inteligentnych głośnikach, urządzeniach rzeczywistości rozszerzonej i wirtualnej, sonarach i aparatach słuchowych.
Dzięki temu, na przykład, jeśli będziesz mówić do samochodu lub inteligentnego głośnika, nie będzie miało znaczenia, czy wokół będzie panował duży hałas, urządzenie i tak będzie w stanie zrozumieć, co mówisz.
Zdaniem Terri Armenty, wykładowcy kryminalistyki z Forensic Science Academy, sztuczna inteligencja jest już wykorzystywana także w innych dziedzinach kryminalistyki.
„Modele uczenia maszynowego (ML) analizują wzorce głosu w celu ustalenia tożsamości osób mówiących. Jest to proces szczególnie przydatny w dochodzeniach kryminalnych, w których konieczne jest uwierzytelnienie dowodów głosowych” – wyjaśnia.
„Ponadto narzędzia AI mogą wykrywać manipulacje lub zmiany w nagraniach audio, zapewniając integralność dowodów przedstawionych w sądzie”.
Sztuczna inteligencja zaczyna także wkraczać do innych aspektów analizy dźwięku.
Firma Bosch opracowała technologię SoundSee, która wykorzystuje algorytmy przetwarzania sygnału audio do analizy np. dźwięku silnika, aby przewidzieć awarię jeszcze przed jej wystąpieniem.
„Tradycyjne możliwości przetwarzania sygnału audio nie pozwalają na rozumienie dźwięku w taki sposób, w jaki rozumiemy go my, ludzie” – mówi dr Samarjit Das, dyrektor ds. badań i technologii w Bosch USA.
„Audio AI umożliwia głębsze zrozumienie i semantyczną interpretację dźwięków otaczających nas rzeczy lepiej niż kiedykolwiek wcześniej – na przykład dźwięków otoczenia lub sygnałów dźwiękowych wydobywających się z maszyn”.
Nowsze testy algorytmu Wave Sciences wykazały, że nawet przy użyciu zaledwie dwóch mikrofonów technologia ta może działać równie dobrze jak ludzkie ucho, a nawet lepiej, gdy dodamy więcej mikrofonów.
Ujawnili jeszcze coś.
„Matematyka we wszystkich naszych testach wykazuje niezwykłe podobieństwa do ludzkiego słuchu. Istnieją drobne dziwactwa w tym, co nasz algorytm potrafi zrobić i jak dokładnie to robi, które są zadziwiająco podobne do niektórych dziwactw, które istnieją w ludzkim słuchu” — mówi McElveen.
„Podejrzewamy, że ludzki mózg może używać tej samej matematyki – że rozwiązując problem przyjęcia koktajlowego, mogliśmy natknąć się na to, co naprawdę dzieje się w mózgu”.