Wyobraź sobie, że musisz uporządkować bałagan w kuchni, zaczynając od blatu zaśmieconego paczkami z sosami. Jeśli Twoim celem jest wyczyszczenie licznika, możesz zamiatać pakiety jako grupę. Jeśli jednak chcesz najpierw wybrać opakowania musztardy, a następnie wyrzucić resztę, możesz sortować bardziej szczegółowo, według rodzaju sosu. A jeśli wśród musztard tęsknicie za Grey Poupon, znalezienie tej konkretnej marki wiązałoby się z dokładniejszymi poszukiwaniami.
Inżynierowie z MIT opracowali metodę, która umożliwia robotom podejmowanie podobnie intuicyjnych decyzji związanych z zadaniem.
Nowe podejście zespołu, nazwane Clio, umożliwia robotowi identyfikację części sceny, które mają znaczenie w kontekście stojących przed nim zadań. W Clio robot przyjmuje listę zadań opisanych w języku naturalnym i na podstawie tych zadań określa poziom szczegółowości wymagany do interpretacji otoczenia i „zapamiętywania” tylko tych części sceny, które są istotne.
W rzeczywistych eksperymentach, począwszy od zagraconej kabiny po pięciopiętrowy budynek na terenie kampusu MIT, zespół wykorzystał Clio do automatycznego segmentowania sceny na różnych poziomach szczegółowości, w oparciu o zestaw zadań określonych w podpowiedziach w języku naturalnym, takich jak „przesuń stojak czasopism” i „zabierz apteczkę”.
Zespół obsługiwał także Clio w czasie rzeczywistym na czworonożnym robocie. Gdy robot eksplorował biurowiec, Clio zidentyfikowała i zmapowała tylko te części sceny, które dotyczyły zadań robota (takich jak odzyskanie zabawki dla psa przy jednoczesnym ignorowaniu stosów artykułów biurowych), umożliwiając robotowi uchwycenie interesujących obiektów.
Nazwa Clio pochodzi od greckiej muzy historii, ze względu na jej zdolność rozpoznawania i zapamiętywania tylko tych elementów, które mają znaczenie dla danego zadania. Naukowcy przewidują, że Clio sprawdzi się w wielu sytuacjach i środowiskach, w których robot będzie musiał szybko zbadać otoczenie i zrozumieć je w kontekście powierzonego mu zadania.
„Poszukiwanie i ratownictwo to motywujące zastosowanie w tej pracy, ale Clio może również zasilać roboty domowe i roboty pracujące w fabryce obok ludzi” – mówi Luca Carlone, profesor nadzwyczajny na Wydziale Aeronautyki i Astronautyki MIT (AeroAstro), główny badacz w Laboratorium Systemów Informacyjnych i Decyzji (LIDS) oraz dyrektor Laboratorium MIT SPARK. „Tak naprawdę chodzi o pomoc robotowi w zrozumieniu środowiska i o tym, o czym musi pamiętać, aby wykonać swoją misję”.
Zespół szczegółowo opisuje swoje wyniki w badaniu opublikowanym dzisiaj w czasopiśmie Listy z robotyki i automatyzacji. Współautorami Carlone są członkowie SPARK Lab: Dominic Maggio, Yun Chang, Nathan Hughes i Lukas Schmid; oraz członkowie MIT Lincoln Laboratory: Matthew Trang, Dan Griffith, Carlyn Dougherty i Eric Cristofalo.
Otwarte pola
Ogromny postęp w dziedzinie widzenia komputerowego i przetwarzania języka naturalnego umożliwił robotom identyfikację obiektów w ich otoczeniu. Jednak do niedawna roboty były w stanie to robić jedynie w scenariuszach „zestawu zamkniętego”, gdzie zaprogramowano je do pracy w starannie dobranym i kontrolowanym środowisku, ze skończoną liczbą obiektów, do rozpoznawania których robot został wstępnie przeszkolony.
W ostatnich latach badacze przyjęli bardziej „otwarte” podejście, aby umożliwić robotom rozpoznawanie obiektów w bardziej realistycznych warunkach. W dziedzinie rozpoznawania zbiorów otwartych badacze wykorzystali narzędzia uczenia głębokiego do zbudowania sieci neuronowych, które mogą przetwarzać miliardy obrazów z Internetu wraz z tekstem powiązanym z każdym obrazem (np. zdjęcie psa znajomego na Facebooku z podpisem „Poznaj mój nowy szczeniak!”).
Z milionów par obraz-tekst sieć neuronowa uczy się, a następnie identyfikuje te segmenty sceny, które są charakterystyczne dla określonych terminów, takich jak pies. Robot może następnie zastosować tę sieć neuronową, aby wykryć psa w zupełnie nowej scenie.
Jednak nadal pozostaje wyzwanie, jak przeanalizować scenę w użyteczny sposób, istotny dla konkretnego zadania.
„Typowe metody wybierają dowolny, stały poziom szczegółowości w celu określenia sposobu połączenia segmentów sceny w coś, co można uznać za jeden «obiekt»” – mówi Maggio. „Jednakże szczegółowość tego, co nazywamy „obiektem”, jest w rzeczywistości powiązana z tym, co robot musi zrobić. Jeśli ta szczegółowość zostanie naprawiona bez uwzględnienia zadań, robot może otrzymać mapę, która nie będzie dla niego przydatna zadania.”
Wąskie gardło informacyjne
Tworząc Clio, zespół MIT chciał umożliwić robotom interpretację otoczenia z poziomem szczegółowości, który można automatycznie dostosować do bieżących zadań.
Na przykład, mając zadanie przeniesienia stosu książek na półkę, robot powinien być w stanie określić, że cały stos książek jest obiektem mającym znaczenie dla tego zadania. Podobnie, jeśli zadaniem byłoby przesunięcie tylko zielonej książki z reszty stosu, robot powinien rozróżnić zieloną książkę jako pojedynczy obiekt docelowy i zignorować resztę sceny – łącznie z innymi książkami na stosie.
Podejście zespołu łączy najnowocześniejszą wizję komputerową i duże modele językowe obejmujące sieci neuronowe, które tworzą połączenia między milionami obrazów o otwartym kodzie źródłowym i tekstu semantycznego. Zawierają także narzędzia do mapowania, które automatycznie dzielą obraz na wiele małych segmentów, które można wprowadzić do sieci neuronowej w celu ustalenia, czy określone segmenty są semantycznie podobne. Następnie badacze wykorzystują pomysł z klasycznej teorii informacji zwany „wąskim gardłem informacyjnym”, którego używają do kompresji szeregu segmentów obrazu w sposób, który wybiera i przechowuje segmenty semantycznie najbardziej odpowiednie dla danego zadania.
„Załóżmy na przykład, że w scenie znajduje się stos książek, a moim zadaniem jest tylko zdobycie zielonej księgi. W takim przypadku przepychamy wszystkie informacje o scenie przez wąskie gardło i otrzymujemy grupę segmentów reprezentujących zielona księga” – wyjaśnia Maggio. „Wszystkie inne, nieistotne segmenty są po prostu grupowane w klaster, który możemy po prostu usunąć. Pozostaje nam obiekt o odpowiedniej szczegółowości, który jest niezbędny do wykonania mojego zadania”.
Naukowcy zademonstrowali Clio w różnych środowiskach rzeczywistych.
„Uważaliśmy, że naprawdę rozsądnym eksperymentem będzie uruchomienie Clio w moim mieszkaniu, w którym wcześniej nie sprzątałem” – mówi Maggio.
Zespół sporządził listę zadań w języku naturalnym, takich jak „przeniesienie stosu ubrań”, a następnie zastosował Clio do zdjęć zagraconego mieszkania Maggio. W takich przypadkach Clio było w stanie szybko posegmentować sceny w mieszkaniu i wprowadzić je za pomocą algorytmu wąskiego gardła informacyjnego, aby zidentyfikować segmenty tworzące stos ubrań.
Uruchomili także Clio na czworonożnym robocie Spot firmy Boston Dynamic. Dali robotowi listę zadań do wykonania, a gdy robot badał i mapował wnętrze budynku biurowego, Clio biegała w czasie rzeczywistym na komputerze pokładowym zamontowanym w Spocie, aby wybierać segmenty z mapowanych scen, które wizualnie nawiązują do danego zadania. Metoda ta wygenerowała nakładającą się mapę przedstawiającą tylko obiekty docelowe, którą następnie robot wykorzystał, aby zbliżyć się do zidentyfikowanych obiektów i fizycznie wykonać zadanie.
„Uruchamianie Clio w czasie rzeczywistym było dużym osiągnięciem zespołu” – mówi Maggio. „Ukończenie wielu wcześniejszych prac może zająć kilka godzin”.
W przyszłości zespół planuje przystosować Clio tak, aby mogło wykonywać zadania wyższego poziomu i wykorzystywać najnowsze postępy w fotorealistycznych reprezentacjach scen wizualnych.
„Nadal dajemy Clio zadania o dość specyficznym charakterze, np. «znalezienie talii kart»” – mówi Maggio. „W przypadku poszukiwań i ratownictwa należy zlecić mu więcej zadań wyższego szczebla, takich jak „znalezienie ocalałych” lub „przywrócenie zasilania”. Dlatego chcemy osiągnąć bardziej ludzki poziom zrozumienia, w jaki sposób wykonywać bardziej złożone zadania”.
Badania te były częściowo wspierane przez amerykańską Narodową Fundację Naukową, Szwajcarską Narodową Fundację Naukową, MIT Lincoln Laboratory, Amerykańskie Biuro Badań Marynarki Wojennej oraz US Army Research Lab Distributed and Collaborative Intelligent Systems and Technology Collaborative Research Alliance.