W klasycznej kreskówce „The Jetsonowie” Rosie-robotyczna pokojówka płynnie przechodzi od odkurzania domu, przez gotowanie obiadu, aż po wynoszenie śmieci. Jednak w prawdziwym życiu szkolenie robota ogólnego przeznaczenia pozostaje poważnym wyzwaniem.
Zazwyczaj inżynierowie zbierają dane specyficzne dla określonego robota i zadania, których używają do szkolenia robota w kontrolowanym środowisku. Gromadzenie tych danych jest jednak kosztowne i czasochłonne, a robot prawdopodobnie będzie miał trudności z przystosowaniem się do środowiska lub zadań, z którymi wcześniej się nie spotkał.
Aby szkolić lepsze roboty ogólnego przeznaczenia, badacze z MIT opracowali wszechstronną technikę, która łączy ogromną ilość heterogenicznych danych z wielu źródeł w jeden system, który może nauczyć dowolnego robota szerokiego zakresu zadań.
Ich metoda polega na łączeniu danych z różnych dziedzin, takich jak symulacje i rzeczywiste roboty, oraz wielu modalności, w tym czujników wizyjnych i koderów pozycji ramion robota, we wspólny „język”, który może przetwarzać generatywny model sztucznej inteligencji.
Łącząc tak ogromną ilość danych, podejście to można wykorzystać do wytrenowania robota do wykonywania różnorodnych zadań bez konieczności każdorazowego rozpoczynania uczenia go od zera.
Metoda ta może być szybsza i tańsza niż techniki tradycyjne, ponieważ wymaga znacznie mniej danych dotyczących konkretnego zadania. Ponadto uzyskał o ponad 20 procent lepsze wyniki w przypadku szkolenia od zera w symulacjach i eksperymentach w świecie rzeczywistym.
„W robotyce ludzie często twierdzą, że nie mamy wystarczających danych szkoleniowych. Jednak moim zdaniem kolejnym poważnym problemem jest to, że dane pochodzą z tak wielu różnych dziedzin, modalności i sprzętu robotycznego. Nasza praca pokazuje, jak byś się zachował jesteśmy w stanie wyszkolić robota, łącząc wszystkie elementy w całość” – mówi Lirui Wang, absolwentka elektrotechniki i informatyki (EECS) oraz główna autorka artykułu na temat tej techniki.
Współautorami Wanga są Jialiang Zhao, absolwent EECS; Xinlei Chen, pracownik naukowy w Meta; oraz starszy autor Kaiming He, profesor nadzwyczajny w EECS i członek Laboratorium Informatyki i Sztucznej Inteligencji (CSAIL). Wyniki badań zostaną zaprezentowane na Konferencji poświęconej systemom przetwarzania informacji neuronowych.
Zainspirowany LLM
„Zasada” robotyki opiera się na obserwacjach z czujników, takich jak obrazy z kamery lub pomiary proprioceptywne, które śledzą prędkość i położenie ramienia robota, a następnie mówi robotowi, jak i gdzie się poruszać.
Zasady są zazwyczaj szkolone przy użyciu uczenia się przez naśladownictwo, co oznacza, że człowiek demonstruje działania lub zdalnie steruje robotem w celu wygenerowania danych, które są wprowadzane do modelu sztucznej inteligencji, który uczy się zasad. Ponieważ metoda ta wykorzystuje niewielką ilość danych specyficznych dla zadania, roboty często zawodzą, gdy zmienia się ich środowisko lub zadanie.
Aby opracować lepsze podejście, Wang i jego współpracownicy czerpali inspirację z dużych modeli językowych, takich jak GPT-4.
Modele te są wstępnie szkolone przy użyciu ogromnej ilości danych dotyczących różnych języków, a następnie dostrajane, dostarczając im niewielką ilość danych specyficznych dla zadania. Wstępne uczenie na tak dużej ilości danych pomaga modelom przystosować się do prawidłowego wykonywania różnych zadań.
„W domenie językowej wszystkie dane to tylko zdania. W robotyce, biorąc pod uwagę całą niejednorodność danych, jeśli chcemy przeprowadzić wstępne szkolenie w podobny sposób, potrzebujemy innej architektury” – mówi.
Dane robotyczne przybierają różne formy, od obrazów z kamer, przez instrukcje językowe, po mapy głębokości. Jednocześnie każdy robot jest unikalny pod względem mechanicznym, ma inną liczbę i orientację ramion, chwytaków i czujników. Ponadto środowiska, w których gromadzone są dane, są bardzo zróżnicowane.
Naukowcy z MIT opracowali nową architekturę zwaną heterogenicznymi wstępnie przeszkolonymi transformatorami (HPT), która ujednolica dane z tych różnych modalności i dziedzin.
W swojej architekturze umieścili model uczenia maszynowego znany jako transformator, który przetwarza dane wejściowe z zakresu widzenia i propriocepcji. Transformator to ten sam typ modelu, który stanowi podstawę dużych modeli językowych.
Naukowcy dopasowują dane pochodzące z widzenia i propriocepcji do tego samego rodzaju danych wejściowych, nazywanych tokenami, które transformator może przetworzyć. Każde wejście jest reprezentowane przez tę samą stałą liczbę żetonów.
Następnie transformator mapuje wszystkie dane wejściowe w jedną wspólną przestrzeń, rozrastając się do ogromnego, wstępnie wytrenowanego modelu w miarę przetwarzania i uczenia się na kolejnych danych. Im większy transformator, tym lepiej będzie działał.
Użytkownik musi jedynie przekazać firmie HPT niewielką ilość danych na temat projektu, konfiguracji robota i zadania, które ma wykonać. Następnie HPT przekazuje wiedzę, którą transformator zebrał podczas wstępnego szkolenia, aby nauczyć się nowego zadania.
Umożliwianie zręcznych ruchów
Jednym z największych wyzwań związanych z rozwojem HPT było zbudowanie ogromnego zbioru danych do wstępnego szkolenia transformatora, który obejmował 52 zbiory danych zawierające ponad 200 000 trajektorii robotów w czterech kategoriach, w tym filmy demonstracyjne z udziałem ludzi i symulacje.
Naukowcy musieli także opracować skuteczny sposób przekształcania surowych sygnałów propriocepcji z szeregu czujników w dane, które transformator mógłby obsłużyć.
„Propriocepcja jest kluczem do umożliwienia wielu zręcznych ruchów. Ponieważ liczba elementów w naszej architekturze jest zawsze taka sama, przywiązujemy taką samą wagę do propriocepcji i wzroku” – wyjaśnia Wang.
Kiedy przetestowali HPT, okazało się, że poprawił on wydajność robota o ponad 20 procent w zadaniach symulacyjnych i rzeczywistych w porównaniu z każdorazowym szkoleniem od zera. Nawet jeśli zadanie bardzo różniło się od danych przedtreningowych, HPT nadal poprawiało wydajność.
W przyszłości naukowcy chcą zbadać, w jaki sposób różnorodność danych może zwiększyć wydajność HPT. Chcą także ulepszyć HPT, aby mógł przetwarzać nieoznaczone dane, takie jak GPT-4 i inne modele dużych języków.
„Naszym marzeniem jest posiadanie uniwersalnego mózgu robota, który można pobrać i używać dla swojego robota bez żadnego szkolenia. Chociaż jesteśmy dopiero na wczesnym etapie, będziemy nadal mocno naciskać i mamy nadzieję, że skalowanie doprowadzi do przełomu w robotyce polityki, tak jak miało to miejsce w przypadku dużych modeli językowych” – mówi.