Modele głębokiego uczenia się są wykorzystywane w wielu dziedzinach, od diagnostyki opieki zdrowotnej po prognozowanie finansowe. Jednak modele te wymagają tak intensywnych obliczeń, że wymagają użycia wydajnych serwerów opartych na chmurze.

To poleganie na przetwarzaniu w chmurze stwarza poważne ryzyko dla bezpieczeństwa, szczególnie w obszarach takich jak opieka zdrowotna, gdzie szpitale mogą wahać się przed wykorzystaniem narzędzi sztucznej inteligencji do analizowania poufnych danych pacjentów ze względu na obawy związane z prywatnością.

Aby uporać się z tym palącym problemem, badacze z MIT opracowali protokół bezpieczeństwa, który wykorzystuje kwantowe właściwości światła, aby zagwarantować, że dane wysyłane do i z serwera w chmurze pozostaną bezpieczne podczas obliczeń głębokiego uczenia się.

Kodując dane w świetle lasera stosowanym w systemach komunikacji światłowodowej, protokół wykorzystuje podstawowe zasady mechaniki kwantowej, uniemożliwiając atakującym skopiowanie lub przechwycenie informacji bez wykrycia.

Co więcej, technika ta gwarantuje bezpieczeństwo bez uszczerbku dla dokładności modeli głębokiego uczenia się. W testach badacz wykazał, że ich protokół może zachować 96-procentową dokładność, zapewniając jednocześnie solidne zabezpieczenia.

„Modele głębokiego uczenia się, takie jak GPT-4, mają niespotykane dotąd możliwości, ale wymagają ogromnych zasobów obliczeniowych. Nasz protokół umożliwia użytkownikom wykorzystanie tych potężnych modeli bez narażania prywatności danych lub zastrzeżonego charakteru samych modeli” – mówi Kfir Sulimany, postdoc z MIT w Research Laboratory for Electronics (RLE) i główny autor artykułu na temat tego protokołu bezpieczeństwa.

W artykule do Sulimany’ego dołącza Sri Krishna Vadlamani, postdoc z MIT; Ryan Hamerly, były doktorant, obecnie w NTT Research, Inc.; Prahlad Iyengar, absolwent elektrotechniki i informatyki (EECS); oraz starszy autor Dirk Englund, profesor EECS, główny badacz Grupy ds. Fotoniki Kwantowej i Sztucznej Inteligencji oraz RLE. Wyniki badania zaprezentowano niedawno na dorocznej konferencji na temat kryptografii kwantowej.

Dwukierunkowa droga dla bezpieczeństwa w uczeniu głębokim

Scenariusz obliczeń w chmurze, na którym skupili się badacze, obejmuje dwie strony – klienta posiadającego poufne dane, takie jak obrazy medyczne, oraz centralny serwer kontrolujący model głębokiego uczenia się.

Klient chce wykorzystać model głębokiego uczenia się do przewidywania, na przykład, czy pacjent ma raka, na podstawie obrazów medycznych, bez ujawniania informacji o pacjencie.

W tym scenariuszu należy przesłać wrażliwe dane, aby wygenerować prognozę. Jednakże w trakcie tego procesu dane pacjenta muszą pozostać bezpieczne.

Ponadto serwer nie chce ujawniać żadnych części zastrzeżonego modelu, na budowę którego firma taka jak OpenAI spędziła lata i miliony dolarów.

„Obie strony mają coś, co chcą ukryć” – dodaje Vadlamani.

W obliczeniach cyfrowych nieuczciwy aktor może z łatwością skopiować dane przesłane z serwera lub klienta.

Z drugiej strony informacji kwantowej nie można idealnie skopiować. Naukowcy wykorzystują tę właściwość, znaną jako zasada zakazu klonowania, w swoim protokole bezpieczeństwa.

Na potrzeby protokołu badaczy serwer koduje wagi głębokiej sieci neuronowej w polu optycznym za pomocą światła lasera.

Sieć neuronowa to model głębokiego uczenia się składający się z warstw połączonych ze sobą węzłów, czyli neuronów, które wykonują obliczenia na danych. Wagi to elementy modelu, które wykonują operacje matematyczne na każdym wejściu, jedna warstwa na raz. Dane wyjściowe jednej warstwy są przekazywane do następnej warstwy, aż ostatnia warstwa wygeneruje prognozę.

Serwer przesyła wagi sieci do klienta, który realizuje operacje, aby uzyskać wynik na podstawie jego prywatnych danych. Dane pozostają chronione przed serwerem.

Jednocześnie protokół bezpieczeństwa pozwala klientowi zmierzyć tylko jeden wynik i uniemożliwia klientowi kopiowanie wag ze względu na kwantową naturę światła.

Gdy klient przekaże pierwszy wynik do następnej warstwy, protokół ma na celu anulowanie pierwszej warstwy, tak aby klient nie mógł dowiedzieć się niczego więcej o modelu.

„Zamiast mierzyć całe światło przychodzące z serwera, klient mierzy tylko światło niezbędne do uruchomienia głębokiej sieci neuronowej i przekazania wyniku do następnej warstwy. Następnie klient wysyła światło resztkowe z powrotem na serwer w celu kontroli bezpieczeństwa – wyjaśnia Sulimany.

Ze względu na twierdzenie o nieklonowaniu klient nieuchronnie popełnia drobne błędy w modelu podczas pomiaru jego wyniku. Gdy serwer otrzyma od klienta światło resztkowe, może zmierzyć te błędy, aby ustalić, czy doszło do wycieku jakichkolwiek informacji. Co ważne, udowodniono, że to resztkowe światło nie ujawnia danych klienta.

Praktyczny protokół

Nowoczesny sprzęt telekomunikacyjny zazwyczaj wykorzystuje światłowody do przesyłania informacji ze względu na konieczność obsługi ogromnej przepustowości na duże odległości. Ponieważ sprzęt ten zawiera już lasery optyczne, badacze mogą kodować dane w świetle na potrzeby protokołu bezpieczeństwa bez specjalnego sprzętu.

Testując to podejście, badacze odkryli, że może ono zagwarantować bezpieczeństwo serwera i klienta, umożliwiając jednocześnie głębokiej sieci neuronowej osiągnięcie 96% dokładności.

Drobna część informacji o modelu, która wycieka podczas wykonywania operacji przez klienta, stanowi mniej niż 10 procent tego, czego potrzebowałby przeciwnik, aby odzyskać ukryte informacje. Działając w drugą stronę, złośliwy serwer może uzyskać jedynie około 1 procent informacji potrzebnych do kradzieży danych klienta.

„Możesz mieć pewność, że jest bezpieczny pod każdym względem – od klienta do serwera i od serwera do klienta” – mówi Sulimany.

„Kilka lat temu, kiedy opracowaliśmy naszą demonstrację rozproszonego wnioskowania uczenia maszynowego pomiędzy głównym kampusem MIT a laboratorium MIT Lincoln Laboratory, dotarło do mnie, że możemy zrobić coś zupełnie nowego, aby zapewnić bezpieczeństwo warstwy fizycznej, opierając się na latach pracy nad kryptografią kwantową co również wykazano na tym stanowisku testowym” – mówi Englund. „Istniało jednak wiele głębokich wyzwań teoretycznych, które należało pokonać, aby sprawdzić, czy perspektywa rozproszonego uczenia maszynowego z gwarancją prywatności może zostać zrealizowana. Stało się to możliwe dopiero, gdy Kfir dołączył do naszego zespołu, ponieważ Kfir w wyjątkowy sposób rozumiał również eksperyment jako elementy teorii w celu opracowania ujednoliconych ram stanowiących podstawę tej pracy.”

W przyszłości badacze chcą zbadać, w jaki sposób protokół ten można zastosować w technice zwanej uczeniem stowarzyszonym, w której wiele stron wykorzystuje swoje dane do szkolenia centralnego modelu głębokiego uczenia się. Można go również zastosować w operacjach kwantowych, a nie w klasycznych operacjach, które badali na potrzeby tej pracy, co mogłoby zapewnić korzyści zarówno pod względem dokładności, jak i bezpieczeństwa.

Prace te były częściowo wspierane przez Izraelską Radę ds. Szkolnictwa Wyższego i Program Przywództwa Zuckerman STEM.



Source link