Dane stanowią serce dzisiejszych zaawansowanych systemów sztucznej inteligencji, ale kosztują coraz więcej, przez co są poza zasięgiem wszystkich firm technologicznych z wyjątkiem najbogatszych.
W zeszłym roku James Betker, badacz w OpenAI, napisał: wpis na swoim osobistym blogu o naturze generatywnych modeli sztucznej inteligencji i zbiorach danych, na których są one szkolone. Betker stwierdził w nim, że dane szkoleniowe – a nie projekt modelu, architektura czy jakakolwiek inna cecha – są kluczem do coraz bardziej wyrafinowanych i wydajnych systemów sztucznej inteligencji.
„Wytrenowany na tym samym zestawie danych przez wystarczająco długi czas, prawie każdy model zbiega się do tego samego punktu” – napisał Betker.
Czy Betker ma rację? Czy dane szkoleniowe w największym stopniu decydują o możliwościach modelu, niezależnie od tego, czy chodzi o odpowiedź na pytanie, narysowanie ludzkich rąk, czy wygenerowanie realistycznego krajobrazu miejskiego?
To z pewnością prawdopodobne.
Maszyny statystyczne
Generacyjne systemy AI to w zasadzie modele probabilistyczne — ogromny zbiór statystyk. Domyślają się na podstawie ogromnej liczby przykładów, które dane mają największy „sens” w danym miejscu (np. słowo „idź” przed „na rynek” w zdaniu „Idę na rynek”). Wydaje się zatem intuicyjne, że im więcej przykładów musi uwzględnić model, tym lepsza wydajność modeli wyszkolonych na tych przykładach.
„Wygląda na to, że wzrost wydajności wynika z danych” – powiedział TechCrunch Kyle Lo, starszy naukowiec zajmujący się badaniami stosowanymi w Allen Institute for AI (AI2), organizacji non-profit zajmującej się badaniami nad sztuczną inteligencją. .”
Lo podał przykład Meta’s Llama 3, model generujący tekst wydany na początku tego roku, który przewyższa własny model OLMo AI2, mimo że jest bardzo podobny pod względem architektonicznym. Lama 3 została przeszkolona znacznie więcej danych niż OLMoco według Lo wyjaśnia jego wyższość w wielu popularnych testach porównawczych AI.
(Wskażę tutaj, że standardy są obecnie szeroko stosowane w branży sztucznej inteligencji niekoniecznie są najlepszym miernikiem wydajności modeluale poza testy jakościowe, takie jak nasze własneto jedno z niewielu działań, które musimy zastosować.)
Nie oznacza to, że trenowanie na wykładniczo większych zbiorach danych jest pewną ścieżką do wykładniczo lepszych modeli. Lo zauważa, że modele działają w oparciu o paradygmat „wrzuć śmieci, wyrzuć śmieci”, dlatego też przechowywanie i jakość danych mają ogromne znaczenie, być może większe niż sama ilość.
„Możliwe jest, że mały model ze starannie zaprojektowanymi danymi będzie działał lepiej niż duży model” – dodał. „Na przykład duży model Falcon 180B zajmuje 63. miejsce w teście LMSYS, podczas gdy znacznie mniejszy model Llama 2 13B zajmuje 56. miejsce”.
W wywiadzie dla TechCrunch w październiku zeszłego roku badacz OpenAI Gabriel Goh powiedział, że adnotacje wyższej jakości w ogromnym stopniu przyczyniły się do poprawy jakości obrazu w OD-E 3model zamiany tekstu na obraz OpenAI, w porównaniu z jego poprzednikiem OD-E 2. „Myślę, że to jest główne źródło ulepszeń” – powiedział. „Adnotacje tekstowe są o wiele lepsze niż wcześniej (w przypadku DALL-E 2) — nie można ich nawet porównywać”.
Wiele modeli sztucznej inteligencji, w tym DALL-E 3 i DALL-E 2, szkoli się poprzez oznaczanie danych przez ludzkich adnotatorów, dzięki czemu model może nauczyć się kojarzyć te etykiety z innymi, zaobserwowanymi cechami tych danych. Na przykład modelka, która otrzymuje mnóstwo zdjęć kotów z adnotacjami dotyczącymi każdej rasy, w końcu „nauczy się” kojarzyć terminy takie jak krótko ucięty ogon I krótkie włosy z ich charakterystycznymi cechami wizualnymi.
Złe zachowanie
Eksperci tacy jak Lo obawiają się, że rosnący nacisk na duże, wysokiej jakości zbiory danych szkoleniowych spowoduje centralizację rozwoju sztucznej inteligencji wśród nielicznych graczy dysponujących budżetami rzędu miliardów dolarów, których stać na zakup takich zbiorów. Najważniejsza innowacja w dane syntetyczne lub fundamentalna architektura mogłaby zakłócić status quo, ale nie wydaje się, aby było to możliwe w najbliższej przyszłości.
„Ogólnie rzecz biorąc, podmioty zarządzające treściami, które są potencjalnie przydatne do rozwoju sztucznej inteligencji, są zachęcane do zamykania swoich materiałów” – powiedział Lo. „W miarę jak kończy się dostęp do danych, w zasadzie błogosławimy kilku pionierów w zakresie gromadzenia danych i wspinania się po drabinie, aby nikt inny nie mógł uzyskać dostępu do danych i nadrobić zaległości”.
Rzeczywiście, jeśli wyścig o zdobycie większej liczby danych szkoleniowych nie doprowadził do nieetycznych (a być może nawet nielegalnych) zachowań, takich jak potajemne agregowanie treści chronionych prawem autorskim, nagrodził gigantów technologicznych dużymi kieszeniami, które można wydać na licencje na dane.
Modele generatywnej sztucznej inteligencji, takie jak OpenAI, są szkolone głównie na obrazach, tekście, dźwięku, wideo i innych danych – niektóre chronione prawem autorskim – pochodzących z publicznych stron internetowych (w tym m.in. problematycznie, generowane przez sztuczną inteligencję). OpenAI na całym świecie twierdzą, że dozwolony użytek chroni je przed odwetem prawnym. Wielu posiadaczy praw nie zgadza się z tym, ale przynajmniej na razie nie mogą zrobić wiele, aby zapobiec takim praktykom.
Istnieje wiele, wiele przykładów dostawców generatywnej sztucznej inteligencji, którzy pozyskują ogromne zbiory danych w wątpliwy sposób w celu szkolenia swoich modeli. OpenAI podobno dokonał transkrypcji ponad miliona godzin filmów z YouTube bez błogosławieństwa YouTube — lub błogosławieństwa twórców — aby przekazać je swojemu flagowemu modelowi GPT-4. Firma Google niedawno rozszerzyła swoje warunki korzystania z usług, częściowo umożliwiając korzystanie z publicznych Dokumentów Google, recenzji restauracji w Mapach Google i innych materiałów online na potrzeby swoich produktów AI. Mówi się, że Meta rozważała ryzyko procesów sądowych szkolić swoje modele na treści chronione IP.
Tymczasem na nich polegają duże i małe firmy pracownicy w krajach trzeciego świata płacili tylko kilka dolarów za godzinę do tworzenia adnotacji dla zbiorów uczących. Niektórzy z tych adnotatorów — zatrudnieni przez gigantyczne start-upy jak Scale AI — pracują dosłownie całymi dniami, aby wykonać zadania, które narażają ich na graficzne przedstawienia przemocy i rozlewu krwi, bez żadnych korzyści ani gwarancji przyszłych występów.
Rosnące koszty
Innymi słowy, nawet bardziej niestandardowe transakcje dotyczące danych nie sprzyjają otwartemu i sprawiedliwemu ekosystemowi generatywnej sztucznej inteligencji.
OpenAI wydało setki milionów dolarów na licencjonowanie treści od wydawców wiadomości, bibliotek mediów giełdowych i nie tylko w celu szkolenia swoich modeli sztucznej inteligencji – przy budżecie znacznie przekraczającym budżet większości akademickich grup badawczych, organizacji non-profit i start-upów. Meta posunęła się nawet do rozważenia przejęcia wydawcy Simon & Schuster w celu uzyskania praw do fragmentów e-booków (ostatecznie Simon & Schuster sprzedał firmie private equity KKR za 1,62 miliarda dolarów w 2023 roku).
Oczekuje się, że rynek danych szkoleniowych AI rosnąć z około 2,5 miliarda dolarów obecnie do prawie 30 miliardów dolarów w ciągu dziesięciu lat brokerzy danych i platformy spieszą się, aby pobierać wysokie opłaty — w niektórych przypadkach pomimo sprzeciwu ich baz użytkowników.
Biblioteka multimediów giełdowych Shutterstock ma tuszem współpracuje z dostawcami sztucznej inteligencji o wartości od 25 do 50 milionów dolarów, podczas gdy Reddit roszczenia zarobił setki milionów na licencjonowaniu danych organizacjom takim jak Google i OpenAI. Niewiele platform z dużą ilością danych gromadziło się organicznie przez lata nie wygląda na to, że podpisali umowy z twórcami generatywnej sztucznej inteligencji — od Photobucket po Tumblr Witryna z pytaniami i odpowiedziami Przepełnienie stosu.
Sprzedawane są dane platform — przynajmniej w zależności od tego, w jakie argumenty prawne wierzysz. Jednak w większości przypadków użytkownicy nie widzą ani centa zysków. Szkodzi to szerszej społeczności badawczej zajmującej się sztuczną inteligencją.
„Mniejszych graczy nie będzie stać na te licencje na dane, w związku z czym nie będą mogli opracowywać ani badać modeli sztucznej inteligencji” – powiedział Lo. „Obawiam się, że może to prowadzić do braku niezależnej kontroli praktyk rozwoju sztucznej inteligencji”.
Niezależne wysiłki
Jeśli przez mrok przebłyśnie promień słońca, oznacza to kilka niezależnych inicjatyw non-profit mających na celu utworzenie ogromnych zbiorów danych, których każdy może użyć do szkolenia generatywnego modelu sztucznej inteligencji.
EleutherAI, oddolna grupa badawcza non-profit, która rozpoczęła działalność jako luźny kolektyw Discord w 2020 r., współpracuje z Uniwersytetem w Toronto, AI2 i niezależnymi badaczami, aby stworzyć The Pile v2, zestaw miliardów fragmentów tekstu pochodzących głównie z domeny publicznej .
W kwietniu startup AI Hugging Face wypuścił FineWeb, filtrowaną wersję Common Crawl – tytułowego zbioru danych utrzymywanego przez organizację non-profit Common Crawl, składającego się z miliardów stron internetowych – który według Hugging Face poprawia wydajność modelu w wielu testach porównawczych.
Kilka prób udostępnienia otwartych zbiorów danych szkoleniowych, takich jak zestawy obrazów grupy LAION, spotkało się z naruszeniem praw autorskich, prywatności danych i innych, równie poważne wyzwania etyczne i prawne. Jednak niektórzy z bardziej oddanych kuratorów danych zobowiązali się do poprawy. Na przykład Pile v2 usuwa problematyczne materiały chronione prawem autorskim znalezione w zbiorze danych jego przodka, The Pile.
Pytanie brzmi, czy którykolwiek z tych otwartych wysiłków może dotrzymać kroku Big Tech. Dopóki gromadzenie i przetwarzanie danych pozostaje kwestią zasobów, odpowiedź prawdopodobnie brzmi „nie” – przynajmniej do czasu, aż jakieś przełomowe badania wyrównają szanse.