Skoro ChatGPT i inne generatywne rozwiązania sztucznej inteligencji potrafią tworzyć artykuły naukowe, które wyglądają na prawdziwe – zwłaszcza dla kogoś spoza tej dziedziny badań – jaki jest najlepszy sposób na ustalenie, które z nich są fałszywe?

Ahmed Abdeen Hamed, profesor nadzwyczajny na Uniwersytecie Binghamton w Uniwersytecie Stanowym Nowego Jorku, opracował algorytm uczenia maszynowego o nazwie xFakeSci, który potrafi wykryć do 94% fałszywych artykułów — prawie dwa razy skuteczniej niż powszechniejsze techniki eksploracji danych.

„Moimi głównymi badaniami jest informatyka biomedyczna, ale ponieważ pracuję z publikacjami medycznymi, badaniami klinicznymi, zasobami online i eksploruję media społecznościowe, zawsze martwię się o autentyczność wiedzy, którą ktoś propaguje” — powiedział Hamed, który jest częścią laboratorium złożonych systemów adaptacyjnych i inteligencji obliczeniowej George’a J. Klira profesora nauk systemowych Luisa M. Rochy. „Artykuły biomedyczne w szczególności ucierpiały podczas globalnej pandemii, ponieważ niektórzy ludzie publikowali fałszywe badania”.

W nowym artykule opublikowanym w czasopiśmie Raporty naukoweHamed i jego współpracownik Xindong Wu, profesor na Uniwersytecie Technologicznym w Hefei w Chinach, stworzyli 50 fałszywych artykułów na każdy z trzech popularnych tematów medycznych – choroby Alzheimera, raka i depresji – i porównali je z taką samą liczbą prawdziwych artykułów na te same tematy.

Hamed powiedział, gdy zapytał ChatGPT o artykuły wygenerowane przez AI: „Próbowałem użyć dokładnie tych samych słów kluczowych, których użyłem do wyodrębnienia literatury z bazy danych PubMed (National Institutes of Health), abyśmy mieli wspólną podstawę porównania. Moja intuicja podpowiadała mi, że musi istnieć pewien wzór w świecie fałszywym w porównaniu ze światem rzeczywistym, ale nie miałem pojęcia, jaki to wzór”.

Po pewnych eksperymentach zaprogramował xFakeSci, aby przeanalizować dwie główne cechy dotyczące sposobu pisania artykułów. Jedną z nich jest liczba bigramów, czyli dwóch słów, które często pojawiają się razem, takich jak „zmiany klimatu”, „badania kliniczne” lub „literatura biomedyczna”. Drugą jest sposób, w jaki te bigramy są powiązane z innymi słowami i pojęciami w tekście.

„Pierwszą uderzającą rzeczą było to, że liczba bigramów w świecie fałszywym była bardzo mała, ale w świecie rzeczywistym bigramów było znacznie więcej” — powiedział Hamed. „Ponadto w świecie fałszywym, pomimo faktu, że było bardzo mało bigramów, były one tak bardzo powiązane ze wszystkim innym”.

Hamed i Wu wysuwają teorię, że style pisania różnią się, ponieważ ludzcy badacze nie mają takich samych celów jak SI, którym polecono napisanie tekstu na dany temat.

„Ponieważ ChatGPT ma nadal ograniczoną wiedzę, próbuje przekonać cię, używając najważniejszych słów” — powiedział Hamed. „Zadaniem naukowca nie jest przedstawianie przekonujących argumentów. Prawdziwy artykuł badawczy uczciwie informuje o tym, co wydarzyło się podczas eksperymentu i jakiej metody użyto. ChatGPT dotyczy głębi w jednym punkcie, podczas gdy prawdziwa nauka dotyczy szerokości”.

Aby dalej rozwijać xFakeSci, Hamed planuje rozszerzyć zakres tematów, aby sprawdzić, czy charakterystyczne wzorce słów sprawdzają się w innych obszarach badawczych, wykraczając poza medycynę, aby objąć inżynierię, inne tematy naukowe i nauki humanistyczne. Przewiduje również, że AI będą stawać się coraz bardziej wyrafinowane, więc określenie, co jest prawdziwe, a co nie, będzie coraz trudniejsze.

„Zawsze będziemy musieli nadrabiać zaległości, jeśli nie zaprojektujemy czegoś kompleksowego” – powiedział. „Przed nami dużo pracy, aby znaleźć ogólny wzorzec lub uniwersalny algorytm, który nie będzie zależał od tego, która wersja generatywnej AI jest używana”.

Ponieważ, mimo że ich algorytm wyłapuje 94% artykułów generowanych przez AI, dodał, oznacza to, że sześć na 100 fałszywych dokumentów nadal przechodzi: „Musimy być skromni w stosunku do tego, co osiągnęliśmy. Zrobiliśmy coś bardzo ważnego, zwiększając świadomość”.



Source link