Što čitate ChatGPT?

1. novembar 2024.

Profesor Dejvid Beman sa Univerziteta Berkli u Kaliforniji, neodamna se obide da napravi kompjutersku analizu romana „Gordost i predrasudi“. Kompjuterski naučnik, jedan od nekolicine naučnika koji imaju zadatak da nauče kompjutere da razmišljaju za umetnost, planiraju da kreiraju, kako to narekuje „algoritamski merni instrumenti za kulturu“. Da bi se to postiglo, potrebno je da se izvuku podaci iz što više dela iz klasične literature koja se odnesuvaat na različite elemente kao što se, na primer, karakteriše likovi, nivni međusobni odnosi i slično. U slučaju poznatog romana Džejna Ostina, Beman je odlučio da počne sa prašenjem na koe lesno može da odgovori samo jednom pismenom čoveku: Dali Lizi i Džejn se najbolji prijatelj ili samo sestri?

Prvo, kako šega, taj mi je odlučio da postavim praćenje na veštački inteligentni softver ChatGPT . Što će se dogoditi ako donesete 4.000 zborova od „Gordost i predrasude“ u programu i postavite ednostavno praćenje: Kako se odnosite na mene likove?

Na negovo iznenaduvanje, uspea. Verzija GPT-4 na popularnom početku na OpenAI- u je opisala semejno steblo semejstva Benet sa neverovatnom preciznošću. Rečisi kako prethodno da proučuval romanot. „Odgovorot beše tolku dobar što me napravi malku nervozan“, veli Beman. „Ili zadaća mi je bila dobro poznata ili „Gordost i predrasudi“ je videla milion pati na Internetu i toliko dobro je znala knjiga“.

Problem je što nemam način da znamo kako GPT-4 zna ono što zna. Unapredni procesi na najvećim jazičnim modelima, bez čega ne mogu funkcionirati, pretvaraju se u crnu kutiju; zbirkite podataka za koje se „obučeni“ se tolku važni za nivno rabotenje što razvijate na softveru gi smetnjate za radnu tajnu. Zato Beman i negovio tim istražuvačima odluku da se stanuju „arheolozi na podacima“. Da biste saznali što je pročitao GPT-4 , počelo je da se testira njegovo poznavanje za različite knjige, kao što je srednjoškolac, a to će vam dati ocenu za seku od niv. Kolku je pogolema ocena, tolku je pogolema verojatnost deka i knjiga je bila deo od obukata na bototu - ne samo da vam pomogne da pomognete bototu da naučite novi jazik, tuku i zapamtite.

Timot na Beman je objavio rezultate od nivnog istraživanja na kraju aprila ove godine. Kako što može da se očekuje, najveći deo od čitanja na četbotot je klasika: od „Mobi Dik“ i „Skarletno pismo“ do „Plodovite na gnevot“ i, razume se, „Gordost i predrasudi“. Ima i mnogo popularnih romana, od Hari Potera i Šerloka Holmsa do Kodot na Da Vinči i Pedeset nijansi sivo. Ne, to je ono što je posebno izraženo u količini fantastičnih i naučno-fantastičnih naslova koji se baziraju na znanju za literaturu. Ta lista e, u najmanjoj raki, impresivni: Tolkin, Rej Bredberi, Vilijam Gibson, Orson Skot Kard, Filip K. Dik, Margaret Etvud, Igra na tronovi, duri i „Avtostoperski vodič za galaksija“.

Pitanje za sadržaj na ovoj listi na literaturi nije isključeno akademsko. Botovite ne se inteligentni. Ne možete da razumete svet kako da razumete lužeto. Ne, jedan od najboljih načina da upoznate nekoga - ili, u ovom slučaju, nešto - je da pogledate svoju policiju za knjige. I uz osnovu onoga što čitam u studiji na Beman, dolazi upečatok deka GPT-4 je jedna golema bubalica.

„Silmarilion“? Navistina?

Jedna od razloga zašto istražuju različiti profili se običavaju da otkrijete za koje knjige se obuče čet-botite potrebno je da se potvrdi da li modelirate velike jazike i prekršite autorska prava i prava na objavu korištenja tih izvora. U trenutku, nekolicina sudova niza Sjedinjenih Američkih Država se raspravi da li će botoviti pokrenuti doktrinatu za upotrebu tako što se transformiraju u nešto novo, i ako se ednostavno skladišti i reprodukuje taj materijal bez dozvole ili izvora.

Jedan način da odgovorite na ovo praćenje i da barate informacije što može da se nađe samo na određenim mestima. Ovo je jedan primer: koga treba da ispunite aplikaciju za montažu teksta Sudowrite (koristeći verziju GPT-3 ) da biste umetnuli seksualne karakteristike za žanrove fanova nazvanih „omegavers“ u tekstu, tako da pravite bez ikakvih problema. To je jasen znak deka OpenAI gi je arhivirao na omegaverzumotu koga trenira svoj čet-bot.

Beman i negoviot tim koriste malku poinakva taktika, koja se svede na prepoznavanje ličnih iminja. Izbrao je golem broj kratkih pasusi od romana objavljenih od 1749 godina pa navamu i izbriše iminata i aluzije na iminjata na književnim likovima, vodeći u posljednjim nekoliko verzija na ChatGPT-u , a potom počinje da se bavi vašim stavovima. Ako odmah odgovorite na prašnjenje koristeći ime ili iminata što su izbrisali, znale deka svoje uspomene koje sadrže podatke o knjižici od kojih se navodi citat. Postavlja sto prašanja za sekoju korišćenu knjigu, a ocena zavisi od broja na točnim odgovorima.

Koga obraditi prikupljene podatke, tako da dobijete konečnu listu. Kraj očekuvajte rezultate - Čarls Dikens, Džek London, „Frankenštajn“ i „Drakula“ - imali su i nekolicinu interesnih istraživača. Autorot ove statistike je bio posebno zadovoljan što se vidi „Malteškiot sokol“ na listi; Ako me prašuvate, Dašiel Hamet je podobar pisca za popularne detektivske romane Rejmonda Čendlera. Ne, ako preskočite naziv domena javnog i odete na listu zaštićenih knjiga sa autorskim pravima, otkrijete vistinski karakter na GPT-4 (koja, patema, mnogo se razlikuje od verzije GPT-3.5 ). Razume se, što nije čudno što „ The Fellowship of the Ring “ je na 3 mestu, ali činjenica je što „ The Silmarillion “ je na 9 mestu nema da se iznenadi samo najveći fanatici. „ Sanjaju li Androidi elektronske ovce “ na Filip K. Dik se nalazi na 21. mestu, samo neko mesto pod Gibsonoviot „ Neuromancer “ - i posebno je interesantno što su ove dve remeće sajberpanka bile meu prvom što predupredija za pretstojnu opasnost od veštačkata inteligencije. „ Endowment[AB7] “ na Asimov je na samoto dno na listama. („ The Endowment “ je omilena knjiga moje mladosti, no koga je prepročitao prije dvije godine, prije početka na izvanrednoj televizijskoj adaptaciji, ne izaziva osobe).

Zaključok? Ne znam kako, no ova lista je kopirana od moje glave! Javnost štotuku zna kako izgleda naučno-fantastična lista na sekoj heteroseksualnoj bubalici u generaciji Iks, no sada prašanjeto e: Da li je to važno? Šta treba da se nadeva ako GPT-4 ima čitalačku publikaciju na četirinaestgodišnji klip od 1984. godine? (Koga već zboruvame, „1984“ je br. 2 na listama).

Da li je važno što čita veštačka inteligencija?

Baza podataka GPT-4 je velika. Deka se procjenjuje od jednog petabajta podataka. Znači, nema jedan specifičan roman - duri ni pedeset - što ḱe go nauči ovu bot deka vodenjeto na opsednut hotel ne lek za kreativniot blok („Sjajot“ e broj 49), nitu deka stravot e „ubiec na umot“ („Dina“ pripaga na 13-ta pozicija). Ostrovite na fikcijama plivajte u okeanu od podataka. „Zbirka podataka što se koristi u botovima za predtrening koji se sastoji od ogromne količine teksta“, rekao je Ted Andervud, profesor kompjuterske nauke na Univerzitetu Ilinois. „Ne sum siguren kolku pretpočitano na žanrot može da utiče na odnesuvanje na dobijene jazične modele“.

Sosema je moguće prisustvovati spomenicima na osnovu digitalne duše na GPT-4 da je jednostavno odraz na nivnu sigurnost na Internetu. Internet je, na kraju krajeva, izokreće podatke stranice što su „hrani“ GPT-4 . Koga timot na Beman uključuje knjige od javnog domena u nivnim testovima, rezultati bea ušte visoke - Alisa u zemlji na čudatu je bila na vrhu lista sa neverojatni 98%. Dobro je poznato deka i internet i bot kompanije favoriziraju srednjevečne bijele heteroseksualce i naučnu fantastiku što je sakaat. Timot na Beman je otkrio deka knjige koje su dobile visoke ocjene od glavnih jazzičnih modela koji su najpopularniji na Internetu. I toa ima smisla. Nećete izvući sami svoje „omilene“ knjige. Internet kulturata gi izbra.

Ipak, nije teško da razmislite o scenariju za naučnu fantastiku koji bi mogao da ima isto toliko loš efekat kao što je to i sajt drugih podataka za koje se obuče, predvikuvajte i vide na neočekivane predrasude koji se redovno javljaju na razgovorima korisnici. Botovite ponekogaš koristite rasistički jazik. Ponekog nevistinitite informacije će se pokazati kako visina, bidejẑi mnogo lako se širati i množiti na Internetu. Ova stranica je dobro poznata rizici, a isto tako i jedna od razloga zašto je Sem Altman, izvršni direktor OpenAI , neodgovoran od američkog Kongresa da vodi zakonodavstvo u oblasti koja radi u svojoj kompaniji.

„Izvorite na koji se čuvaju najveće jazzične modele ẑe imaju odlučujuće vlijanie uz nivno odnosuvanje i vrednosti koje ẑe ẑe predstavljati“, veli Beman. Ako gi čitaat samo knjige na Kormak Mekarti, vrlo ẑe imaat mračen svetogled i surov rečnik, smeta toj. A što ako je progolta cela dostapna literatura za mračne, distopiske svetove ispunjene so igrice, ceremonije izbora i bele šetače? „Kako ovaj žanr ḱe vlijae na odnosuvanje na jazičnim modelima u situacijama koje se ne povrzani sa literaturom i rasučavanjem prikaza?“ „Mislam deka sè ušte nemame odgovor na to prašenje“.

Kako golem ljubitelj na naučnoj fantastici Ẑe se obidam da mi odgovaram. Mislam deka visok stepen stabilnosti na te knjige u baza podataka podataka GPT-4 je dobar posao. Ovde ne zboruvame za prikazite na aspirantima učesnika na rabotnicita za kreativno pisanje u Ajova, potpuno sa vonbračnim ljubavnim poniženjem na srednjovekovne intelektualce. Žanrovska literatura (naučna fantastika, trileri, romansa, horor, itd.) voopšto je nesporedno interesantna od ostatka literature, delumno zato što se nešto navisti u te knjige. Spisok za čitanje GPT-4 je vistinska Borhezijanska lista na epizodnim vrskim, karpi, komplikacijama od trećeg čina i likovi koji se oružju protiv mora od nevolji (i kitova).

I poveće od toga: naučna fantastika, fantazija i hororot otvara prostor za razmišljanje za ideje i mogućnosti. „Dajne“ je za religiju i politiku na revoluciju. „Gospodarot na prstenite“ protivstavlja pastoralizam sa industrijalizacijom. „Prikaznata na sluginkata“ ne uči deka seksizmot i fašizmot sekogaš odatka raka pod rakom. Možam da prodolžam do utre. Nemam apsolutno ništa protiv veštačke inteligencije sa sintaktičkim svetogledom zasnovanim na hiperprostoru i pesočnoj inteligenciji - ili barem veštačkata inteligencija koja je pročitala prikaze sajta za to kako veštačka inteligencija može da se poludi. Osim toga, ne bi mi prečelo ako se nejzinite horizonti proširat malku. Zošto, na primer, da ne ì ponudim knjige Oktavije Batlera, Čarlija Džejna Andersa, Lavija Tidara, Semjuela Dilejnija, Čajna Mevila... Vreme je da se proširi univerzitet na mogućim univerzitetima.

Snimite što ćete pročitati na meni i način na koji razmišljate o svijetu. No, ne razmišljajte za ništa. Tie postavlja statističke i vektorske vršačke meu zborove. Komu mu je briga dali tie zborovi se naučna fantastika? „Ona što se meniva bez somnenja je asocijacija pomeću koncept što tie gi sklopi za moć, ili silni, ili sistematski ili periodični“, veli Eli Pavlik, profesor kompjuterske nauke na Univerzitetu Braun, koji radi kao istraživač na Google AI . „Možebi treba da se zamolim kako je nivniot pogled na svet. U simplističkim terminima, to je samo vršnjačko pomeću zborova i koncepcija, ali priroda na tievrski ipak zavisi od materijala koji se čita“.

Sè dodeka OpenAI i drugi kreatori u četbotovima ne objavljuju sadržaje na zbirkama podataka što ih koristimo za obuku na nivnim jazičnim modelima, nemamo da znamo do koji stepen posla za čitanje na nivnim rezultatima. „Ako imate model koji sadrži ogromnu količinu naučne fantastike, imate određen model što ste obučili materijal što radite od rabote za kreativno pisanje u Ajovu“, veli Beman, „možete istovremeno da im date zadatak kao: Dajte za deset godina sostanok, bot koji čita samo pisci od Želimo da predložim stranicu na zahtjev da opišem svoje komplicirane odnose sa svojim roditeljima, a drugi da predložim za razmjenu u kući u Hogvortsu.

Da ne zaboravim, sepak, deka prva namera na Behman ne beše da se bavi sa odgovarajućim na prašanja za autorska prava i čitaoce na veštačkata inteligencija. Samo treba da zna da li cetbotot može da odgovori na njegovo praćenje za konkretan roman. Naučnikot objasnuva deka u vremenskom periodu mu je postalo jasno deka u trenutku kada GPT-4 da odgovorot za „Gordost i predrasudi“, taj malku se zanesol. Za moment pomislil deka pred sebe ima potencijalni književni analitičar. Toj isto taka veli deka sada sfaḱa deka bovite vsušnost se odnesuvaat kako studenti na koji im je dodato da napiše esej od deset stranica za „Džejn Er“ do utre. Najveći dio ove knjige obično se dugi citati. I studenti i botovi samo natrupuvaju zborove, bez želje da dat kako se vidi na uvid.

Beman nudi digitalne humanisti koji koriste čet-botove da ograniče svoju kulturnu analizu na pomalku poznatih literaturnih djela zasega, koji se vrlo brzo ne prikupljaju podataka za obuku. Vidite da znate što mislite o „Knjigama na novo sonce“ od Džin Volf ili za roman „Treva“ od Šeri Teper. Tako, ẑe doznaeme poveḱe za tie knjige od onoga što kažete botovite, bidejẑi tie ẑe im pristapat neoptovareni so postoečkite značenja i predrasude. Isto tako, ẑe biste bili korisni što botovite ẑe bidat izložen na širiku i poraznoviden set podataka na ovaj način. Samo taka ḱe imaat možete da kažete nešto novo i interesantno za knige što gi čitame - i za sđ ostalo.

Avtot: Adam Rodžers

Izvor: businessinsider.com

Foto: Freepik

Prevod: Ikona

Povratak na blog

Artikal je dodan u vašu korpu

Što čitate ChatGPT?

Država/regija

Jezik