Што чита ChatGPT?

1 ноември 2024

Професорот Дејвид Беман од Универзитетот Беркли во Калифорнија, неодамна се обиде да направи компјутерска анализа на романот „Гордост и предрасуди“. Компјутерскиот научник, еден од неколкуте научници кои имаат задача да ги научат компјутерите да размислуваат за уметноста, планира да создаде, како што го нарекува „алгоритамски мерни инструменти за културата“. За да се постигне тоа, потребно е да се извлечат податоци од што повеќе дела од класичната литература кои се однесуваат на различни елементи како што се, на пример, карактерот на ликовите, нивните меѓусебни односи и слично. Во случајот со познатиот роман на Џејн Остин, Беман реши да започне со прашање на кое лесно може да одговори едвај писмен човек: Дали Лизи и Џејн се најдобри пријателки или само сестри?

Прво, како шега, тој реши да му постави прашање на вештачки интелигентниот софтвер ChatGPT. Што ќе се случи ако внесе 4.000 зборови од „Гордост и предрасуди“ во програмата и постави едноставно прашање: Какви се односите меѓу ликовите?

На негово изненадување, успеа. Верзијата GPT-4 на популарниот четбот на OpenAI го опиша семејното стебло на семејството Бенет со неверојатна точност. Речиси како претходно да го проучувал романот. „Одговорот беше толку добар што ме направи малку нервозен“, вели Беман. „Или задачата веќе му била добро позната или „Гордост и предрасуди“ ја видел милион пати на Интернет и затоа многу добро ја знае книгата“.

Проблемот е што немаме начин да знаеме како GPT-4 го знаел она што знаел. Внатрешните процеси на големите јазични модели, без кои четботот не може да функционира, претставуваат црна кутија; збирките на податоци за кои се „обучени“ се толку важни за нивното работење што развивачите на софтвер ги сметаат за деловна тајна. Затоа Беман и неговиот тим истражувачи одлучија да станат „археолози на податоци“. За да дознаат што прочитал GPT-4, почнале да го тестираат неговото знаење за различни книги, како да е средношколец, а потоа да му даваат оценка за секоја од нив. Колку е поголема оценката, толку е поголема веројатноста дека таа книга била дел од обуката на ботот - не само соџвакана за да му помогне на ботот да научи нов јазик, туку и запаметена.

Тимот на Беман ги објави резултатите од нивното истражување на крајот на април оваа година. Како што може да очекувате, најголемиот дел од читањето на четботот е класиката: од „Моби Дик“ и „Скарлетното писмо“ до „Плодовите на гневот“ и, се разбира, „Гордост и предрасуди“. Има и многу популарни романи, од Хари Потер и Шерлок Холмс до Кодот на Да Винчи и Педесет нијанси сиво. Но, она што особено ги изненади е количината на фантастични и научно-фантастични наслови на кои се базира знаењето на ботот за литература. Таа листа е, во најмала рака, импресивна: Толкин, Реј Бредбери, Вилијам Гибсон, Орсон Скот Кард, Филип К. Дик, Маргарет Етвуд, Игра на тронови, дури и „Автостоперски водич за галаксијата“.

Прашањето за содржината на оваа листа на литература не е исклучиво академско. Ботовите не се интелигентни. Тие не го разбираат светот како што го разбираат луѓето. Но, еден од најдобрите начини да запознаете некого - или, во овој случај, нешто - е да ја разгледате неговата полица за книги. И врз основа на она што го читаме во студијата на Беман, се добива впечаток дека GPT-4 е една голема бубалица.

„Силмарилион“? Навистина?

Една од причините зошто истражувачите од различни профили се обидуваат да откријат за кои книги се обучени чет-ботите е потребата да се утврди дали моделите на големи јазици ги прекршуваат авторските права и правата на објавување користејќи ги тие извори. Во моментов, неколку судници низ Соединетите Американски Држави се расправаат дали ботовите ја почитуваат доктрината за фер употреба со тоа што ја трансформираат во нешто ново, и дали тие едноставно го складираат и репродуцираат тој материјал без дозвола или извор.

Еден начин да се одговори на ова прашање е да барате информации што може да се најдат само на одредени места. Еве еден пример: кога ќе ја задолжите апликацијата за генерирање текст Sudowrite (со користење на верзијата GPT-3) да вметне сексуални практики карактеристични за жанрот на фанови наречен „омегаверс“ во текстот, тоа го прави без никакви проблеми. Тоа е јасен знак дека OpenAI ги чешла архивите на омегаверзумот кога го тренира својот чет-бот.

Беман и неговиот тим користеа малку поинаква тактика, која се сведува на препознавање на лични имиња. Тие избраа голем број кратки пасуси од романите објавени од 1749 година па наваму и ги избришаа имињата и алузиите на имињата на книжевните ликови, ги внесоа во последните неколку верзии на ChatGPT, а потоа почнаа да му поставуваат прашања за тие делови. Ако ботот одговори на прашањето користејќи го името или имињата што ги избришале, знаеле дека неговата меморија веќе ги содржи сите податоци од книгата од која потекнува цитатот. Поставуваа сто прашања за секоја користена книга, а оценката зависеше од бројот на точни одговори.

Кога ги обработиле собраните податоци, ја добиле конечната листа. Покрај очекуваните резултати - Чарлс Дикенс, Џек Лондон, „Франкенштајн“ и „Дракула“ - имало и неколку интересни исклучоци. Авторот на оваа статија беше особено задоволен што го виде „Малтешкиот сокол“ на списокот; Ако ме прашувате мене, Дашиел Хамет е подобар писател на детективски романи од далеку попопуларниот Рејмонд Чендлер. Но, ако ги прескокнете насловите од јавен домен и отидете на списокот со книги заштитени со авторски права, ќе го откриете вистинскиот карактер на GPT-4 (кој, патем, многу малку се разликува од верзијата GPT-3.5). Се разбира, воопшто не е чудно што „The Fellowship of the Ring“ е на 3то место, но фактот што „The Silmarillion“ е на 9то место нема да ги изненади само најголемите фанатици. „Do Androids Dream of Electronic Sheep“ на Филип К. Дик се наоѓа на 21. место, само неколку места под Гибсоновиот „Neuromancer“ - и особено е интересно што овие две сајберпанк ремек-дела беа меѓу првите што предупредија за претстојната опасност од вештачката интелигенција. „Endowment[AB7]“ на Асимов е на самото дно на листата. („The Endowment“ е омилена книга во мојата младост, но кога ја препрочитав пред две години, пред почетокот на одличната телевизиска адаптација, не ме возбуди особено).

Заклучок? Не знам како, но оваа листа е копирана од мојата глава! Јавноста штотуку дозна како изгледа научно-фантастичната листа на секој хетеросексуална бубалица во генерацијата Икс, но сега прашањето е: Дали е тоа важно? На што треба да се надеваме ако GPT-4 има читателска публика на четиринаесетгодишен клип од 1984 година? (Кога веќе зборуваме, „1984“ е бр. 2 на листата).

Дали е важно што чита вештачката интелигенција?

Базата на податоци GPT-4 е огромна. Се проценува дека се состои од еден петабајт податоци. Значи, нема еден специфичен роман - дури ни педесет - што ќе го научи овој бот дека водењето на опседнат хотел не е лек за креативниот блок („Сјајот“ е број 49), ниту дека стравот е „убиец на умот“ („Дина“ припаѓа на 13-та позиција). Островите на фикцијата пливаат во океан од податоци. „Збирката на податоци што се користи во ботови за пред-тренинг се состои од огромна количина текст“, вели Тед Андервуд, професор по компјутерски науки на Универзитетот во Илиноис. „Не сум сигурен колку претпочитањето на жанрот може да влијае на однесувањето на добиените јазични модели“.

Сосема е можно присуството на споменатите наслови во дигиталната душа на GPT-4 да е едноставно одраз на нивната сеприсутност на Интернет. Интернетот е, на крајот на краиштата, изворот на сите податоци што ги „храни“ GPT-4. Кога тимот на Беман вклучи книги од јавен домен во нивните тестови, резултатите беа уште повисоки - Алиса во земјата на чудата беше на врвот на листата со неверојатни 98%. А добро е познато дека и интернетот и бот компаниите ги фаворизираат средовечните бели хетеросексуалци и научната фантастика што ја сакаат. Тимот на Беман откри дека книгите кои добиле високи оценки од главните јазични модели се навистина најпопуларни на Интернет. И тоа има смисла. Четботите не ги избраа сами своите „омилени“ книги. Интернет културата ги избра.

Сепак, не е тешко да се замисли сценарио во кое научната фантастика би можела да има исто толку лош ефект врз ботовите како и сите други податоци за кои тие се обучени, предизвикувајќи ист вид на неочекувани предрасуди кои редовно се појавуваат во нивните одговори на прашањата на корисниците. Ботовите понекогаш користат расистички јазик. Понекогаш невистинитите информации се прикажуваат како вистина, бидејќи лагите многу лесно се шират и се множат на Интернет. Сите овие се добро познати ризици, а исто така и една од причините зошто Сем Алтман, извршен директор на OpenAI, неодамна побара од американскиот Конгрес да воведе законодавство во областа во која работи неговата компанија.

„Изворите на кои се обучуваат големите јазични модели ќе имаат одлучувачко влијание врз нивното однесување и вредностите што ќе ги претставуваат“, вели Беман. Ако ги читаат само книгите на Кормак Мекарти, веројатно ќе имаат мрачен светоглед и суров речник, смета тој. А што ако ја проголта целата достапна литература за мрачните, дистописки светови исполнети со игри со глад, церемонии за избор и бели шетачи? „Како овој жанр ќе влијае на однесувањето на јазичните модели во ситуации кои не се поврзани со литературата и раскажувањето приказни?“ „Мислам дека сè уште немаме одговор на тоа прашање“.

Како голем љубител на научната фантастика ќе се обидам да му одговорам. Мислам дека високата застапеност на тие книги во базата на податоци GPT-4 е добра работа. Овде не зборуваме за приказните на аспиранти учесници на работилницата за креативно пишување во Ајова, полни со вонбрачни љубовни понижувања на средовечни интелектуалци. Жанровската литература (научна фантастика, трилери, романса, хорор, итн.) воопшто, е неспоредливо поинтересна од останатата литература, делумно затоа што нешто навистина се случува во тие книги. Списокот за читање GPT-4 е вистинска Борхезијанска листа на епизодни врски, карпи, компликации од третиот чин и ликови кои земаат оружје против морето од неволји (и китови).

И повеќе од тоа: научната фантастика, фантазијата и хоророт отвораат простор за размислување за идеи и можности. „Дајне“ е за религијата и политиката на револуцијата. „Господарот на прстените“ го спротивставува пасторализмот со индустријализацијата. „Приказната на слугинката“ нè учи дека сексизмот и фашизмот секогаш одат рака под рака. Можам да продолжам до утре. Немам апсолутно ништо против вештачка интелигенција со синтаксички светоглед заснован на хиперпросторот и песочните црви - или барем вештачката интелигенција која ги прочитала сите приказни за тоа како вештачката интелигенција може да полуди. Освен тоа, не би ми пречело ако нејзините хоризонти се прошират малку. Зошто, на пример, да не ѝ понудиме книги од Октавија Батлер, Чарли Џејн Андерс, Лави Тидар, Семјуел Дилејни, Чајна Мевил... Време е да се прошири универзумот на можните универзуми.

Книгите што ги читаме го менуваат начинот на кој размислуваме за светот. Но, четботите не размислуваат за ништо. Тие воспоставуваат статистички и векторски врски меѓу зборовите. Кому му е грижа дали тие зборови се научна фантастика? „Она што се менува без сомнение е асоцијацијата помеѓу концептите што тие ги сметаат за можни, или силни, или систематски или периодични“, вели Ели Павлик, професорка по компјутерски науки на Универзитетот Браун, која работи како истражувач на Google AI. „Можеби треба да се запрашаме каков е нивниот поглед на светот. Во симплистички термини, тоа се само врски помеѓу зборовите и концептите, но природата на тие врски сепак зависи од материјалот што го читаат“.

Сè додека OpenAI и другите креатори на четботови не ја објават содржината на збирките на податоци што ги користат за обука на нивните јазични модели, нема да знаеме до кој степен делата за читање влијаат на нивните резултати. „Ако имате модел кој содржи огромна количина научна фантастика, а имате одреден модел што сте го обучиле на материјал што доаѓа од работилница за креативно пишување во Ајова“, вели Беман, „можете истовремено да им дадете задача како: Дајте ми десет приоритети за овој состанок, бот кој чита само писатели од Ајова, за да предложи сите на состанокот да ги опишат своите комплицирани односи со своите родители, а друг да предложи за разделбите во куќите на Хогвортс.

Да не заборавиме, сепак, дека првичната намера на Бехман не беше да се занимава со одговарање на прашања за авторските права и читателите на вештачката интелигенција. Тој само сакаше да знае дали четботот може да одговори на неговото прашање за конкретен роман. Научникот објаснува дека во меѓувреме му станало јасно дека во моментот кога GPT-4 му го дал одговорот за „Гордост и предрасуди“, тој малку се занесол. За момент помислил дека пред себе има потенцијален литературен аналитичар. Тој исто така вели дека сега сфаќа дека ботовите всушност се однесуваат како студенти на кои им е доделено да напишат есеј од десет страници за „Џејн Ер“ до утре. Најголемиот дел од овие есеи обично се долги цитати од книгата. И студентите и ботовите само натрупуваат зборови, без желба да дадат каков било вид на увид.

Беман предлага дигиталните хуманисти кои користат чет-ботови да ја ограничат својата културна анализа на помалку познати литературни дела засега, кои веројатно не се во збирките на податоци за обука. Обидете се да дознаете што мисли ботот за „Книгата на новото сонце“ од Џин Волф или за романот „Трева“ од Шери Тепер. Така, ќе дознаеме повеќе за тие книги од она што го кажуваат ботовите, бидејќи тие ќе им пристапат неоптоварени со постоечките знаења и предрасуди. Исто така, ќе биде корисно што ботовите ќе бидат изложени на поширок и поразновиден сет на податоци на овој начин. Само така ќе имаат можност да кажат нешто ново и интересно за книгите што ги читаме - и за сѐ останато.

Автот: Adam Rodžers

Извор: businessinsider.com

Фото: Freepik

Превод: Ikona

Назад на блогот

Ставката е додадена во вашата кошничка

Што чита ChatGPT?

Земја/регион

Јазик