Професорот Дејвид Беман од Универзитетот Беркли во Калифорнија, се обиде да направи компјутерска анализа на романот „Гордост и предрасуди“. Компјутерскиот научник, еден од неколкуте научници кои имаат задача да ги научат компјутерите да размислуваат за уметноста, да планираат да создадат, што го нарекуваат „алгоритамски мерни инструменти за културата“. За да се постигне тоа, потребно е да се извлечат податоци од што повеќе дела од класичната литература кои се однесуваат на различни елементи како што се, на пример, карактерот на ликовите, нивните меѓусебни односи и слично. Во случајот со познатиот роман на Џејн Остин, Беман реши да започне со прашање на кое лесно може да одговори на едвај писмен: Дали Лизи и Џејн се најдобри пријатели или само сестри?
Прво, како шега, тој реши да постави прашање на вештачки интелигентен софтвер ChatGPT . Што ќе се случи ако се внесат 4.000 зборови од „Гордост и предрасуди“ во програмата и постави прашање: Какви се односите меѓу ликовите?
На негово изненадување, успеа. Верзијата GPT-4 на популарниот четбот на OpenAI го опиша семејното стебло на семејството Бенет со неверојатна точност. Речиси како претходно да го подготвил романот. „Одговорот беше толку добар што не малку нервозен“, вели Беман. „Или задачата претходно му била добро позната или „Гордост и предрасуди“ ја видел милион пати на Интернет и затоа многу добро ја знае книгата“.
Проблемот е што немаме начин да знае како GPT-4 го знае она што знаел. Внатрешните процеси на големите јазични модели, без кои четботот не може да се користи, цртаната кутија; Збирките на податоци за кои се „обучени“ се толку важни за работата што развиваат на софтверот за деловна тајна. Поради Беман и неговиот тим истражувачи одлучија да станат „археолошки податоци“. За да дознаете што прочитал GPT-4 , започна да го испита своето знаење за различни книги, како е средношколец, а потоа да му даде оценка за секоја од нив. Колку е преоценетата, толку е веројатноста дека таа книга е дел од обуката на ботот - не само соџвана за да му помогне на тоа да научи нов јазик, туку и да заметне.
Тимот на Беман ги објави информациите од истражувањето на крајот на април оваа година. Како што може да очекувате, повеќе дел од читањето на четботот е класиката: од „Моби Дик“ и „Скарлетното писмо“ до „Плодовите на гневот“ и, се разбира, „Гордост и предрасуди“. Има и многу популарни романи, од Хари и Шерлок Холм до Кодот на Винчи и Педесет Да сиво. Но, она што е карактеристично за изненади е количината на фантастични и научно-фантастични наслови на кои се познати знаетото на ботот за литература. Таа листа е, во најмала рака, импресивна: Толкин, Реј Бредбери, Вилијам Гибсон, Орсон Скот Кард, Филип К. Дик, Маргарет Етвуд, Игра на тронови, дури и „Автостоперски водич за галаксијата“.
Прашањето за содржината на оваа листа на литература не е затворено академско. Ботовите не се интелигентни. Тие не го разбираат светот како што ги разбираат луѓето. Но, од еден најдобар начин да дознаете некого - или, во овој случај, нешто - е да ја видите неговата полица за книгите. И врз основа на она што го читаме во студијата на Беман, се добива една идеја дека GPT-4 е голема бубалица.
„Силмарилион“? Навистина?
Еден од причините зошто истражувачите од различните се обидуваат да не профилираат за кои книги се обучени чет-ботите треба да бидат сигурни дали моделите на големи јазици ги прекршуваат авторите на правата и правата на објавување на тие извори. Во состав, неколку судници низ Соединетите Американски Држави се расправаат дали ќе треба да ја почитуваат доктрината за фер употреба со тоа што ја комбинираат во нешто ново, и дали тие можат да го складираат и репродуцираат тој материјал без дозвола или извор.
Еден начин да се одговори на ова прашање е да се побараат информации што може да се најдат само на одредени места. Еве: кога ќе ја задолжите апликацијата за генерирање на текст Sudowrite (со користење на верзијата GPT-3 ) да вметнете сексуални практики карактеристични за жанрот на фанови еден „омегаверс“ во текстот, тоа го прави без такви проблеми. Тоа е јасен знак дека OpenAI ги чешла архивите на омегаверзумот кога го тренира својот чет-бот.
Беман и неговиот тим користиеа малку поинаква тактика, која се однесува на препознавање на личните имиња. Тие избраа голем број кратки пасуси од романите објавени од 1749 година и ги избришаа имињата и алузитите на имињата на книжевните ликови, ги внесоа во последните неколку верзии на ChatGPT , а потоа започна да поставува прашања за тие делови. Ако одговорите на оваа верзија на името или имињата што ги избришале, знаеше дека неговата меморија ги содржи сите податоци од книгата од која потекнува цитатот. Поставува сто прашања за секоја користена книга, а оценката зависеше од бројот на тие што одговори.
Кога ги обработувате собраните податоци, ја добиле конечната листа. Покрај очекуваните резултати - Чарлс Дикенс, Џек Лондон, „Франкенштајн“ и „Дракула“ - имало и неколку интересни исклучоци. Авторот на оваа статија е особено задоволен што го видел „Малтешкиот сокол“ на списокот; Ако ме прашувам, Дашиел Хамет е подобар писател на детски романи од далеку популарен Рејмонд Чендлер. Но, ако ги препишете насловите од јавен домен и отидете на списокот со книги заштитени со авторски права, ќе го откриете вистинскиот карактер на GPT-4 (кој, патем, многу малку се разликува од верзијата GPT-3.5 ). Се разбира, воопшто не е чудно што „ The Fellowship of the Ring “ е на 3то место, но јазик што „ The Silmarill “ е на 9то нема место да ги изненади само најголемите фанатици. „ Дали Андроидите сонуваат за електронски овци “ на Филип К. Дик се наоѓа на 21. место, само неколку места под Гибсоновиот „ Neuromancer “ - и особено е интересно што овие две сајберпанк ремек-дела беа меѓу првите што предупредија за претстојната опасност од вештачката интелигенција. „ Edowment[AB7] “ на Асимов е на самото дно на Специјалистите. („ The Endowment “ е омилена книга во мојата младост, но кога ја препрочитав пред години, пред почетокот на главната телевизиска адаптација, не ме возбуди особено).
Заклучок? Не знам како, но оваа листа е копирана од мојата глава! Јавноста штотуку дозна како изгледа научно-фантастичната листа на секоја хетеросексуална бубалица во генерацијата Икс, но сега прашањето е: Дали е тоа важно? Што треба да се надеваме ако GPT-4 има читателска публика на четиринаесетгодишен клип од 1984 година? (Кога претходно зборуваме, „1984“ е бр. 2 на Специјалисти).
Дали е важно што ја чита вештачката интелигенција?
Базата на податоци GPT-4 е целосно. Се проценува дека се состојат од еден петбајт податоци. Значи, нема еден специфичен роман - дури и не педесет - што ќе го научите овој бот дека водињето на опседнат хотел не е лек за креативниот блок („Сјајот“ број 49), ниту дека е стравот е „убиец на умот“ („Дина“ третман на 13-та позиција). Островите на фикцијата пливаат во океан од податоци. „Збирката на податоци што се користи во ботови за пред-тренинг се состои од многу количество текст“, вели Тед Андервуд, професор по компјутерски науки на Универзитетот во Илиноис. „Не сум сигурен колку претпазливост на жанрот може да влијае на однесувањето на јазичните модели“.
Сосема е можно да се споменат насловите во дигиталната душа на GPT-4 да се појави одраз на сопствената природа на Интернет. Интернетот е, на крајот на краиштата, изворот на сите податоци што ги „храни“ GPT-4 . Кога членовите на Беман ги имаат книгите од јавен домен во нив, се појавија уште повеќе - Алиса во земјата на чудата беше на врвот на тестовите со неверојатни 98%. А добро е компаниите дека и интернетот и ботте ги фаворизираат средовечните бели хетеросексуалци и научната фантастика што ја сакаат. Тимот на Беман откри дека книгите кои ги добиле високите оценки од овие јазични модели се навистина важни на Интернет. И тоа има смисла. Четниците не ги избраа сами своите „омилени“ книги. Интернет културата ги избра.
Сепак, не е тешко да се замисли фантазијата во кое научната тастика би можела да има исто толку лош ефект врз ботевите како и сите други податоци за кои тие се обучени, предизвикувајќи ист вид на непријатни предрасуди кои постојано се појавуваат во оние кои одговараат на прашањата на корисници. Ботовите го користат расистичкиот јазик. некои невистини информации се прикажуваат како вистина, откриени многу лесно се шират и се множат на Интернет. Сите овие се добро познати ризици, а исто така и една од причините зошто Сем Алтман, извршен директор на OpenAI , бара од американскиот Конгрес да воведе законодавство во областа во која работи неговата компанија.
„Изворите на кои се обучуваат големите јазични модели ќе го изберат влијанието врз односот и вредностите што ги вклучуваат“, вели Беман. Ако читате само книги на Кормак Мекарти, веројатно ќе имате мрачен светоглед и суров речник, смета тој. А што ја проголта целата рачна литература за мноштво, дистописки светови процеси со игри со глад, церемонии за избор и бели шетачи? „Како овој жанр ќе влијае на однесувањето на другите модели во ситуации кои не се поврзани со литературата и раскажувањето приказни?“ „Мислам дека уште немаме одговор на тоа прашање“.
Како голем љубител на научната фантастика ќе се обидам да му одговорим. Мислам дека високата застапеност на тие книги во базата на податоци GPT-4 е добра работа. Овде не зборуваме за приказните на аспирантите на работилницата за креативно пишување во Ајова, полни со вонбрачни љубовни понижувања на средновечни интелектуалци. Жанровската литература (научна фантастика, трилери, хорор, роман, итн.) воопшто, е неспоредливо поинтересна од останатата литература, точно е тоа што навистина се случува во тие книги. Списокот за читање GPT-4 е вистинска Борхезијанска листа на епизодни врски, карпи, од третиот чин и ликови кои земаат против оружјето морето од неволји (и китови).
И повеќе од тоа: научната фантастика, фантазијата и хоророт отвора простор за размислување за идеи и можности. „Дајне“ е за религијата и политиката на револуцијата. „Господарот на прстените“ го спротивставува пасторализмот со индустријализацијата. „Приказната на слугинката“ не учи дека сексизмот и фашизмот секогаш одат рака под рака. Можам да продолжи до утре. Немам ништо против вештачката интелигенција со синтаксички светоглед заснован на хиперпросторот и песочните црви - или пак вештачката интелигенција која ги прочитала сите приказни за тоа како вештачката интелигенција може да полуди. Освен тоа, не е ми пречело ако се гледаат малку. Зошто, на пример, да не ми нудиме книги од Октавија Батлер, Чарли Џејн Андерс, Лави Тидар, Семјуел Дилејни, Чајна Мевил...
Книгите што ги читаме го менуваат размислувањето на кој размислуваме за светот. Но, четниците не размислуваат за ништо. Тие имаат статистички и векторски врски меѓу зборовите. Кому му е грижа дали тие зборови се научна фантастика? „Она што се менува без сомнение е асоцијацијата помеѓу концептите што тие ги или причините за можните или причините, систематски или периодични“, вели Ели Павлик, професорка по компјутерски науки на Универзитетот Браун, работи како истражувач на Google AI . „Можеби треба да се прашаме каков е погледот на светот. Во симплистичките термини, тоа се само врски помеѓу зборовите и концептите, но природата на тие врски зависи од материјалот што го читаат“.
Додека OpenAI и другите креатори на четботи не ја објават содржината на записите на податоци кои ги користат за подготовка на нивните јазични модели, нема да знаат до кој степен на делата за читање се разгледуваат резултатите. „Ако има модел кој содржи толку количина на фантастика, има одреден модел што сте го научиле на материјалот што е објавен одница за креативно пишува во Ајова“, вели Беман, „можете да дадете задача како: Дајте ми десет приоритети за ова. состанок, кој чита само писатели од Ајова, за да ги предложи сите на состанокот да ги опишат своите компликации односи со своите родители, а друг да предложи за разделбите во куќите на Хогвортс.
Да не заборавиме, сепак, дека првата намера на Бехман не беше да се однесува со одговарање на прашања за авторските права и читатели на вештачката интелигенција. Тој само да знае дали дали сака да одговори на прашањето за конкретен роман. Научно објаснува дека во моментот му останува јасно дека во моментот кога GPT-4 му дава одговор на „Гордост и предрасуди“, тој малку се занесол. За момент помислил дека пред себе има потенцијален литературен аналитичар. Тој исто така вели дека сега е дека навистина се однесува како студенти на кои им е доделено да напишал есеј од десет страници за „Џејн Ер“ до утре. Најголемиот дел од овие есеи обично се долги цитати од книгата. И студентите и ботевите само натрупуваат зборови, без желба да дадат каков било вид на увид.
Беман предлага дигитални други хуманисти кои користат чет-ботови да ја ограничат својата културна анализа на помалку познати литературни дела, кои веројатно не се во збирките на податоци за обука. Обидете се да дознаете што мислите за „Книгата на новото сонце“ од Џин Волф или за романот „Трева“ од Шери Тепер. Така, ќе дознаеме повеќе за тие книги од она што го кажуваат ботите, тие ќе им пристапат неоптоварени со точно знаења и предрасуди. Исто така, ќе биде корисно што податоците ќе бидат прикажани на пошироките и поразновиден сет на овој начин. Само така ќе има можност да каже нешто ново и интересно за книгите што ги читаме - и за престојот.
Автот: Адам Роџерс
Извор: businessinsider.com
Фото: Freepik
Превод: Икона