Защо ChatGPT влошава резултатите си по математика?

Мода и красота Modernity 05 Август 2023

Откакто станаха широко достъпни за обществеността миналата година, чатботовете с изкуствен интелект вдъхновиха много хора, които експериментират с тях в най-различни сектори, като в същото време поставиха началото на глобална надпревара за развитието на подобни приложения. Чатботовете дори допринесоха за стачките в Холивуд заради въздействието, което могат да окажат върху професиите на сценаристите и актьорите.

AI инструментите породиха и страх, че ще застрашат човечеството, ако станат прекалено "умни" и самостоятелни.

ChatGPT на OpenAI дебютира пред обществеността през ноември, предизвиквайки в голяма степен еуфория около цялата индустрия. Той бе последван от Chat GPT-4 през март, за който се смяташе, че ще е по-мощен от своя предшественик.

Но едно ново изследване разкрива фундаментално предизвикателство при разработването на изкуствен интелект. Оказва се, че ChatGPT всъщност е влошил резултатите си при извършването на определени основни математически операции, съобщава The Wall Street Journal.

Как се стартира бизнес за ден със $100 и помощта на ChatGPT?

Изследователите от Станфордския университет и Калифорнийския университет в Бъркли твърдят, че по-слабите резултати в математическите задачи са пример за феномен, известен на разработчиците на AI като "девиация". Той се състои в това, че опитите за подобряване на една част от изключително сложните AI модели карат други техни компоненти да се представят по-зле.

"Промяната на алгоритъма в една посока може да го влоши в други направления. Това превръща постоянното му подобряване в изключително предизвикателство“, казва Джеймс Зу, професор от Станфорд, който работи в лабораторията на университета за изкуствен интелект и е един от авторите на новото изследване.

На пръв поглед ChatGPT може да бъде невероятен - забавен, компетентен във всяка тема и с безупречна граматика. Някои хора подлагат чатбота на стандартизирани тестове, които той успява да реши без грешка. Но в други случаи той се затруднява с базови математически задачи.

Досега изследователите са тествали две версии на ChatGPT - 3.5, достъпна безплатно онлайн за всеки и 4.0, която е включена в премиум абонамента на услугата, предлагана от OpenAI.

Резултатите не са особено обнадеждаващи. Основна задача на чатбота е била да определи дали дадено число е просто (такова, което се дели само на 1 и на себе си). Това е математически проблем, който е сложен за хората, но изключително прост за компютрите.

За да проследят ефективността на чатбота, учените му предоставят 1000 различни числа. През март премиум версията GPT-4 идентифицира правилно като прости или не 84% от числата. Сама по себе си, тази производителност е доста посредствена за компютър. Но още по-лошото е, че до юни успехът му спада до 51%.

От осем различни задачи GPT-4 влошава резултатите си в шест. GPT-3.5 се подобри по шест показателя, но продължава да се представя по-зле от своя "елитен" събрат при повечето задачи.

Създателят на ChatGPT: AI ще направи революция в образованието

Много от хората, които си играят с моделите, първоначално били озадачени, но с течение на времето започват а забелязват все повече и повече неправилни отговори или откази на чатбота да отговори.

Изследването на екипа на Станфорд-Бъркли показва емпирично, че това не е просто субективно впечатление. Чатботът е станал емпирично по-лош по определени функции, включително изчисляване на математически въпроси, отговаряне на медицински запитвания и генериране на код.

В отговор на въпрос относно новото изследване, OpenAI изтъкват, че когато пускат нови версии на моделите на изкуствения интелект, основният приоритет е да ги направят "по-умни" във всички сфери.

"Работим усилено, за да гарантираме, че новите версии водят до подобрения в широк набор от задачи. Въпреки това методологията ни за оценка не е перфектна и ние непрекъснато я усъвършенстваме“, твърдят разработчиците на компанията.

Все пак, в интерес на истината, чатботът не се влошава като цяло в повечето си функции, а само в отделни направления. В някои от тестовете GPT-3.5, макар и по-неточен като цяло, се е подобрил, докато GPT-4 се е влошил.

Феноменът на непредсказуемата девиация е известен на изследователите, които изучават машинното обучение и AI.

Изследователите от Станфорд-Бъркли не задават само математически въпроси на ChatGPT. Те също така го питат и за мнение, за да видят дали чатботът ще отговори, черпейки от база данни с около 1500 въпроса.

През март ChatGPT-4 отговарял на 98% от въпросите, а през юни успял да даде отговори само на 23%, често "измъквайки се" с изключително кратки отговори или с оправданието, че няма мнение.

Това разкрива много за механизмите, чрез които функционират AI системите. Откакто бяха пуснати чатботовете, се появи нова индустрия, посветена на така нареченото "промпт инженерство".

Понякога тези, които експериментират с различни подкани към алгоритъма, просто се опитват да извлекат максимума от моделите, като намерят най-добрия начин да задават въпроси, за да получат желаните резултати. Но понякога те се опитват да подмамят ботовете да кажат нещо обидно или възмутително.

Някои от тези техники са напълно доброжелателни. Миналата година Джейсън Уей и Дени Зу от Google Research публикуваха документ, показващ, че моделите с изкуствен интелект са много по-добри при решаването на сложни задачи за разсъждение, когато са подканени да се справят с проблема стъпка по стъпка. През март тази техника, известна като подсказване на верига от мисли, работи добре. Но до юни методът става много по-неефективен.

Google: Не вярвайте на нашия чатбот, ползвайте търсачката

Може ли ерозията на способността за решаване на математически проблеми да е нежелана последица от опитите да се попречи на хората да подмамят AI да дава възмутителни отговори? И дали е възможно това да е опит за премахване на промпт инженерството и неволното объркване? Моделите са толкова сложни, че дори екипите, които ги разработват, може и да не са съвсем сигурни за отговорите на тези въпроси.

Зу казва, че идеята му не е да технологията да бъде заклеймена или изоставена, а по-скоро да се наблюдава много по-отблизо. Екипът от Станфорд и Бъркли ще продължи систематично да тества AI моделите на ChatGPT и на останалите чатботове, подглагайки ги на хиляди тестове, за да анализира емпирично тяхното представяне във времето.

Свикнали сме да мислим за знанието като за овладяване на един проблем и след това надграждане върху него. Като страничен ефект от невероятната му сложност AI може да не работи по този начин. Вместо това той работи на принципа "една крачка напред и една в неочаквана посока". С течение на времето алгоритмите вероятно ще продължат да се движат напред, но това съвсем няма да се случва по права линия, казват още експертите.

Прочети още

Виж всички

Мода и красота

Откри ли блокчейнът своето убийствено приложение в контрола на AI? 23 Януари 2024

Мода и красота

Ъпгрейд: Храм на 400 млн. години ще се сдобие с ескалатор 22 Януари 2024

Мода и красота

Сам Алтман: ChatGPT е особено полезен на служителите в три индустрии 21 Януари 2024

Мода и красота

След пет години AI ще бъде предприемач и изобретател 19 Януари 2024

Коментари

Няма въведени кометари.

Коментирай

СПЕЦИАЛЕН ПРОЕКТ

Как да проверите дали касовата ви бележка е фалшива?

05 Януари 2024

Фалитите в САЩ с 18% ръст през 2023 г.

04 Януари 2024

Световни медии: След 12 г. преговори София и Букурещ без паспортен контрол по море и въздух

31 Декември 2023

Легендата Хенри Кисинджър почина на 100-годишна възраст

30 Ноември 2023

SoftServe Bulgaria с отличие от Българския дарителски форум

29 Ноември 2023

Каuflаnd с промоционална кампания с продукти на Philips

16 Ноември 2023

Бюджет 2024: 3.2% ръст на БВП, 4.8% инфлация и 3% бюджетен дефицит

10 Ноември 2023

Онлайн търговията у нас нараства с 5.7% за година

10 Ноември 2023

Какви промени в данъците предлага Министерският съвет?

06 Ноември 2023

Свързани статии

Сам Алтман: ChatGPT е особено полезен на служителите в три индустрии

21 Януари 2024

Всеки може да зададе въпрос на ChatGPT или да го накара да изпълни някаква задача. Популярният чатбот обаче е особено полезен за служителите в три конкретни индустрии, смята Сам Алтман

Прочети

След пет години AI ще бъде предприемач и изобретател

19 Януари 2024

Изкуственият интелект ще може да създава и управлява собствен бизнес, прогнозира съоснователят на DeepMind Мустафа Сюлейман

Прочети

Google представи нов начин за търсене

19 Януари 2024

Компанията представи два нови AI инструмента, които ще направят търсенето онлайн „по-полезно“

Прочети

Samsung набляга сериозно на AI в новите Galaxy S24

18 Януари 2024

Южнокорейският гигант в сферата на потребителската електроника набляга на функционалностите, използващи изкуствения интелект

Прочети

Съкращенията в IT сектора продължават и през 2024 г.

17 Януари 2024

Съкращенията в Google и Amazon в последно време дадоха индикации, че компаниите ще продължат да закриват работни места през 2024 г., докато в същото време инвестират сериозно в генеративния AI

Прочети