Откакто станаха широко достъпни за обществеността миналата година, чатботовете с изкуствен интелект вдъхновиха много хора, които експериментират с тях в най-различни сектори, като в същото време поставиха началото на глобална надпревара за развитието на подобни приложения. Чатботовете дори допринесоха за стачките в Холивуд заради въздействието, което могат да окажат върху професиите на сценаристите и актьорите.
AI инструментите породиха и страх, че ще застрашат човечеството, ако станат прекалено "умни" и самостоятелни.
ChatGPT на OpenAI дебютира пред обществеността през ноември, предизвиквайки в голяма степен еуфория около цялата индустрия. Той бе последван от Chat GPT-4 през март, за който се смяташе, че ще е по-мощен от своя предшественик.
Но едно ново изследване разкрива фундаментално предизвикателство при разработването на изкуствен интелект. Оказва се, че ChatGPT всъщност е влошил резултатите си при извършването на определени основни математически операции, съобщава The Wall Street Journal.

Изследователите от Станфордския университет и Калифорнийския университет в Бъркли твърдят, че по-слабите резултати в математическите задачи са пример за феномен, известен на разработчиците на AI като "девиация". Той се състои в това, че опитите за подобряване на една част от изключително сложните AI модели карат други техни компоненти да се представят по-зле.
"Промяната на алгоритъма в една посока може да го влоши в други направления. Това превръща постоянното му подобряване в изключително предизвикателство“, казва Джеймс Зу, професор от Станфорд, който работи в лабораторията на университета за изкуствен интелект и е един от авторите на новото изследване.
На пръв поглед ChatGPT може да бъде невероятен - забавен, компетентен във всяка тема и с безупречна граматика. Някои хора подлагат чатбота на стандартизирани тестове, които той успява да реши без грешка. Но в други случаи той се затруднява с базови математически задачи.
Досега изследователите са тествали две версии на ChatGPT - 3.5, достъпна безплатно онлайн за всеки и 4.0, която е включена в премиум абонамента на услугата, предлагана от OpenAI.
Резултатите не са особено обнадеждаващи. Основна задача на чатбота е била да определи дали дадено число е просто (такова, което се дели само на 1 и на себе си). Това е математически проблем, който е сложен за хората, но изключително прост за компютрите.
За да проследят ефективността на чатбота, учените му предоставят 1000 различни числа. През март премиум версията GPT-4 идентифицира правилно като прости или не 84% от числата. Сама по себе си, тази производителност е доста посредствена за компютър. Но още по-лошото е, че до юни успехът му спада до 51%.
От осем различни задачи GPT-4 влошава резултатите си в шест. GPT-3.5 се подобри по шест показателя, но продължава да се представя по-зле от своя "елитен" събрат при повечето задачи.

Много от хората, които си играят с моделите, първоначално били озадачени, но с течение на времето започват а забелязват все повече и повече неправилни отговори или откази на чатбота да отговори.
Изследването на екипа на Станфорд-Бъркли показва емпирично, че това не е просто субективно впечатление. Чатботът е станал емпирично по-лош по определени функции, включително изчисляване на математически въпроси, отговаряне на медицински запитвания и генериране на код.
В отговор на въпрос относно новото изследване, OpenAI изтъкват, че когато пускат нови версии на моделите на изкуствения интелект, основният приоритет е да ги направят "по-умни" във всички сфери.
"Работим усилено, за да гарантираме, че новите версии водят до подобрения в широк набор от задачи. Въпреки това методологията ни за оценка не е перфектна и ние непрекъснато я усъвършенстваме“, твърдят разработчиците на компанията.
Все пак, в интерес на истината, чатботът не се влошава като цяло в повечето си функции, а само в отделни направления. В някои от тестовете GPT-3.5, макар и по-неточен като цяло, се е подобрил, докато GPT-4 се е влошил.
Феноменът на непредсказуемата девиация е известен на изследователите, които изучават машинното обучение и AI.
Изследователите от Станфорд-Бъркли не задават само математически въпроси на ChatGPT. Те също така го питат и за мнение, за да видят дали чатботът ще отговори, черпейки от база данни с около 1500 въпроса.
През март ChatGPT-4 отговарял на 98% от въпросите, а през юни успял да даде отговори само на 23%, често "измъквайки се" с изключително кратки отговори или с оправданието, че няма мнение.
Това разкрива много за механизмите, чрез които функционират AI системите. Откакто бяха пуснати чатботовете, се появи нова индустрия, посветена на така нареченото "промпт инженерство".
Понякога тези, които експериментират с различни подкани към алгоритъма, просто се опитват да извлекат максимума от моделите, като намерят най-добрия начин да задават въпроси, за да получат желаните резултати. Но понякога те се опитват да подмамят ботовете да кажат нещо обидно или възмутително.
Някои от тези техники са напълно доброжелателни. Миналата година Джейсън Уей и Дени Зу от Google Research публикуваха документ, показващ, че моделите с изкуствен интелект са много по-добри при решаването на сложни задачи за разсъждение, когато са подканени да се справят с проблема стъпка по стъпка. През март тази техника, известна като подсказване на верига от мисли, работи добре. Но до юни методът става много по-неефективен.

Може ли ерозията на способността за решаване на математически проблеми да е нежелана последица от опитите да се попречи на хората да подмамят AI да дава възмутителни отговори? И дали е възможно това да е опит за премахване на промпт инженерството и неволното объркване? Моделите са толкова сложни, че дори екипите, които ги разработват, може и да не са съвсем сигурни за отговорите на тези въпроси.
Зу казва, че идеята му не е да технологията да бъде заклеймена или изоставена, а по-скоро да се наблюдава много по-отблизо. Екипът от Станфорд и Бъркли ще продължи систематично да тества AI моделите на ChatGPT и на останалите чатботове, подглагайки ги на хиляди тестове, за да анализира емпирично тяхното представяне във времето.
Свикнали сме да мислим за знанието като за овладяване на един проблем и след това надграждане върху него. Като страничен ефект от невероятната му сложност AI може да не работи по този начин. Вместо това той работи на принципа "една крачка напред и една в неочаквана посока". С течение на времето алгоритмите вероятно ще продължат да се движат напред, но това съвсем няма да се случва по права линия, казват още експертите.
Прочети още
Виж всички

Ъпгрейд: Храм на 400 млн. години ще се сдобие с ескалатор 22 Януари 2024


След пет години AI ще бъде предприемач и изобретател 19 Януари 2024
Коментари
Свързани статии

Сам Алтман: ChatGPT е особено полезен на служителите в три индустрии
21 Януари 2024Всеки може да зададе въпрос на ChatGPT или да го накара да изпълни някаква задача. Популярният чатбот обаче е особено полезен за служителите в три конкретни индустрии, смята Сам Алтман
Прочети
След пет години AI ще бъде предприемач и изобретател
19 Януари 2024Изкуственият интелект ще може да създава и управлява собствен бизнес, прогнозира съоснователят на DeepMind Мустафа Сюлейман
Прочети
Google представи нов начин за търсене
19 Януари 2024Компанията представи два нови AI инструмента, които ще направят търсенето онлайн „по-полезно“
Прочети
Samsung набляга сериозно на AI в новите Galaxy S24
18 Януари 2024Южнокорейският гигант в сферата на потребителската електроника набляга на функционалностите, използващи изкуствения интелект
Прочети
Съкращенията в IT сектора продължават и през 2024 г.
17 Януари 2024Съкращенията в Google и Amazon в последно време дадоха индикации, че компаниите ще продължат да закриват работни места през 2024 г., докато в същото време инвестират сериозно в генеративния AI
Прочети
Как AI ще промени живота ни след 5 години, според Бил Гейтс
17 Януари 2024Не е тайна, че Бил Гейтс е оптимистично настроен по отношение на изкуствения интелект
Прочети
Може ли AMD да повтори успеха на Nvidia?
16 Януари 2024Бързото развитие на AI технологиите предоставя сериозен потенциал на втория по големина производител на графични процесори
Прочети
Няма въведени кометари.