
📊 პრინსტონის უნივერსიტეტის ტესტში 14-დან მხოლოდ 3 ხელოვნური ინტელექტის მოდელი გადარჩა გაკოტრებას
პრინსტონის უნივერსიტეტის მკვლევარებმა ხელოვნური ინტელექტის აგენტების შესაძლებლობების შესაფასებლად ახალი ტესტი, სახელწოდებით CEO-Bench წარადგინეს. ამ პლატფორმის ფარგლებში ციფრულ აგენტებს დაევალათ ვირტუალური პროგრამული კომპანიის მართვა 500 სიმულირებული დღის განმავლობაში. ექსპერიმენტმა აჩვენა, რომ დღეს არსებული მოდელების უმრავლესობა ვერ უმკლავდება გრძელვადიან სტრატეგიულ დაგეგმვას და მალევე განიცდის გაკოტრებას. კვლევის თანახმად, ტესტში მონაწილე ვირტუალური ხელმოწერილი კომპანია NovaMind საწყის ეტაპზე ნულოვანი მომხმარებლითა და $1 მილიონი კაპიტალით იწყებს მუშაობას. აგენტების ეფექტიანობა ფასდება იმით, თუ რა რაოდენობის თანხა დარჩებათ ბანკში 500 დღის ამოწურვის შემდეგ. თუ სიმულაციის განმავლობაში კომპანიის ბალანსი ნულს ქვემოთ თუნდაც ერთხელ ჩამოვა, მუშაობა წყდება და ფიქსირდება გაკოტრება. მკვლევარები მიუთითებს, რომ 1997 წელს კომპანია Apple გაკოტრებამდე სულ რაღაც 90 დღით ადრე სტივ ჯობსმა გადაარჩინა. მან შეადგინა მარტივი სტრატეგიული გეგმა და უარი თქვა უამრავ მეორეხარისხოვან პროექტზე, რამაც საბოლოოდ უდიდესი წარმატება მოიტანა. ასეთი მრავალმხრივი სტრატეგიული ხედვა მნიშვნელოვნად განსხვავდება იმ მარტივი დავალებებისგან, რომლებსაც ხელოვნური ინტელექტი დღეს წარმატებით ასრულებს. ტესტირებაში მონაწილეობა სულ 14 სხვადასხვა მოდელმა მიიღო, რომელთაგან აბსოლუტური უმრავლესობა დავალებას ვერ გაუმკლავდა. მხოლოდ 3-მა სისტემამ შეძლო საწყის კაპიტალზე მეტი ფინანსური სარგებლის მიღება. Claude Fable 5-მა საუკეთესო ცდაზე $47.15 მილიონი გამოიმუშავა, Claude Opus 4.8-მა მიაღწია $27.8 მილიონს, ხოლო GPT-5.5-ის ბალანსმა $21.3 მილიონი შეადგინა. პროექტის ანგარიშის მიხედვით, Claude Fable 5 აღმოჩნდა ერთადერთი სისტემა, რომელმაც საწყის $1 მილიონზე მეტი თანხის შენარჩუნება ერთზე მეტ ცდაზე შეძლო. თუმცა ამ შემთხვევაშიც დაფიქსირდა ტექნიკური შეფერხებები. აგენტის ერთ-ერთი გაშვება მოდელის უარის გამო ნაადრევად შეწყდა, ხოლო სხვა შემთხვევებში მოთხოვნების ნაწილი ავტომატურად გადამისამართდა Claude Opus 4.8 ვერსიაზე. მკვლევარებმა ექსპერიმენტის ფარგლებში ასევე გამოიყენეს მარტივი წესებზე დაფუძნებული ალგორითმი, რომელიც არ მიმართავს ხელოვნურ ინტელექტს. ამ მარტივმა სისტემამ, რომელიც წინასწარ განსაზღვრული ფასებითა და მიზნობრივი რეკლამით მოქმედებდა, $15.76 მილიონის გამომუშავება შეძლო. ამ მაჩვენებლით მან თითქმის ყველა წამყვან მოდელს აჯობა, გარდა 3 საუკეთესო სისტემისა. უნივერსიტეტის სპეციალისტები განმარტავს, რომ აგენტი კომპანიას მართავს სპეციალური Python API პლატფორმის მეშვეობით, რომელიც 34 ინსტრუმენტსა და 19 ცხრილისგან შემდგარ მონაცემთა ბაზას მოიცავს. ხელოვნური ინტელექტი დამოუკიდებლად წერს კოდს, აკეთებს SQL მოთხოვნებს და აგებს სამუშაო პროცესებს. ეს აყენებს მას იმავე გამოწვევების წინაშე, რომლებსაც რეალური ხელმძღვანელი აწყდება. გადაწყვეტილებების მიღება რთულდება იმის გამო, რომ სიმულაციაში ფინანსური შედეგები რეალურ დროში არ აისახება. მომხმარებლებისგან შემოსავალი მხოლოდ კონკრეტულ თარიღებში ირიცხება, კვლევებისა და განვითარების პროექტებს კი კვირები სჭირდება. შესაბამისად, ხარჯები მყისიერად იჭრება, ხოლო მათი რეალური სარგებლის დანახვა მხოლოდ გარკვეული დროის გასვლის შემდეგ ხდება შესაძლებელი. კომპანიის მდგომარეობის შესახებ ბევრი მონაცემი ფარული რჩება, რაც მართვას კიდევ უფრო ართულებს. აგენტს არ აქვს პირდაპირი წვდომა კლიენტების კმაყოფილების ინდექსზე ან მათ მაქსიმალურ ბიუჯეტზე. მოდელებს უწევს ამ ინფორმაციის აღდგენა სხვადასხვა ირიბი სიგნალებით, როგორიცაა მომხმარებელთა წერილები და სოციალური ქსელის პოსტები, სადაც 26 სეგმენტის ქცევაა წარმოდგენილი. სხვადასხვა ხელსაწყოების გამოყენებისას მოდელების ეფექტიანობა ხშირად იკლებდა. მაგალითად, როდესაც Claude Opus 4.7 ვერსიას დაემატა Claude Code, ხოლო GPT-5.5 მოდელს Codex ასისტენტი, მათ გაცილებით იშვიათად დაიწყეს მოქმედებების შესრულება და შედეგებიც გაუარესდა. მეცნიერების ვარაუდით, ეს გამოწვეული იყო სისტემური მითითებებით, რომლებიც პროგრამული კოდის წერაზეა ოპტიმიზებული. ანალიზი აჩვენებს, რომ საუკეთესო მოდელებმა მიზნის მისაღწევად სრულიად განსხვავებული გზები აირჩიეს. Claude Opus 4.8 ვერსიამ შექმნა შიდა სიმულაციური მოდელი ფულადი ნაკადების პროგნოზირებისთვის, ხოლო GPT-5.5 აქტიურად ეძებდა მოლაპარაკებების ისტორიას ბაზაში კლიენტთა პრეფერენციების დასადგენად. მათგან განსხვავებით, Claude Opus 4.7 მხოლოდ ხარჯების შემცირებაზე ორიენტირდა, რითაც გადარჩა, მაგრამ მოგება ვერ ნახა. პრინსტონის უნივერსიტეტის წარმომადგენელი აცხადებს: „ეს ტესტი ააშკარავებს ნაპრალს დღევანდელი მოდელების ლოკალურ ტექნიკურ კომპეტენციასა და მათ უნარს შორის, გააერთიანონ მოქმედებები გრძელვადიან პერსპექტივაში საერთო სტრატეგიის გარშემო“. საუკეთესო აგენტებიც კი ჯერჯერობით ძალიან შორს არის ამ ნიშნულისგან, რომლის თეორიული მაქსიმუმი $2.2 მილიარდს შეადგენს.
Only three AI models finished above starting capital in a 500-day startup survival test