
📊 AA-Briefcase ბენჩმარკი: AI მოდელები რეალური საქმის მხოლოდ 3%-ს ასრულებენ
ანალიტიკურმა პლატფორმა Artificial Analysis-მა ახალი ბენჩმარკი, AA-Briefcase წარადგინა, რომელიც ხელოვნური ინტელექტის მოდელების მიერ რეალური სამუშაო დავალებების შესრულების ხარისხს აფასებს. კვლევამ აჩვენა, რომ საუკეთესო ენობრივი მოდელებიც კი უკიდურესად რთულად უმკლავდებიან კომპლექსურ პროექტებს და რეალური საოფისე დავალებების მხოლოდ მცირე ნაწილს ასრულებენ სრულყოფილად. ახალი ბენჩმარკი მოდელებს სთავაზობს მრავალკვირიან პროექტებს, რომლებიც ათასობით ფრაგმენტული ფაილისგან შედგება. მათ შორისაა ელექტრონული წერილები, Slack-ის მიმოწერები, შეხვედრების ტრანსკრიპტები და მონაცემთა ბაზების ჩანაწერები. ეს რთული ფორმატი ბევრად უფრო ახლოსაა ადამიანების ყოველდღიურ საოფისე საქმიანობასთან, ვიდრე სტანდარტული მოკლე შეკითხვები, რომლებსაც მოდელები მარტივად პასუხობენ. გამოცემა The Decoder-ის რეპორტიორი, მაქსიმილიან შრაინერი აღნიშნავს, რომ ტესტირებაში საუკეთესო შედეგი Anthropic-ის მოდელმა, Claude Fable 5-მა აჩვენა. თუმცა, ამ წამყვანმა მოდელმაც კი დავალებების მხოლოდ 3%-ის სრულად და უშეცდომოდ გადაჭრა შეძლო. შრაინერი წერს, რომ რთული ინსტრუქციების შესრულებისას მოდელები ჯერ კიდევ შორს არიან სრულყოფილებისგან და ვერ ცვლიან ადამიანის აზროვნებას. ანგარიშის თანახმად, წარმოდგენილი 91 დავალებიდან 31 შემთხვევაში ვერცერთმა შეფასებულმა მოდელმა ვერ შეძლო კრიტერიუმების 50%-ზე მეტის შესრულება. ეს მიუთითებს იმაზე, რომ კოგნიტური დავალებების მესამედი ჯერჯერობით საერთოდ მიუწვდომელია ხელოვნური ინტელექტის თანამედროვე სისტემებისთვის და მათ გადასაჭრელად გამოცდილი თანამშრომლის ჩართულობა და კონტროლია საჭირო. კვლევის ავტორები განმარტავენ, რომ მოდელების განვითარებასთან ერთად იცვლება შეცდომების ხასიათიც. Artificial Analysis-ის ანგარიშში ნათქვამია: „სუსტი მოდელები იჭრებიან ბაზისურ შესრულებაში, რადგან ვერ პოულობენ საჭირო ფაილებს ან გამოუსადეგარ შედეგებს იძლევიან. ძლიერი მოდელები კი შეცდომებს ჩუმად უშვებენ: ისინი ასრულებენ აშკარა მოთხოვნებს, მაგრამ ტოვებენ ნიუანსებს.“ ეს ფარული შეცდომები განსაკუთრებით სახიფათოა ბიზნესისთვის, რადგან მათი აღმოჩენა რთულია პირველადი შემოწმებისას. მოდელმა შესაძლოა შექმნას ვიზუალურად გამართული ანგარიში, რომელიც შეიცავს არასწორ მონაცემებს ან უგულებელყოფს მნიშვნელოვან დეტალებს, რომლებიც წინა თვეების წერილებში იყო ნახსენები. ეს კი ზრდის მცდარი ბიზნეს გადაწყვეტილებების მიღების რისკს. გარდა ამისა, ტესტებმა გამოავლინა უზარმაზარი ფინანსური სხვაობა მოდელების მუშაობის ღირებულებას შორის. ერთი დავალების შესრულების ფასი 800-ჯერ განსხვავდება სხვადასხვა პლატფორმის შემთხვევაში. ჩინური DeepSeek V4 Flash მოდელის გაშვება სულ რაღაც 0.04 დოლარი ჯდება, ხოლო ამერიკული Claude Fable 5-ის შემთხვევაში ფასი 31 დოლარს აღწევს, რაც საოცარ ფინანსურ სხვაობაზე მიუთითებს. Artificial Analysis-ის ექსპერტები მიუთითებენ, რომ მაღალი ღირებულება ყოველთვის არ ნიშნავს შესაბამის ხარისხს. კომპანიის წარმომადგენელი აცხადებს, რომ AI-ს დანერგვისას ფინანსური ეფექტიანობა მნიშვნელოვანი ფაქტორია, რადგან ძვირადღირებული მოდელების მუშაობა ხშირად არ ამართლებს იმ მწირ შედეგებს, რომლაც ისინი რეალურ ბენჩმარკებში აჩვენებენ, რაც ზრდის იმედგაცრუებას. კვლევის შედეგები ცივი შხაპია მათთვის, ვინც აცხადებდა, რომ ხელოვნური ინტელექტი უახლოეს მომავალში სრულად ჩაანაცვლებს საოფისე მუშაკებსა და ფინანსურ ანალიტიკოსებს. რეალური საქმე მოითხოვს ფრაგმენტული ინფორმაციის სინთეზს და დეტალებზე ორიენტირებას, რაც დღევანდელ ალგორითმებს ძალიან უჭირთ და ხშირად იწვევს სამუშაო პროცესის სრულ პარალიზებას. საგულისხმოა, რომ ბენჩმარკში გამოყენებული ფაილების სტრუქტურა სპეციალურად იყო შერჩეული ისე, რომ მაქსიმალურად გაერთულებინა მოდელებისთვის მუშაობა. ეს მოიცავდა სხვადასხვა დროს გაგზავნილ წერილებს შორის წინააღმდეგობების პოვნას და მონაცემთა ბაზების შედარებას, რაც ყოველდღიური ბიზნეს საქმიანობის განუყოფელი ნაწილია და ადამიანის მხრიდან დიდ ყურადღებასა და დროს მოითხოვს, რათა არ მოხდეს შეცდომების გაპარვა. საბოლოო ჯამში, ბენჩმარკის შედეგები ნათლად აჩვენებს, რომ ტექნოლოგიური პროგრესის მიუხედავად, ხელოვნური ინტელექტი ჯერ კიდევ საწყის ეტაპზეა რთული საოფისე და ინტელექტუალური შრომის ავტომატიზაციის კუთხით. მომხმარებლებს მოუწევთ დიდი დროის დახარჯვა სისტემის მიერ დაშვებული ფარული შეცდომების მოსაძებნად და გამოსასწორებლად, რათა თავიდან აიცილონ უხარისხო მუშაობის შედეგები და შეინარჩუნონ ბიზნესის ეფექტიანობა.
New benchmark exposes how badly AI struggles with real knowledge work