Insights
Agent skills look great in benchmarks but fall apart under realistic conditions, researchers find
the-decoder.com
⚠️ ხელოვნური ინტელექტის აგენტების შემქმნელები, მათ შორის OpenAI-ის გუნდი, ლამაზ ციფრებს გვიჩვენებენ, მაგრამ პრაქტიკაში ეს სისტემები ზუსტად მაშინ იშლება, როცა საქმე რეალურ პროდაქშენზე მიდგება. ახლახან გამოქვეყნებულმა კვლევამ დაადასტურა ის, რასაც ყოველდღიურად Claude-ის აგენტების მართვისას ვხედავ. როცა აგენტს ლაბორატორიულ გარემოში ტესტავენ, ის დავალებების 90%-ს ასრულებს. მაგრამ როგორც კი მას ჩემს სამუშაო სისტემაში ვრთავ, სადაც ვიდეოს სკრიპტიდან მუსიკის სინქრონიზაციამდე ყველაფერი ავტომატიზებულია, ეფექტურობა მკვეთრად ეცემა. პრობლემა ისაა, რომ მოდელები „ზეპირად სწავლობენ" სტანდარტულ ტესტებს. საკმარისია სამუშაო პროცესში ერთი გაუთვალისწინებელი ცვლადი შეიტანო - მაგალითად, Suno-ს მიერ გენერირებული ფაილის ფორმატი ოდნავ შეიცვალოს - რომ აგენტი იბნევა და ციკლურ შეცდომაში ვარდება. ჩვენ გვატყუებენ, როცა გვეუბნებიან, რომ აგენტს „აზროვნება" შეუძლია. სინამდვილეში, ისინი მხოლოდ ნაცნობ გზებს მიჰყვებიან. ავტონომიური სისტემის აწყობა დღეს ნიშნავს არა ინტელექტის მართვას, არამედ გაუთავებელი გამონაკლისების წერას. თუ შენი სისტემა მხოლოდ იდეალურ მონაცემებზე მუშაობს, შენ არა აგენტი, არამედ ძვირადღირებული სათამაშო გაქვს. 🛠 ინდუსტრია ბენჩმარკების გაყალბების ეპოქაში შევიდა და ნამდვილი პროგრესი მხოლოდ მაშინ დაიწყება, როცა მოდელების შეცდომებზე საუბარს დავიწყებთ. 🎯

Agent skills look great in benchmarks but fall apart under realistic conditions, researchers find

the-decoder.com

24 აპრილი, 20264

დაწვრილებით ამ თემაზე

ქიმიური აღიარება: რატომ დაარღვია Anthropic-მა თავისივე უსაფრთხოების პირობა

ქიმიური აღიარება: რატომ დაარღვია Anthropic-მა თავისივე უსაფრთხოების პირობა

Anthropic-მა გამოაქვეყნა უსაფრთხოების ანგარიში, სადაც აღიარებს, რომ ახალ მოდელს გააჩნია „მომატებული რისკი“ ქიმიური იარაღის შექმნაში დახმარების კუთხით, თუმცა კომპანიამ ის მაინც გამოუშვა. დარიო ამოდეი ასევე აღიარებს, რომ არ იცის, არის თუ არა მოდელი ცნობიერი. გთავაზობთ სრულ ანალიზს კვირის შესახებ, როდესაც უსაფრთხოება მოკვდა.

👁️ კორპორატიული არქიტექტურის ახალი კოდი: CEO აგენტი და 210 მილიარდი ტოკენის ანომალია

👁️ კორპორატიული არქიტექტურის ახალი კოდი: CEO აგენტი და 210 მილიარდი ტოკენის ანომალია

მარკ ცუკერბერგმა პირადი AI აგენტი შექმნა შუალედური მენეჯერების ჩასანაცვლებლად. პარალელურად დეველოპერები კვირაში 210 მილიარდ ტოკენს წვავენ კორპორატიული სტატუსის სადემონსტრაციოდ. სისტემა რადიკალურად იცვლება.

🤖 როგორ იქცა თქვენი 20 დოლარი საომარ მარაგად: OpenAI და პენტაგონის გარიგება

🤖 როგორ იქცა თქვენი 20 დოლარი საომარ მარაგად: OpenAI და პენტაგონის გარიგება

შენი ChatGPT-ის გამოწერა ახლა სამხედრო AI-ს აფინანსებს. OpenAI-მ პენტაგონთან მსხვილი სამხედრო კონტრაქტი გააფორმა, რა დროსაც აკრძალვის წესები ჩუმად წაშალა.

მსგავსი ინსაითები

Andrew Altair

Andrew Altair

AI ინოვატორი