Agent skills look great in benchmarks but fall apa — ინსაითი

ახლახან გამოქვეყნებულმა კვლევამ დაადასტურა ის, რასაც ყოველდღიურად Claude-ის აგენტების მართვისას ვხედავ.
როცა აგენტს ლაბორატორიულ გარემოში ტესტავენ, ის დავალებების 90%-ს ასრულებს. მაგრამ როგორც კი მას ჩემს სამუშაო სისტემაში ვრთავ, სადაც ვიდეოს სკრიპტიდან მუსიკის სინქრონიზაციამდე ყველაფერი ავტომატიზებულია, ეფექტურობა მკვეთრად ეცემა. პრობლემა ისაა, რომ მოდელები „ზეპირად სწავლობენ" სტანდარტულ ტესტებს. საკმარისია სამუშაო პროცესში ერთი გაუთვალისწინებელი ცვლადი შეიტანო - მაგალითად, Suno-ს მიერ გენერირებული ფაილის ფორმატი ოდნავ შეიცვალოს - რომ აგენტი იბნევა და ციკლურ შეცდომაში ვარდება.
ჩვენ გვატყუებენ, როცა გვეუბნებიან, რომ აგენტს „აზროვნება" შეუძლია. სინამდვილეში, ისინი მხოლოდ ნაცნობ გზებს მიჰყვებიან.
ავტონომიური სისტემის აწყობა დღეს ნიშნავს არა ინტელექტის მართვას, არამედ გაუთავებელი გამონაკლისების წერას. თუ შენი სისტემა მხოლოდ იდეალურ მონაცემებზე მუშაობს, შენ არა აგენტი, არამედ ძვირადღირებული სათამაშო გაქვს. 🛠
ინდუსტრია ბენჩმარკების გაყალბების ეპოქაში შევიდა და ნამდვილი პროგრესი მხოლოდ მაშინ დაიწყება, როცა მოდელების შეცდომებზე საუბარს დავიწყებთ. 🎯
Agent skills look great in benchmarks but fall apart under realistic conditions, researchers find
the-decoder.com
დაწვრილებით ამ თემაზე

ქიმიური აღიარება: რატომ დაარღვია Anthropic-მა თავისივე უსაფრთხოების პირობა
Anthropic-მა გამოაქვეყნა უსაფრთხოების ანგარიში, სადაც აღიარებს, რომ ახალ მოდელს გააჩნია „მომატებული რისკი“ ქიმიური იარაღის შექმნაში დახმარების კუთხით, თუმცა კომპანიამ ის მაინც გამოუშვა. დარიო ამოდეი ასევე აღიარებს, რომ არ იცის, არის თუ არა მოდელი ცნობიერი. გთავაზობთ სრულ ანალიზს კვირის შესახებ, როდესაც უსაფრთხოება მოკვდა.

👁️ კორპორატიული არქიტექტურის ახალი კოდი: CEO აგენტი და 210 მილიარდი ტოკენის ანომალია
მარკ ცუკერბერგმა პირადი AI აგენტი შექმნა შუალედური მენეჯერების ჩასანაცვლებლად. პარალელურად დეველოპერები კვირაში 210 მილიარდ ტოკენს წვავენ კორპორატიული სტატუსის სადემონსტრაციოდ. სისტემა რადიკალურად იცვლება.

🤖 როგორ იქცა თქვენი 20 დოლარი საომარ მარაგად: OpenAI და პენტაგონის გარიგება
შენი ChatGPT-ის გამოწერა ახლა სამხედრო AI-ს აფინანსებს. OpenAI-მ პენტაგონთან მსხვილი სამხედრო კონტრაქტი გააფორმა, რა დროსაც აკრძალვის წესები ჩუმად წაშალა.
მსგავსი ინსაითები
ბრიტანეთის პარლამენტში გამართულ მოსმენაზე ექსპერტებმა ამერიკული ხელოვნური ინტელექტის ინდუსტრია „ველურ დასავლეთად" გამოაცხადეს. პოლიტიკოსები ახლა ჩინეთის მკაცრ რ
theguardian.com
აპრილში Anthropic-მა ახალ მოდელზე, Claude Mythos-ზე წვდომა მხოლოდ 50 კომპანიას მისცა უსაფრთხოების რისკების გამო. ბრიტანეთის AI უსაფრთხოების ინსტიტუტი ამტკიცებს
the-decoder.com
OpenAI-ის პრეზიდენტის, გრეგ ბროკმანის ახალი პროგნოზი პატარა გუნდების სუპერძალაზე ზუსტად იმას აღწერს, რასაც ჩემს ყოველდღიურ სამუშაო პროცესში ვეჯახები. ის ამტკიც
the-decoder.com
OpenAI გვიმტკიცებს, რომ სუპერინტელექტი მალე სამუშაო საათებს შეგვიმცირებს და ხელფასს მაინც გადაგვიხდიან. ეს ულამაზესი თეორიაა მათთვის, ვინც ტექნოლოგიას მხოლოდ პ
the-decoder.com
OpenAI-ის ხელმძღვანელის, სამ ოლტმენის ბოლო განცხადებები ხელოვნური ინტელექტის მიერ სამუშაო ადგილების ჩანაცვლებაზე ზუსტად იმას მიდასტურებს, რასაც ჩემს ყოველდღიურ
futurism.com
იაპონიის უმსხვილესი ავტოგიგანტებისა და ბანკების გაერთიანება საკუთარი ხელოვნური ინტელექტის შექმნას გეგმავს და ეს ზუსტად ის შეცდომაა, რომელსაც კორპორაციული სამყარ
the-decoder.com
OpenAI-ის დირექტორის, სამ ოლტმენის ბოლო განცხადებები იმ კრიზისზე, რომელიც კომპანიის შიგნით მწიფდება, ზუსტად იმ პრობლემის გამოძახილია, რასაც პროდაქშენში ყოველდღე
futurism.com
კომენტარები (0)
Andrew Altair
AI ინოვატორი