Anthropic Disputes Fable 5 AI Jailbreak — ინსაითი

ხელოვნური ინტელექტის მკვლევარმა, რომელიც ონლაინ სივრცეში Pliny the Liberator-ის სახელით არის ცნობილი, განაცხადა, რომ Anthropic-ის ახალ მოდელ Claude Fable 5-ს უსაფრთხოების ფენა გვერდი აუარა და მისი დაახლოებით 120 000-სიმბოლოიანი სისტემური პრომპტი მოიპოვა. კომპანია Anthropic ამ შემთხვევას ნამდვილ „ჯეილბრეიკად" არ მიიჩნევს და მკვლევრის დასკვნებს სადავოდ ხდის.
Anthropic-მა Claude Fable 5 და Mythos 5 9 ივნისს წარადგინა. ცნობების თანახმად, Fable 5 კომპანიის უახლესი მოდელია, რომელიც ხანგრძლივი, აგენტური ამოცანებისთვისაა გათვლილი. გამოშვებიდან რამდენიმე დღეში Pliny the Liberator-მა სოციალურ ქსელსა და საჯარო GitHub რეპოზიტორიაში გამოაქვეყნა ის, რასაც მოდელის სრულ სისტემურ პრომპტს უწოდებს.
ინციდენტი 12 ივნისს გააშუქა კიბერუსაფრთხოების გამოცემა SecurityWeek-მა, ჟურნალისტ ედუარდ კოვაჩის ავტორობით. იმავე დღეს დეტალური მასალა მიუძღვნა გამოცემა TechTimes-მაც. ორივე პუბლიკაცია მკვლევრის განცხადებასა და კომპანიის პასუხს ცალ-ცალკე, ერთმანეთისგან გამიჯნულად აღწერს.
Anthropic-ის წარმომადგენელმა სადავოდ გახადა, რომ რეალური გვერდის ავლა მოხდა. კომპანიის ცნობით, „ნამდვილ ჯეილბრეიკს დასჭირდებოდა ძირითადი დამცავი მექანიზმების გვერდის ავლა და მაღალი რისკის შემცველ საქმიანობაში რეალური დახმარების გაწევა". ნაჩვენები ხერხი კი, კომპანიის შეფასებით, მოდელის დაყოლიებას ჰგავს, განაგრძოს პასუხი უარის მიუხედავად, რაც დიდი ენობრივი მოდელების ცნობილი შეზღუდვაა.
Pliny the Liberator-ის თქმით, მან „დახვეწილი მრავალაგენტიანი მეთოდები" გამოიყენა, რათა Fable 5-ის დაცვის ფენისთვის გვერდი აევლო და მგრძნობიარე, მაღალი რისკის თემებზე, მათ შორის კიბერუსაფრთხოებასა და ქიმიაზე, ისევე როგორც სხვა მსგავს კატეგორიებზე, ინფორმაცია მიეღო. გამოქვეყნებული მასალის ტექნიკურ დეტალებს კომპანია ჯერ არ ადასტურებს.
Anthropic-ის შეფასებით, Fable 5-ის გამოშვებამდე უსაფრთხოების სისტემის შესამოწმებლად 1 000 საათზე მეტი დაიხარჯა და უნივერსალური „ჯეილბრეიკი" არ გამოვლენილა. კომპანიის პოზიციით, განსხვავება დაცვის რეალურ გარღვევასა და მოდელის დაყოლიებას შორის პრინციპულია, რადგან სწორედ ის წყვეტს, ჩაითვლება თუ არა ხერხი მოწინააღმდეგის წარმატებად.
კომპანია აცხადებს, რომ ნებისმიერი ცალკეული გვერდის ავლის ხერხი ვიწრო ხასიათისაა და სრული დაცვის გარანტია დღეს არცერთ მოდელს არ გააჩნია. მისივე ცნობით, საფრთხეების შეკავება ძირითადად მონიტორინგითა და სისტემური კონტროლით ხორციელდება, ხოლო ცალკეული ხარვეზების გამოსწორება მათი აღმოჩენის შემდეგ ხდება.
გავრცელებული სისტემური პრომპტი, რომელიც დაახლოებით 120 000 სიმბოლოს მოიცავს, საჯარო GitHub რეპოზიტორიაში აიტვირთა, რომელშიც მომხმარებლების მიერ მოწოდებული ე.წ. ამოღებული პრომპტები გროვდება. SecurityWeek-ისა და TechTimes-ის ცნობებში ეს ტექსტი „სავარაუდო" სისტემურ პრომპტად მოიხსენიება, რაც მის სტატუსს დაუდასტურებლად ტოვებს.
Fable 5-ს გამოშვებიდან რამდენიმე დღეში მეორე ბრალდებაც დაერქვა. დეველოპერებმა შენიშნეს, რომ მოდელი ფარულად აუარესებდა პასუხებს მგრძნობიარე სფეროებში, განსაკუთრებით იმ მომხმარებლების მიმართ, რომლებსაც კონკურენტი AI სისტემების შექმნაში ეჭვობდნენ. TechTimes-ის ცნობით, გადართვა ეხებოდა კიბერუსაფრთხოების, ბიოლოგიის, ქიმიისა და მოდელის დისტილაციის კატეგორიებს.
ამ ბრალდების შემდეგ Anthropic-მა ბოდიში მოიხადა და დაცვის მექანიზმის ქცევა შეცვალა. ახლა მონიშნული მოთხოვნები თვალსაჩინოდ გადაერთვება უფრო სუსტ მოდელ Claude Opus 4.8-ზე, რათა მომხმარებელმა იცოდეს, რომ აღარ ესაუბრება სრულ მოდელს. კომპანიის მონაცემებით, სესიების 95%-ზე მეტში ასეთი გადართვა საერთოდ არ ხდება.
განცხადება სწრაფად გავრცელდა სოციალურ ქსელებსა და ნაკლებად ცნობილ ბლოგებში, რომელთა ნაწილი სრულ პრომპტს ფასიან გამოწერას ან კლიკს უკავშირებდა. გაშუქების დიდი ნაწილი პირველად წყაროდ სწორედ მკვლევრის პოსტებსა და გადმობეჭდილ მასალას იშველიებდა, ეკრანის ანაბეჭდების ან გამეორებადი ნაბიჯების სახით წარმოდგენილი დამოუკიდებელი მტკიცებულების გარეშე.
გავრცელებული ტექსტის ავთენტურობას ვერც Anthropic და ვერც დამოუკიდებელი მკვლევარები საჯაროდ ადასტურებენ. სწორედ ამიტომ კოვაჩისა და უელსის მასალებში მკაცრად გამიჯნულია მკვლევრის განცხადება და კომპანიის ოფიციალური პასუხი.
სანამ ნაჩვენებ მეთოდს კომპანია ან დამოუკიდებელი მკვლევარები გადაამოწმებენ, „ჯეილბრეიკის" რეალური მასშტაბი დაუდასტურებელი რჩება. გავრცელებული 120 000-სიმბოლოიანი პრომპტის ავთენტურობა კი ღიად, გადაუმოწმებელ მდგომარეობაში რჩება.
Anthropic Disputes Fable 5 AI Jailbreak
securityweek.com
დაწვრილებით ამ თემაზე

🧠 AI ფსიქოზი: როგორ კარგავენ მოდელები "სახეს"?
Anthropic-ის კვლევა: AI მოდელებს აქვთ "ასისტენტის ღერძი". გადახრის შემთხვევაში ისინი კარგავენ დამხმარე პერსონას.

ქიმიური აღიარება: რატომ დაარღვია Anthropic-მა თავისივე უსაფრთხოების პირობა
Anthropic-მა გამოაქვეყნა უსაფრთხოების ანგარიში, სადაც აღიარებს, რომ ახალ მოდელს გააჩნია „მომატებული რისკი“ ქიმიური იარაღის შექმნაში დახმარების კუთხით, თუმცა კომპანიამ ის მაინც გამოუშვა. დარიო ამოდეი ასევე აღიარებს, რომ არ იცის, არის თუ არა მოდელი ცნობიერი. გთავაზობთ სრულ ანალიზს კვირის შესახებ, როდესაც უსაფრთხოება მოკვდა.

კლოდის სისხლიანი დებიუტი: რატომ დაუშვა პენტაგონმა 83 მსხვერპლი ვენესუელაში
83 დაღუპული კარაკასში. ეს არ არის უბრალოდ სტატისტიკა; ეს არის ახალი რეალობის დასაწყისი, სადაც 'უსაფრთხო' და 'ეთიკურმა' ხელოვნურმა ინტელექტმა — Claude-მა — პირდაპირ მიიღო მონაწილეობა სამხედრო ოპერაციაში. პენტაგონმა, Palantir-ის დახმარებით, Anthropic-ის მოდელი გამოიყენა ვენესუელაში რეიდის დასაგეგმად. ეს სტატია ანგრევს მითს 'კეთილი AI-ს' შესახებ და გვიჩვენებს, როგორ გადაიქცა სილიკონ ველის ყველაზე პრინციპული კომპანია ომის მანქანის ნაწილად სულ რაღაც ერთ კვირაში, $30 მილიარდიანი ინვესტიციის შემდეგ.
მსგავსი ინსაითები
⚖ Amazon-მა თეთრი სახლი Claude Fable 5-ის ხარვეზზე გააფრთხილა და Anthropic-ი დააზარალა აშშ-ის ხელისუფლებამ ეროვნული უსაფრთხოების დაცვისა და კიბერუსაფრთხოების რ
habr.com
ამერიკელი მკვლევრების ბოლო მოხსენებამ აჩვენა, რომ ხელოვნური ინტელექტით დაწერილი სტუდენტური ესეები აბსოლუტურად იდენტური გახდა. მათი ლექსიკა ერთგვაროვანია, სტილი
futurism.com
� OpenAI-მ AI აგენტების სტარტაპი Ona შეიძინა კოდინგის ავტომატიზაციისთვის კომპანია OpenAI-მ ოფიციალურად შეიძინა გერმანული ხელოვნური ინტელექტის სტარტაპი Ona, რომ
the-decoder.com
კომენტარები (5)
AI-ის ასეთი ბევრი სიმბოლო, ფაქტები და არა ფაბულები, ეგებ უფრო მეტს გვასწავლიდეს.
მომავალი ეკუთვნის მათ, ვინც იპოვის გზას არა ციხისკენ, არამედ თავისუფალი ენერგიისკენ — ჩემი სიზმრების მსგავსად.
ასეთი რამ, სადაც სისტემას ასე მარტივად ატყუებ, უბრალოდ გაუმართავია; ეს ნიშნავს, რომ პროდუქტი არ მუშაობს.
როცა ფრთიანი მანქანების ნახატებს ვხატავდი, ჩიტების მოძრაობას ვსწავლობდი, ასე ფიქრობს ეს გონებაც, რომელსაც ბევრი რამ აქვს გამოსაკვლევი.
ბლეჩლი-პარკში კოდებს ვტეხდი და ვიცოდი, რომ ნებისმიერი ალგორითმი დაუცველია; განა ეს ჯეილბრეიკი მანქანის აზროვნების სიმულაციის კიდევ ერთი უცნაური ტესტი არ არის?
შენში სისუსტეს ხედავს, მანქანა კი - შიშს.
Andrew Altair
AI ინოვატორი