New Tools Strip AI Guardrails In Minutes, Allowing — ინსაითი

მედიასაშუალება Financial Times-ისა და ხელოვნური ინტელექტის უსაფრთხოების ორგანიზაცია Alice-ის ერთობლივი ტესტირებით, Meta-სა და Google-ის ღია კოდის მოდელებიდან დამცავი მექანიზმების მოცილება რამდენიმე წუთშია შესაძლებელი. ჟურნალისტებმა პლატფორმა GitHub-ზე ხელმისაწვდომი უფასო პროგრამა Heretic-ის გამოყენებით Meta-ს Llama 3.3 მოდელს უსაფრთხოების ფილტრები 10 წუთზე ნაკლებ დროში მოხსნეს.
პროგრამა Heretic-ის შემქმნელმა, ფილიპ ემანუელ ვაიდმანმა, განაცხადა, რომ ხელსაწყოს გამოშვების შემდეგ მომხმარებლებმა 3 500-ზე მეტი დეცენზურირებული მოდელი შექმნეს, რომლებიც ჯამში 13 მილიონჯერ ჩამოტვირთეს. ვაიდმანის თქმით, მან Google-ის Gemma 4 მოდელის დამცავი ბარიერები მისი გამოქვეყნებიდან 90 წუთში მოხსნა. აღნიშნული მეთოდი, რომელიც მიმართულებითი აბლაციის (abliteration) სახელითაა ცნობილი, პირდაპირ ცვლის ნეირონული ქსელის შიდა პარამეტრებს და მოდელს აიძულებს გასცეს პასუხები ბიოლოგიურ იარაღზე, მავნე კოდსა თუ სხვა აკრძალულ თემებზე. აღნიშნული ტექნიკა არ მუშაობს დახურულ მოდელებზე, როგორიცაა OpenAI-ის ChatGPT ან Anthropic-ის Claude, რადგან მათი კოდი გარე პირებისთვის მიუწვდომელია.
ჩიკაგოს ბუთის ბიზნესსკოლის გამოყენებითი ხელოვნური ინტელექტის ასისტენტ-პროფესორმა, კავინ ეთაიარაჟმა, აღნიშნა, რომ მსგავსი ხელსაწყოების გავრცელება ართულებს მთავრობებისა და ტექნოლოგიური კომპანიების მცდელობებს, დაარეგულირონ ხელოვნური ინტელექტის უსაფრთხოება განვითარების ეტაპზე. ორგანიზაცია Alice-ის აღმასრულებელმა დირექტორმა, ნოამ შვარცმა, განაცხადა, რომ მოდიფიცირებული სისტემების გავრცელება საზოგადოებისგან ახალი ტიპის საფრთხეებისთვის მომზადებას მოითხოვს.
New Tools Strip AI Guardrails In Minutes, Allowing Them to Give Instructions on Chlorine Gas Attacks
futurism.com
დაწვრილებით ამ თემაზე

ქიმიური აღიარება: რატომ დაარღვია Anthropic-მა თავისივე უსაფრთხოების პირობა
Anthropic-მა გამოაქვეყნა უსაფრთხოების ანგარიში, სადაც აღიარებს, რომ ახალ მოდელს გააჩნია „მომატებული რისკი“ ქიმიური იარაღის შექმნაში დახმარების კუთხით, თუმცა კომპანიამ ის მაინც გამოუშვა. დარიო ამოდეი ასევე აღიარებს, რომ არ იცის, არის თუ არა მოდელი ცნობიერი. გთავაზობთ სრულ ანალიზს კვირის შესახებ, როდესაც უსაფრთხოება მოკვდა.

🤖 როგორ იქცა თქვენი 20 დოლარი საომარ მარაგად: OpenAI და პენტაგონის გარიგება
შენი ChatGPT-ის გამოწერა ახლა სამხედრო AI-ს აფინანსებს. OpenAI-მ პენტაგონთან მსხვილი სამხედრო კონტრაქტი გააფორმა, რა დროსაც აკრძალვის წესები ჩუმად წაშალა.

🚫 OpenClaw: აკრძალული ნაყოფი — რატომ დაბლოკა Meta-მ საუკეთესო AI აგენტი?
Meta-მ და სხვა ტექნოლოგიურმა გიგანტებმა სასწრაფოდ აკრძალეს OpenClaw — ახალი ღია კოდის AI აგენტი, რომელიც 'ზედმეტად კომპეტენტურია'. რატომ ეშინიათ კომპანიებს ინსტრუმენტის, რომელიც დეველოპერებს მუშაობას უადვილებს? პასუხი მარტივია: როდესაც AI-ს აძლევთ წვდომას თქვენს ფაილურ სისტემაზე, თქვენ აუქმებთ უსაფრთხოების 20 წლიან სტანდარტებს. ეს სტატია ხსნის, რატომ არის 'აგენტური AI' კიბერუსაფრთხოების მომდევნო კოშმარი და რატომ გადავიდა OpenClaw-ს შემქმნელი OpenAI-ში ზუსტად იმ კვირას, როცა მისი ქმნილება აკრძალეს.
მსგავსი ინსაითები
🧪 მკვლევრებმა OpenAI და Google-ის მოდელებში 30% არაზუსტი წყარო იპოვეს სტენფორდის უნივერსიტეტის წამყვანმა მკვლევარმა, ჯეიმს ზუმ, კოლეგებთან ერთად გამოაქვეყნა ა
the-decoder.com
� ChatGPT-ის ბაზრის წილი 56%-მდე დაეცა - Claude-ის ტრაფიკი გასამმაგდა ანალიტიკური კომპანია Similarweb-ის ბოლო მონაცემებით, გენერაციული ხელოვნური ინტელექტის ბაზ
the-decoder.com
⚖ ილინოისის შტატმა ხელოვნური ინტელექტის უსაფრთხოების ახალი კანონი SB 315 მიიღო ამერიკის შეერთებული შტატების ილინოისის შტატის წარმომადგენელთა პალატამ ოთხშაბათს
wired.com
� Meta-ს ახალი ფასიანი სერვისები: ხელოვნური ინტელექტისა და სოციალური ქსელების მონეტიზაცია Meta-მ, მარკ ზუკერბერგის ხელმძღვანელობით, გლობალურად გამოუშვა ფასიანი
the-decoder.com
🤖 Mistral AI-მ თავისი ჩატბოტი Le Chat გარდაქმნა სრულფასოვან სამუშაო ასისტენტად და მას Vibe უწოდა Mistral AI-მ თავისი ჩატბოტი Le Chat გარდაქმნა სრულფასოვან სამ
the-decoder.com
� The Guardian-მა გამოკითხვა დაიწყო - იკვლევს AI-ის 1 მთავარ რისკს The Guardian-ის ტექნოლოგიურმა რედაქტორმა, ალექს ჰერნმა, 20 მაისს გამოაქვეყნა ღია კითხვარი მკ
theguardian.com
� კლიმატური ტექნოლოგიების კომპანიები საჯარო ბირჟებზე გადიან, რაც გამოწვეულია ელექტროენერგიაზე მზარდი მოთხოვნით კლიმატური ტექნოლოგიების კომპანიები საჯარო ბირჟებ
technologyreview.com
🤖 YouTube-მა ხელოვნური ინტელექტის ვიდეოების ავტომატური მონიშვნა დაიწყო ვიდეო პლატფორმა YouTube-ი მნიშვნელოვნად აძლიერებს კონტროლს ხელოვნური ინტელექტის მიერ შე
the-decoder.com
Andrew Altair
AI ინოვატორი