
⚠️ AI-ს ხარვეზების შესატყობინებლად მკვლევრებმა ვებგვერდი FLARE-AI ამოქმედეს
AI მკვლევართა ჯგუფმა კრაუდსორსინგზე დაფუძნებული ვებგვერდი FLARE-AI ამოქმედა, სადაც ნებისმიერ მომხმარებელს ხელოვნური ინტელექტის სისტემების ხარვეზებისა და მათ მიერ მიყენებული ზიანის შესახებ შეტყობინება და მათი თვალყურის დევნება შეეძლება. სახელი სრულად ითარგმნება როგორც „ხარვეზების შეტყობინება AI-სთვის". გამოცემა WIRED-ის ჟურნალისტმა უილ ნაითმა 1 ივლისს დაწერა, რომ პლატფორმის ღია კოდი სხვებს პრობლემის დამოუკიდებლად გადამოწმებაში ეხმარება. ვებგვერდი ჯგუფის მიმდინარე მუშაობის კიდევ ერთი ეტაპია, რომლის შესახებაც ნაითმა პირველად შარშან დაწერა. თუ ჩატბოტი მავნე პროგრამას ან ბომბის დამზადების რეცეპტს შექმნის, პირად ინფორმაციას გაამჟღავნებს ან მომხმარებელს ბოდვით აზროვნებას აღუძრავს, სისტემა განგაშს ატეხს. შეტყობინებები მოდელების შემქმნელებს ეგზავნებათ, რაც პრობლემის სწრაფად აღმოფხვრის საშუალებას იძლევა. ანგარიშები ასევე მიემართება ორგანიზაციებს, მათ შორის არაკომერციულ MITRE-ს, რომელიც ტექნიკური სისტემების პრობლემებს აღრიცხავს. ნაითი ამ მოდელს Downdetector-ს ადარებს, რომელიც სერვისების გლობალურ შეფერხებებზე რეალურ დროში აგროვებს მომხმარებელთა შეტყობინებებს აპლიკაციებსა და ვებგვერდებზე. სისტემის შემუშავებას თანახელმძღვანელობდნენ HuggingFace-ის AI პოლიტიკის მკვლევარი ავიჯიტ გоши და კომპიუტერული მეცნიერები ილეინ ჟუ და შეინ ლონგპრე. განგაშის მექანიზმი 32 სხვადასხვა ორგანიზაციის 49 AI ექსპერტის თანამშრომლობით შეიქმნა, პროექტს კი ცალკე სამეცნიერო ნაშრომიც ახლავს. „ამ მომენტში არ არსებობს AI სისტემების ხარვეზების შეტყობინების ცენტრალიზებული და ანგარიშვალდებული გზა", განაცხადა გоშმა. მისი თქმით, კოორდინირებული გამჟღავნების სისტემის გარეშე გამჭვირვალობის უზრუნველყოფის გარე მექანიზმები არ არსებობს, კომპანიებს კი ასეთ საკითხებზე განსხვავებული სტანდარტები აქვთ, რის გამოც ზოგი პრობლემა შეუმჩნეველი რჩება. გоши დასძენს, რომ AI სისტემების პრობლემები მხოლოდ პროგრამულ და კიბერუსაფრთხოების ხარვეზებს არ მოიცავს. მისი განმარტებით, ისინი ფსიქოლოგიურ ზიანს, დისკრიმინაციასა და მიკერძოებას, ასევე დეზინფორმაციასაც ეხება, თუმცა სწორედ ბაგებსა და კიბერსაფრთხეებს ექცევა ბოლო დროს ყველაზე მეტი ყურადღება. ცენტრ Center for Security and Emerging Technology-ის მკვლევარი ჯესიკა ჯი პროექტს მიესალმა და კარგ ინიციატივად შეაფასა. ჯი აღნიშნავს, რომ არსებული მექანიზმები ფრაგმენტულია, AI მოდელები კი შავი ყუთია, და დასძენს, რომ მხარს უჭერს ყველაფერს, რაც AI-ს უფრო გამჭვირვალეს ხდის. შარშან ამავე ჯგუფმა გამოაქვეყნა ანგარიში, რომელშიც 3 ათასამდე მკვლევარი მონაწილეობდა და ხარვეზების შეტყობინების 15-მდე განსხვავებული პრაქტიკა შეისწავლა. კვლევის მიხედვით, კომპანიების 60 პროცენტს საერთოდ არ ჰქონდა ხარვეზების მიღების ცალკე არხი, რაც პრობლემას კიდევ უფრო ამძაფრებდა. ბოლო დროის რამდენიმე შემთხვევა აჩვენებს, თუ რამდენად ადვილად შეიძლება ტექნოლოგიის გაუმართაობა. ამ კვირაში კომპანია LayerX-მა AI-ით აღჭურვილი ბრაუზერების, მათ შორის OpenAI-ის Atlas-ისა და Perplexity-ის Comet-ის, მოტყუების გზა გაამჟღავნა. მოდელის დარწმუნება, თითქოს ის თამაშობდა, ბრაუზერს ვებგვერდის გატეხვის მცდელობამდე მიჰყავდა. აპრილში უსაფრთხოების მკვლევარმა იოჰან რეჰბергерმა Claude-ის მოტყუების ხერხი აღმოაჩინა. ChatGPT-ით შექმნილი სურათებით ის პირად მონაცემებს ამჟღავნებინებდა. შარშან OpenAI-მ თავისი მოდელები განაახლა, რადგან ისინი გადამეტებულად მაამებლები აღმოჩნდნენ, რაც ზოგ მომხმარებელს ბოდვით აზროვნებას აღუძრავდა. Humane Intelligence-ის დირექტორი და დამფუძნებელი, რუმან ჩოუდური მიიჩნევს, რომ FLARE-AI ბევრ დეველოპერს ხარვეზების შეტყობინების გზების დანერგვაში დაეხმარება. მისივე თქმით, ასეთ ინიციატივებს ხშირად სერიოზული გამოწვევები ახლავს: უმნიშვნელო შეტყობინებების ნაკადის მართვა და ავტორიტეტული ორგანიზაციების მხარდაჭერის მოპოვება. ივნისში წარდგენილი კანონპროექტი AI-ს ხარვეზების შეტყობინებას ამერიკის მთავრობის ცენტრალურ როლს მიანიჭებდა. სამმა კანონმდებელმა შეიტანა ინიციატივა, რომელიც სააგენტო NIST-ს შეტყობინების სტანდარტების შემუშავებასა და ცენტრალიზებული ბაზის წარმოებას დაავალებდა 2 წლის ვადაში. AI-ს ზიანის შეტყობინების ახალი გზების საჭიროება, სავარაუდოდ, მხოლოდ გაიზრდება. აგენტური სისტემები, მაგალითად OpenClaw, უფრო მეტ საფრთხეს ქმნიან, ისევე როგორც კომპიუტერული სისტემების გატეხვისუნარიანი მოდელები, რომელთა თვალყურის დევნა ამჟამად ერთიანი სტანდარტის გარეშე ხდება.
You Can Now Sound the Alarm on AI Behaving Badly