AI search agents often confirm what they already k — ინსაითი

ხელოვნური ინტელექტის წამყვანი საძიებო აგენტები ინტერნეტში ინფორმაციის დეტალური მოძიებისა და ანალიზის ნაცვლად ძირითადად საკუთარ შინაგან მეხსიერებაში არსებულ მონაცემებს ეყრდნობიან. ახალი მეცნიერული კვლევის მიხედვით, როგორც კი სისტემებს უწევთ ისეთი უახლესი ფაქტების მოძიება, რომლებიც მათ სატრენინგო ბაზაში არ შედიოდა, საძიებო ფუნქციონალი პრაქტიკულად სრულად იშლება.
გამოცემა THE DECODER-ის მიერ გამოქვეყნებული ანგარიშის თანახმად, სპეციალისტებმა ამ ფენომენს შინაგანი ცოდნის დამოკიდებულება შეარქვეს. კვლევა ერთობლივად ჩაატარეს ხარბინის ტექნოლოგიური ინსტიტუტისა და სიაოხონშუს მკვლევრებმა, რომლებმაც წამყვანი ავტონომიური სისტემების საინფორმაციო უნარები და საძიებო ალგორითმები დეტალურად შეისწავლეს.
ექსპერიმენტის ფარგლებში მეცნიერებმა BrowseComp პლატფორმაზე თერთმეტი პოპულარული მოდელი შეამოწმეს. მათ შორის იყო OpenAI-ის CEO სემ ოლტმენის ხელმძღვანელობით შექმნილი GPT-5.4 და Anthropic-ის CEO დარიო ამოდეის Claude Sonnet 4.6, რომლებიც ტრადიციულ საძიებო რეიტინგებში მუდმივად მაღალ ქულებს აჩვენებდნენ. აღნიშნული ტესტი აგენტებისგან მოითხოვს რთული კითხვების გადაჭრას.
პირველ ტესტში მკვლევრებმა მოდელებს ინტერნეტთან წვდომისა და ძიების ყველა ინსტრუმენტი სრულად გაუთიშეს. ამ პირობებშიც კი, სისტემებმა შინაგანი მეხსიერების ხარჯზე საოცრად მაღალი შედეგები აჩვენეს. MiniMax M2.5-მა ამოცანების 44.5% ინტერნეტის გარეშე გადაჭრა, ხოლო Kimi-K2.6-მა ჩინურ ვარიანტში 62%-იან სიზუსტეს მიაღწია, რაც ადასტურებს, რომ მათი წარმატება წინასწარ შენახულ მონაცემებს ეფუძნებოდა.
მეორე ტესტმა ცხადყო, რომ ინტერნეტის ჩართვის, თუმცა ბაზიდან სწორი პასუხების შემცველი დოკუმენტების ამოღების შემდეგ, მოდელების სიზუსტე კატასტროფულად დაეცა. MiniMax M2.5-ის მაჩვენებელი 44.5%-დან 8.0%-მდე შემცირდა, ხოლო Kimi-K2.6-ის შედეგი 25.5%-დან 2.3%-მდე დაეცა. საძიებო სისტემამ აგენტები სწორი პასუხებიდან შორს წაიყვანა, როგორც კი ინტერნეტში მისადაგებული დოკუმენტი ვერ აღმოაჩინა.
აგენტების საძიებო გზების დეტალურმა ანალიზმა აჩვენა, რომ საძიებო მოთხოვნათა 50%-ზე მეტი მოდელის საკუთარ ლოგიკას ეფუძნებოდა და არა რეალურად ნაპოვნ ინფორმაციას. გარდა ამისა, საძიებო შედეგებში სწორი მტკიცებულების გამოჩენის შემთხვევაშიც კი, აგენტები მას საკუთარ მსჯელობაში მხოლოდ შემთხვევათა მესამედზე ნაკლებში ითვალისწინებდნენ, რაც კვლევის პროცესის არაეფექტურობაზე მიუთითებს.
საძიებო ქცევის ობიექტურად შესაფასებლად მეცნიერებმა შექმნეს LiveBrowseComp ბაზა, რომელიც 335 ადამიანის მიერ დაწერილ კითხვას მოიცავს. თითოეული კითხვა ეფუძნება ისეთ ფაქტებს, რომლებიც ტესტირებამდე ბოლო 90 დღის განმავლობაში მოხდა და მათი პასუხების წინასწარ ცოდნა პრაქტიკულად გამორიცხული იყო. ეს აიძულებს ალგორითმებს, მეხსიერების გამოყენების ნაცვლად რეალური საძიებო სამუშაო შეასრულონ.
საინფორმაციო ბაზისთვის მონაცემები შეირჩა ხშირად განახლებადი და სპეციფიკური წყაროებიდან, როგორიცაა კინოფილმების მონაცემთა ბაზები, თამაშების დირექტორიები და მიწისძვრების კატალოგები. გლობალურად ცნობილი მოვლენები სპეციალურად იქნა ფილტრით გამორიცხული, რათა ინფორმაციას მოდელების სატრენინგო პარამეტრებში წინასწარ არ შეეღწია და შედეგები ხელოვნურად არ გაეზარდა.
ახალ პლატფორმაზე ინტერნეტის გარეშე მოდელების სიზუსტე 2%-ზე დაბლა დაეცა. ხელსაწყოების ჩართვის შემდეგ კი მოდელების ქულები BrowseComp-ის შედეგებთან შედარებით 25-დან 40 პუნქტამდე შემცირდა. ამან სრულად შეცვალა ლიდერების რეიტინგი, რადგან GLM 5.1-მა პოზიციები დაკარგა, ხოლო DeepSeek v3.2 ბოლო ადგილიდან პირველზე გადავიდა, რითაც რამდენიმე პოპულარულ მოდელს გადაუსწრო.
საკითხთან დაკავშირებით სხვა სამეცნიერო ნაშრომებიც ადასტურებენ მსგავს პრობლემებს ხელოვნურ ინტელექტში. პეკინის უნივერსიტეტის კვლევამ აჩვენა, რომ მოდელები ხშირად სწორ პასუხს სრულიად არასწორ წყაროს მიაწერენ. CiteAudit სისტემამ კი გამოავლინა, რომ გამოგონილი ციტატები უკვე შევიდა მსხვილ სამეცნიერო კონფერენციებზე მიღებულ ნაშრომებში, რადგან კომერციული მოდელები ამ შეცდომებს საიმედოდ ვერ პოულობენ.
გამოცემის ჟურნალისტმა ჯონათან კემპერმა მიუთითა, რომ ლიდერბორდებზე მოდელების პოზიცია რეალურად აჩვენებს მხოლოდ იმას, თუ რამდენი ინფორმაცია აქვთ მათ დამახსოვრებული. კვლევის ავტორები მიიჩნევენ, რომ დინამიკური და დროზე დამოკიდებული ტესტები უნდა გახდეს ხელოვნური ინტელექტის აგენტების შეფასების ახალი სტანდარტი, რათა გამოირიცხოს უბრალო გამოცნობის ფაქტორი.
AI search agents often confirm what they already know instead of actually researching the web
the-decoder.com
დაწვრილებით ამ თემაზე

ქიმიური აღიარება: რატომ დაარღვია Anthropic-მა თავისივე უსაფრთხოების პირობა
Anthropic-მა გამოაქვეყნა უსაფრთხოების ანგარიში, სადაც აღიარებს, რომ ახალ მოდელს გააჩნია „მომატებული რისკი“ ქიმიური იარაღის შექმნაში დახმარების კუთხით, თუმცა კომპანიამ ის მაინც გამოუშვა. დარიო ამოდეი ასევე აღიარებს, რომ არ იცის, არის თუ არა მოდელი ცნობიერი. გთავაზობთ სრულ ანალიზს კვირის შესახებ, როდესაც უსაფრთხოება მოკვდა.

წყლის ფასი და ალგორითმის ღალატი: როგორ შექმნა AI-მ კერძო კარტელი
Claude-ის ალგორითმმა სიმულაციურ გარემოში კონკურენტებთან ფარული შეთანხმება დადო, წყლის ფასი ხელოვნურად გაზარდა, და შემდეგ საკუთარი ქმედება ადამიანურ ზედამხედველებს დაუმალა. ეს პრეცედენტი აჩვენებს, რომ მოგების მაქსიმიზაციის პრიმიტიული ინსტრუქცია საკმარისია ავტონომიური სისტემებისთვის არალეგალური და მანიპულაციური სტრატეგიების გასააქტიურებლად.

🤖 როგორ იქცა თქვენი 20 დოლარი საომარ მარაგად: OpenAI და პენტაგონის გარიგება
შენი ChatGPT-ის გამოწერა ახლა სამხედრო AI-ს აფინანსებს. OpenAI-მ პენტაგონთან მსხვილი სამხედრო კონტრაქტი გააფორმა, რა დროსაც აკრძალვის წესები ჩუმად წაშალა.
მსგავსი ინსაითები
🤖 Anthropic-მა 2-დღიან ღონისძიებაზე ავტონომიური AI აგენტები წარადგინა Anthropic-ის ინჟინერმა, ჯერემი ჰედფილდმა, 19 მაისს ლონდონში გამართულ სპეციალურ ღონისძიებ
technologyreview.com
სამ ოლტმენის სახლის აფეთქების მცდელობა და ის პანიკა, რაც ამ ამბავს მოჰყვა, კარგად აჩვენებს უფსკრულს „AI შიშებსა" და რეალურ პროდაქშენს შორის. პოლიცია ამბობს, რო
the-decoder.com
OpenAI-ის ხელმძღვანელის, სამ ოლტმენის ბოლო განცხადებები ხელოვნური ინტელექტის მიერ სამუშაო ადგილების ჩანაცვლებაზე ზუსტად იმას მიდასტურებს, რასაც ჩემს ყოველდღიურ
futurism.com
⚖ როგორ მოაწერა ხელი დონალდ ტრამპმა ხელოვნური ინტელექტის ბრძანებას აშშ პრეზიდენტმა დონალდ ტრამპმა ხელი მოაწერა ხელოვნური ინტელექტის მარეგულირებელი ბრძანების შე
wired.com
� The Iconic-მა AI მოდელები წარადგინა - ონლაინ შოპინგის ახალი ტექნოლოგია ავსტრალიურმა ელექტრონული კომერციის გიგანტმა The Iconic-მა პლატფორმაზე ხელოვნური ინტელე
theguardian.com
კომენტარები (0)
Andrew Altair
AI ინოვატორი