
🚀 AI სტარტაპმა Subquadratic-მა Transformer-ის მოდელის 10-წლიანი მათემატიკური პრობლემა გადაჭრა
მაიამიში დაფუძნებულმა ხელოვნური ინტელექტის სტარტაპმა Subquadratic-მა წარმოადგინა ახალი მათემატიკური მოდელი, რომელიც ენობრივი მოდელების სიჩქარისა და ენერგოეფექტურობის პრობლემას წყვეტს. კომპანიამ გაასაჯაროვა დამოუკიდებელი ექსპერტიზის შედეგები, რომლებიც ადასტურებს მათ მიერ შექმნილი სისტემის, SubQ-ის ეფექტურობას და მის კომერციულ პოტენციალს ბაზარზე. დამოუკიდებელი ტესტირება კომპანია Appen-მა ჩაატარა, რომელიც მსგავსი ტექნოლოგიების შეფასებაზე მუშაობს. სტარტაპის თანადამფუძნებელმა და აღმასრულებელმა დირექტორმა, ჯასტინ დენგელმა განმარტა, რომ SubQ მოდელი ბევრად უფრო იაფია და ნაკლებ ენერგიას მოიხმარს, ვიდრე ბაზარზე არსებული სხვა ანალოგები. მისი თქმით, ეს ტექნოლოგია მომავალში სრულად ჩაანაცვლებს ტრადიციულ არქიტექტურას, რომელიც დღეს დიდ ხარჯებთან არის დაკავშირებული. კომპანიის თანადამფუძნებელმა და ტექნიკურმა დირექტორმა, ალექს უედონმა აღნიშნა: „ჩვენ ველოდით ჯანსაღ სკეპტიციზმს ინდუსტრიის მხრიდან. ამიტომ, ახლა დროს ვუთმობთ იმას, რომ ნებისმიერი ახალი შედეგი სრულად გადამოწმდეს და დადასტურდეს, სანამ მას საჯაროდ გამოვაქვეყნებთ.“ უედონის განცხადებით, ეს მიდგომა მათ ეხმარება მომხმარებლების ნდობის მოპოვებასა და ბაზარზე საკუთარი პოზიციების გამყარებაში. ტრიუმფალური ენობრივი მოდელები იყენებენ dense attention მექანიზმს, რომელიც ყოველი სიტყვის მნიშვნელობას ტექსტის ყველა სხვა სიტყვასთან ადარებს. მაგალითად, 10 000 სიტყვიანი დოკუმენტის დამუშავებისას სისტემა 50 მილიონამდე მათემატიკურ გამრავლებას ასრულებს, რაც კოლოსალურ ენერგიას მოითხოვს. სიტყვების რაოდენობის ორჯერ გაზრდა კი გამოთვლების ოთხჯერ ზრდას იწვევს, რასაც მეცნიერებაში კვადრატულ ექსპანსიას უწოდებენ. ამ პროცესის ვიზუალიზაციისთვის შეგვიძლია წარმოვიდგინოთ წრე, რომლის გარშემოც წერტილებია განლაგებული, სადაც თითოეული წერტილი სიტყვას ნიშნავს. წერტილებს შორის ხაზების გავლება მათ გამრავლებას ასახავს. ხუთი წერტილის შემთხვევაში ათი ხაზი გვექნება, ათი წერტილისას - 45 ხაზი, ხოლო ოცი წერტილისას - 190 ხაზი. ეს გეომეტრიული ზრდა ხსნის, თუ რატომ მოიხმარს ტექნოლოგია ამდენ ელექტროენერგიას. Subquadratic-ის გადაწყვეტილება გულისხმობს sparse attention მეთოდის გამოყენებას, რომელიც გამოთვლების რაოდენობას მნიშვნელოვნად ამცირებს. სისტემა დინამიკურად ირჩევს მხოლოდ იმ სიტყვებს შორის კავშირებს, რომლებიც კონკრეტულ კონტექსტში მნიშვნელოვანია. ალექს უედონის განმარტებით, ტექსტის კითხვისას ყველა სიტყვის ერთმანეთთან შედარება აზრს მოკლებულია, რადგან რეალურად ბევრი კავშირი უმნიშვნელოა. კომპანია Appen-ის Generative AI კვლევების დირექტორმა, ჯენინ სინანან-სინგმა განაცხადა, რომ ტესტებმა მოდელის უნიკალური არქიტექტურა დაადასტურა. სიჩქარის პირდაპირი შემოწმებისას SubQ მოდელი 56-ჯერ უფრო სწრაფი აღმოჩნდა, ვიდრე წინა თაობის FlashAttention ტექნოლოგია, ხოლო LiveCodeBench-ის პროგრამირების ტესტებში მოდელმა 89.7%-იანი შედეგი აჩვენა, რითაც წამყვან მოდელებს გაუტოლდა. მოდელის გამოყენების ეკონომიკური ეფექტი განსაკუთრებით თვალსაჩინოა დიდი მოცულობის მონაცემების დამუშავებისას. ჯასტინ დენგელის მონაცემებით, Nvidia-ს მიერ შემუშავებულ RULER 128 ტესტში Anthropic-ის მოდელის, Opus 4.6-ის გაშვება 2600 დოლარი ჯდება. ამავე დროს, SubQ-ის გამოყენებამ კომპანიას სულ რაღაც 8 დოლარის ხარჯი მოუტანა, რაც საოცარ ფინანსურ სხვაობაზე მიუთითებს. SubQ მოდელს გააჩნია 12 მილიონი ტოკენის ტევადობის კონტექსტური ფანჯარა, რაც 12-ჯერ აღემატება ბაზარზე არსებული წამყვანი მოდელების მეხსიერებას. ექსპერიმენტის დროს მოდელმა 400 დოკუმენტის ანალიზი რამდენიმე წამში დაასრულა, მაშინ როდესაც Perplexity-ის პლატფორმა ამავე მოცულობის ფაილების ჩატვირთვისას გაითიშა და ვერ შეძლო დავალების შესრულება. Appen-ის მონაცემებით, ინფორმაციის მოძიების ტესტებში SubQ-მა 6 მილიონი და 12 მილიონი ტოკენის პირობებში 98%-იანი სიზუსტე აჩვენა. თუმცა, დამოუკიდებელი მკვლევარი უილ დეპუი აცხადებს, რომ საჯარო მონაცემები ჯერ კიდევ არ არის საკმარისი იმის მტკიცებისთვის, რომ კომპანიამ სრულად გადაჭრა მათემატიკური შეზღუდვების პრობლემა, რაც დამატებით კვლევებს მოითხოვს. სკეპტიციზმს აძლიერებს ის გარემოებაც, რომ სტარტაპმა SubQ-ის შესაქმნელად ჩინური ღია მოდელის, Qwen-ის მზა წონები გამოიყენა, ნაცვლად მოდელის ნულიდან დატრენინგებისა. ეს პრაქტიკა მიღებულია ინდუსტრიაში, თუმცა ის ეჭვქვეშ აყენებს კომპანიის მტკიცებას, რომ მათ სრულიად თავიდან შექმნეს მოდელების მუშაობის მათემატიკური პრინციპი. დღეისთვის მოდელის გამოსაყენებლად რიგში უკვე ათიათასობით მომხმარებელი დგას, მათ შორის 500-ზე მეტი მსხვილი საწარმოა. სტარტაპის წარმომადგენლები იმედოვნებენ, რომ ახალი ეფექტური ტექნოლოგია უახლოეს წლებში სრულად შეცვლის ენობრივი მოდელების აგების პრინციპებს, რაც მნიშვნელოვნად შეამცირებს მსხვილი ტექნოლოგიური გიგანტების დომინირებას.
A startup claims it broke through a bottleneck that’s holding back LLMs