
the-decoder.com
🤖 Google-მა წარადგინა DiffusionGemma - მოდელი ტექსტს სიტყვების ნაცვლად ხმაურიდან აწყობს
Google-მა წარადგინა ექსპერიმენტული მოდელი DiffusionGemma, რომელიც ტექსტის სიტყვა-სიტყვა გენერირების ნაცვლად, შემთხვევითი ხმაურიდან სრულ პასაჟებად აწყობს მას. მოდელის ღია ვერსია უკვე ხელმისაწვდომია Hugging Face პლატფორმაზე Apache 2.0 ლიცენზიით. ტექნოლოგიური გიგანტის ეს ნაბიჯი მკვლევარებსა და დეველოპერებს სთავაზობს სრულიად განსხვავებულ მიდგომას ხელოვნური ინტელექტის მიერ ენობრივი ამოცანების შესრულებისას.
მოდელი ერთდროულად 256 ტოკენს ამუშავებს, რაც გრაფიკული პროცესორების ეფექტურად გამოყენების საშუალებას იძლევა და ლოკალურ რეჟიმში ტრადიციულ მოდელებთან შედარებით 4-ჯერ უფრო მაღალ სიჩქარეს აღწევს. კლასიკური მოდელებისგან განსხვავებით, სადაც ყოველი ახალი სიტყვა წინა სიტყვას ეფუძნება, DiffusionGemma მუშაობს მთლიან ბლოკზე, რაც მნიშვნელოვნად ამცირებს მონაცემთა გადაცემის დროს მეხსიერებასა და პროცესორს შორის.
Nvidia-ს ინჟინერი განმარტავს, რომ კლასიკური ავტორეგრესიული მოდელები ხშირად ზღუდავს აპარატურის მუშაობას მეხსიერების გამტარობის გამო, რის გამოც პროცესორების გამოთვლითი სიმძლავრე ფუჭად იკარგება. DiffusionGemma ამ პრობლემას გვერდს უვლის, რადგან ტოკენების პარალელური დამუშავება აიძულებს გრაფიკულ პროცესორებს მაქსიმალური დატვირთვით იმუშაონ. კერძოდ, Nvidia H100 ამაჩქარებელზე მოდელი წამში 1000 ტოკენის გენერირებას ახერხებს.
DiffusionGemma-ს ჯამური პარამეტრების რაოდენობა 26 მილიარდს შეადგენს, თუმცა Mixture-of-Experts არქიტექტურის წყალობით, თითოეულ ეტაპზე მხოლოდ 3.8 მილიარდი აქტიურდება. ეს სტრუქტურა მოდელს საშუალებას აძლევს, იმუშაოს სწრაფად და ამავე დროს მოითხოვოს ნაკლები რესურსი. კომპანიის მონაცემებით, ოპტიმიზაციის შემდეგ მოდელი თავისუფლად ეტევა 18 გიგაბაიტიან ვიდეომეხსიერებაში, რაც მის ლოკალურად გაშვებას სამომხმარებლო ბარათებზეც შესაძლებელს ხდის.
ტექნოლოგიური გიგანტის ანგარიშში ხაზგასმით არის ნათქვამი: „DiffusionGemma გენერირებს გაცილებით მეტ ტოკენს წამში, ვიდრე autoregressive Gemma 4 მოდელები, თუმცა ტექსტის სიზუსტის ტესტებში ოდნავ ჩამორჩება მათ“. ეს ნიშნავს, რომ სიჩქარის ზრდა ხარისხის გარკვეულ შემცირებას იწვევს, რის გამოც Google დეველოპერებს კვლავ ტრადიციული Gemma 4-ის გამოყენებას ურჩევს იმ ამოცანებში, სადაც ტექსტის ხარისხი და აზრობრივი სიზუსტე პრიორიტეტულია.
მიუხედავად სიზუსტის მცირე ვარდნისა, მოდელი იდეალურია არახაზოვანი ამოცანებისთვის, სადაც საჭიროა ტექსტის შუაში ჩამატება ან კოდის გამოტოვებული ნაწილების შევსება. კლასიკური მოდელები ტექსტს მხოლოდ მარცხნიდან მარჯვნივ კითხულობენ, ხოლო DiffusionGemma-ს მთელი ბლოკის ერთდროულად აღქმა შეუძლია. სპეციალისტი მიუთითებს, რომ ეს თვისება მოდელს საშუალებას აძლევს, უკეთ გააანალიზოს რთული სტრუქტურის მქონე მონაცემები.
სამომხმარებლო GeForce RTX 5090 ვიდეობარათზე მოდელი წამში 700-ზე მეტი ტოკენის გენერირებას ახერხებს, რაც ლოკალური გამოყენებისთვის შესანიშნავი მაჩვენებელია. Benchmarks აჩვენებს, რომ DiffusionGemma დაახლოებით სამნახევარჯერ უფრო სწრაფია, ვიდრე იმავე ზომის Gemma 4 მოდელი. Google ამ ეფექტს უკავშირებს სპეციალიზებულ გამოთვლით ამაჩქარებლებს, რომლებიც ოპტიმიზებულია პარალელური მუშაობისთვის.
მოდელის გამოყენება შესაძლებელია სხვადასხვა პოპულარულ ბიბლიოთეკასთან, როგორებიცაა Hugging Face Transformers და vLLM. JAX-ის ბაზაზე შექმნილი Hackable Diffusion ხელსაწყოების ნაკრები კი მკვლევარებს მოდელის მარტივად დაკონფიგურირების საშუალებას აძლევს. დეველოპერი აცხადებს, რომ მოდელის ინტეგრირება და ფაინთუნინგი Sudoku-ს ამოსახსნელადაც კია შესაძლებელი, სადაც კლასიკური ავტორეგრესიული მოდელები ხშირად ვერ აღწევენ წარმატებას.
DiffusionGemma-ს შექმნას საფუძვლად დაედო Google-ის ადრეული კვლევა, კოდური სახელწოდებით Gemini Diffusion, სადაც ტექსტური დიფუზიის სიჩქარე წამში 1479 ტოკენს აღწევდა. Benchmarks-ის მიხედვით, Gemini Diffusion მუშაობდა დაახლოებით იმავე დონეზე, რაზეც Gemini 2.0 Flash-Lite მოდელი. ეს ტექნოლოგიური წინსვლა აჩვენებს, თუ რამდენად სწრაფად ვითარდება ალტერნატიული გენერირების მეთოდები ხელოვნური ინტელექტის ინდუსტრიაში.
საბოლოო ჯამში, DiffusionGemma-ს გამოშვება არის მნიშვნელოვანი ეტაპი ლოკალური და სწრაფი ხელოვნური ინტელექტის განვითარებაში. თუმცა, მომხმარებლებმა უნდა გაითვალისწინონ სიჩქარესა და ხარისხს შორის არსებული კომპრომისი, რაც განსაზღვრავს მოდელის გამოყენების კონკრეტულ სფეროებს. მომავალში ამ ტექნოლოგიის განვითარებამ შესაძლოა სრულად შეცვალოს კოდის წერისა და მონაცემთა დამუშავების პროცესი სხვადასხვა აპლიკაციაში.
Google's new open model DiffusionGemma generates text from noise instead of word by word11 ივნ. 20261
