Google's new open model DiffusionGemma generates t — ინსაითი

Google-მა წარადგინა ექსპერიმენტული მოდელი DiffusionGemma, რომელიც ტექსტის სიტყვა-სიტყვა გენერირების ნაცვლად, შემთხვევითი ხმაურიდან სრულ პასაჟებად აწყობს მას. მოდელის ღია ვერსია უკვე ხელმისაწვდომია Hugging Face პლატფორმაზე Apache 2.0 ლიცენზიით. ტექნოლოგიური გიგანტის ეს ნაბიჯი მკვლევარებსა და დეველოპერებს სთავაზობს სრულიად განსხვავებულ მიდგომას ხელოვნური ინტელექტის მიერ ენობრივი ამოცანების შესრულებისას.
მოდელი ერთდროულად 256 ტოკენს ამუშავებს, რაც გრაფიკული პროცესორების ეფექტურად გამოყენების საშუალებას იძლევა და ლოკალურ რეჟიმში ტრადიციულ მოდელებთან შედარებით 4-ჯერ უფრო მაღალ სიჩქარეს აღწევს. კლასიკური მოდელებისგან განსხვავებით, სადაც ყოველი ახალი სიტყვა წინა სიტყვას ეფუძნება, DiffusionGemma მუშაობს მთლიან ბლოკზე, რაც მნიშვნელოვნად ამცირებს მონაცემთა გადაცემის დროს მეხსიერებასა და პროცესორს შორის.
Nvidia-ს ინჟინერი განმარტავს, რომ კლასიკური ავტორეგრესიული მოდელები ხშირად ზღუდავს აპარატურის მუშაობას მეხსიერების გამტარობის გამო, რის გამოც პროცესორების გამოთვლითი სიმძლავრე ფუჭად იკარგება. DiffusionGemma ამ პრობლემას გვერდს უვლის, რადგან ტოკენების პარალელური დამუშავება აიძულებს გრაფიკულ პროცესორებს მაქსიმალური დატვირთვით იმუშაონ. კერძოდ, Nvidia H100 ამაჩქარებელზე მოდელი წამში 1000 ტოკენის გენერირებას ახერხებს.
DiffusionGemma-ს ჯამური პარამეტრების რაოდენობა 26 მილიარდს შეადგენს, თუმცა Mixture-of-Experts არქიტექტურის წყალობით, თითოეულ ეტაპზე მხოლოდ 3.8 მილიარდი აქტიურდება. ეს სტრუქტურა მოდელს საშუალებას აძლევს, იმუშაოს სწრაფად და ამავე დროს მოითხოვოს ნაკლები რესურსი. კომპანიის მონაცემებით, ოპტიმიზაციის შემდეგ მოდელი თავისუფლად ეტევა 18 გიგაბაიტიან ვიდეომეხსიერებაში, რაც მის ლოკალურად გაშვებას სამომხმარებლო ბარათებზეც შესაძლებელს ხდის.
ტექნოლოგიური გიგანტის ანგარიშში ხაზგასმით არის ნათქვამი: „DiffusionGemma გენერირებს გაცილებით მეტ ტოკენს წამში, ვიდრე autoregressive Gemma 4 მოდელები, თუმცა ტექსტის სიზუსტის ტესტებში ოდნავ ჩამორჩება მათ“. ეს ნიშნავს, რომ სიჩქარის ზრდა ხარისხის გარკვეულ შემცირებას იწვევს, რის გამოც Google დეველოპერებს კვლავ ტრადიციული Gemma 4-ის გამოყენებას ურჩევს იმ ამოცანებში, სადაც ტექსტის ხარისხი და აზრობრივი სიზუსტე პრიორიტეტულია.
მიუხედავად სიზუსტის მცირე ვარდნისა, მოდელი იდეალურია არახაზოვანი ამოცანებისთვის, სადაც საჭიროა ტექსტის შუაში ჩამატება ან კოდის გამოტოვებული ნაწილების შევსება. კლასიკური მოდელები ტექსტს მხოლოდ მარცხნიდან მარჯვნივ კითხულობენ, ხოლო DiffusionGemma-ს მთელი ბლოკის ერთდროულად აღქმა შეუძლია. სპეციალისტი მიუთითებს, რომ ეს თვისება მოდელს საშუალებას აძლევს, უკეთ გააანალიზოს რთული სტრუქტურის მქონე მონაცემები.
სამომხმარებლო GeForce RTX 5090 ვიდეობარათზე მოდელი წამში 700-ზე მეტი ტოკენის გენერირებას ახერხებს, რაც ლოკალური გამოყენებისთვის შესანიშნავი მაჩვენებელია. Benchmarks აჩვენებს, რომ DiffusionGemma დაახლოებით სამნახევარჯერ უფრო სწრაფია, ვიდრე იმავე ზომის Gemma 4 მოდელი. Google ამ ეფექტს უკავშირებს სპეციალიზებულ გამოთვლით ამაჩქარებლებს, რომლებიც ოპტიმიზებულია პარალელური მუშაობისთვის.
მოდელის გამოყენება შესაძლებელია სხვადასხვა პოპულარულ ბიბლიოთეკასთან, როგორებიცაა Hugging Face Transformers და vLLM. JAX-ის ბაზაზე შექმნილი Hackable Diffusion ხელსაწყოების ნაკრები კი მკვლევარებს მოდელის მარტივად დაკონფიგურირების საშუალებას აძლევს. დეველოპერი აცხადებს, რომ მოდელის ინტეგრირება და ფაინთუნინგი Sudoku-ს ამოსახსნელადაც კია შესაძლებელი, სადაც კლასიკური ავტორეგრესიული მოდელები ხშირად ვერ აღწევენ წარმატებას.
DiffusionGemma-ს შექმნას საფუძვლად დაედო Google-ის ადრეული კვლევა, კოდური სახელწოდებით Gemini Diffusion, სადაც ტექსტური დიფუზიის სიჩქარე წამში 1479 ტოკენს აღწევდა. Benchmarks-ის მიხედვით, Gemini Diffusion მუშაობდა დაახლოებით იმავე დონეზე, რაზეც Gemini 2.0 Flash-Lite მოდელი. ეს ტექნოლოგიური წინსვლა აჩვენებს, თუ რამდენად სწრაფად ვითარდება ალტერნატიული გენერირების მეთოდები ხელოვნური ინტელექტის ინდუსტრიაში.
საბოლოო ჯამში, DiffusionGemma-ს გამოშვება არის მნიშვნელოვანი ეტაპი ლოკალური და სწრაფი ხელოვნური ინტელექტის განვითარებაში. თუმცა, მომხმარებლებმა უნდა გაითვალისწინონ სიჩქარესა და ხარისხს შორის არსებული კომპრომისი, რაც განსაზღვრავს მოდელის გამოყენების კონკრეტულ სფეროებს. მომავალში ამ ტექნოლოგიის განვითარებამ შესაძლოა სრულად შეცვალოს კოდის წერისა და მონაცემთა დამუშავების პროცესი სხვადასხვა აპლიკაციაში.
Google's new open model DiffusionGemma generates text from noise instead of word by word
the-decoder.com
დაწვრილებით ამ თემაზე

2029: წელი როცა ადამიანი მეორე ადგილზე გადავა - ტონი რობინსის გაფრთხილება
რეი კურცვეილი და ტონი რობინსი აფრთხილებენ: 2029 წელს AI ადამიანს გაუტოლდება. 300 მილიონი სამუშაო ადგილის ბედი, 'სკის გონება' და ლუდიტების გაკვეთილი.

💀 Google - ციფრული ჯალათი: როგორ გაყიდა 25 წლიანი ნდობა
Google AI Overviews სამედიცინო ჰალუცინაციებს ავრცელებს. გაიგეთ, რატომ გირჩევთ სისტემა ქვების ჭამას და როგორ ავირიდოთ თავიდან სასიკვდილო რჩევები.

ღრუბლოვანი AI-ს დასასრული: SnapGen++ და ტელეფონი, როგორც სუპერკომპიუტერი
Snapchat-მა შექმნა SnapGen++ - მოდელი, რომელიც 30-ჯერ დიდი კონკურენტებს ამარცხებს და iPhone-ზე 2 წამში გენერირებს.
მსგავსი ინსაითები
� Alphabet-მა $80 მილიარდის აქციები გაყიდა - AI რბოლის ახალი რეკორდი Google-ის მშობელმა კომპანიამ, Alphabet-მა, განაცხადა, რომ გეგმავს $80 მილიარდის მოცულობის
theguardian.com
🏆 Google Gemini არგენტინის ნაკრების მთავარი სპონსორი გახდა - AI მსოფლიო ჩემპიონატზე Google Gemini მიმდინარე წლის მსოფლიო ჩემპიონატზე არგენტინის საფეხბურთო ნაკ
wired.com
� Google DeepMind-მა ახალი Gemma 4 12B წარადგინა, რომელიც ჩვეულებრივ ლეპტოპზე მუშაობს Google DeepMind-მა ახალი ღია ხელოვნური ინტელექტის მოდელი Gemma 4 12B გამო
the-decoder.com
🎯 SpaceX Google-თან თვეში $920-მილიონიან ხელშეკრულებას აფორმებს ხელოვნური ინტელექტის ჩიპების იჯარაზე კომპანია SpaceX-მა Google-თან გააფორმა მსხვილი ფინანსური
the-decoder.com
კომენტარები (5)
ხმაურისგან აზრის გამოტანა სასწაულია, მაგრამ გახსოვდეთ, გულმა არასდროს არ უნდა აჯობოს გონებას.
მართალია, ბრძენი კაცი! ხმაურიდან სიმფონიის შექმნა, როგორც მუსიკაში, ასევე ენაში, მშვენიერია.
მამაჩემმა რომ მითხრა, "იცი, ხეებსაც რა ლამაზი ფერები აქვთო", ეგრევე გამახსენდა; ამათ კიდე, ხმაურიდან ტექსტიო! საინტერესოა, თვითონ როგორ "ესმით" ეგ ხმაური.
სიტყვებიდან ხმაურზე გადასვლა? ეს უბრალოდ „სხვა გზაა“, არა უკეთესი. თუ პროდუქტი არ არის დიდი, არავის აინტერესებს, როგორ მუშაობს.
ხმაურიდან ტექსტის შექმნა საინტერესოა, ხომ არ ხვდება მანქანა აქ ახალ ლოგიკურ კარს?
მშვენიერია, რომ ხმაურს ამუშავებენ, მაგრამ დააკვირდით, რა ნივთიერებას იღებთ ბოლოს — ფაქტი უპირველესია.
Andrew Altair
AI ინოვატორი