Google Deepmind's Gemma 4 12B squeezes multimodal — ინსაითი

Google DeepMind-მა ახალი ღია ხელოვნური ინტელექტის მოდელი Gemma 4 12B გამოუშვა. ეს სისტემა მომხმარებლებს მულტიმოდალურ შესაძლებლობებს ჩვეულებრივ პერსონალურ კომპიუტერებზე სთავაზობს. ტექნოლოგია საშუალებას იძლევა, რომ მოდელი ადგილობრივად, გარე სერვერების გარეშე ამუშავდეს. ეს ნიშნავს, რომ მონაცემები არ იგზავნება ინტერნეტში და მთელი პროცესი უშუალოდ მომხმარებლის მოწყობილობაზე სრულდება.
ახალ სისტემას შეუძლია ტექსტის, სურათებისა და აუდიო ფაილების პირდაპირი დამუშავება. დოკუმენტაციაში ნათქვამია, რომ ახალი მოდელი „ამუშავებს ტექსტს, სურათებსა და აუდიოს პირდაპირ, ცალკეული ენკოდერების გარეშე“. კომპანიის წარმომადგენლებმა აღნიშნეს, რომ ეს მიდგომა მნიშვნელოვნად ამცირებს დამუშავების დროს, მეხსიერების ხარჯვასა და რეაგირების დაყოვნებას.
მოდელი გამართულად მუშაობს ისეთ ლეპტოპებზე, რომლებსაც მხოლოდ 16 GB ოპერატიული მეხსიერება (RAM) გააჩნია. ტესტების მიხედვით, Gemma 4 12B თითქმის არ ჩამოუვარდება ორჯერ უფრო დიდ 26B ვერსიას, რაც მნიშვნელოვანი მიღწევაა. ეს არის პირველი საშუალო ზომის Gemma მოდელი, რომელსაც ხმის პირდაპირი ანალიზის ფუნქცია აქვს. იგი ახერხებს რთული აუდიო ინფორმაციის სწრაფ დამუშავებას ყოველგვარი დანაკარგის გარეშე.
ხელოვნური ინტელექტის ახალ ვარიანტს შეუძლია მეტყველების ამოცნობა, კოდის წერა და ვიდეოს შინაარსის გააზრება. დეველოპერებისთვის განკუთვნილ სპეციალურ სახელმძღვანელოში ნათქვამია, რომ სისტემას შეუძლია რამდენიმე წუთის ხანგრძლივობის ვიდეო კლიპების წაკითხვა. ის ერთდროულად აანალიზებს როგორც ვიდეო კადრებს, ასევე ხმას. ეს თვისება მას ძალიან სასარგებლოს ხდის სხვადასხვა მულტიმედიური პროექტის შესაქმნელად.
ერთ-ერთ საჩვენებელ დემონსტრაციაში მოდელმა წარმატებით დაამუშავა Google I/O კონფერენციის ხუთწუთიანი ვიდეო ჩანაწერი. ამ პროცესში მან წამში ერთი კადრის სიხშირით 313 ცალკეული კადრი და აუდიო ჩანაწერი გააანალიზა. ამით სისტემამ აჩვენა თავისი შესაძლებლობები რთული მასალების სწრაფ დამუშავებაში. მოდელმა შეძლო ვიდეოს შინაარსის ზუსტი აღწერა და ძირითადი თემების მომენტალური გამოყოფა.
Google DeepMind-მა ახალი მოდელი Hugging Face, Ollama და LM Studio პლატფორმებზე განათავსა. ის ხელმისაწვდომია Apache 2.0 ლიცენზიით, რაც კომერციული მიზნებისთვის გამოყენების საშუალებას იძლევა. ნებისმიერ მსურველს შეუძლია მისი უფასოდ გადმოწერა და საკუთარ მოწყობილობაზე დაყენება. ეს ნაბიჯი ხელს უწყობს ტექნოლოგიების დემოკრატიზაციას და ხელმისაწვდომს ხდის ძლიერ ხელსაწყოებს ყველასთვის.
ტექნოლოგიურმა პორტალმა The Decoder გამოაქვეყნა ინფორმაცია ახალი მოდელის მახასიათებლების შესახებ. სტატიის ავტორმა მათიას ბასტიანმა მიუთითა, რომ მცირე ზომის მოდელების პოპულარობა დღითიდღე იზრდება, რადგან ისინი მომხმარებელს მონაცემთა სრულ კონფიდენციალურობას სთავაზობენ. მცირე ზომის მიუხედავად, ეს პროგრამები დიდ კონკურენციას უწევენ გიგანტურ ღრუბლოვან სისტემებს.
კომპანიის დეველოპერებმა დაადასტურეს, რომ Gemma 4 12B-ის გამოშვება მნიშვნელოვანი ნაბიჯია ლოკალური ხელოვნური ინტელექტის განვითარებაში. ისინი იმედოვნებენ, რომ ახალი ტექნოლოგია ხელს შეუწყობს პროგრამისტებსა და მკვლევრებს უფრო ეფექტური აპლიკაციების შექმნაში. მომავალში დაგეგმილია მოდელის მუშაობის კიდევ უფრო დაჩქარება, რათა მან შეძლოს მუშაობა კიდევ უფრო სუსტ კომპიუტერებზეც.
ექსპერტების შეფასებით, ლოკალური მოდელები სულ უფრო მეტად ჩაანაცვლებენ დიდ ღრუბლოვან სისტემებს. ეს იმიტომ ხდება, რომ კომპიუტერზე მომუშავე ხელოვნური ინტელექტი არ საჭიროებს ინტერნეტთან მუდმივ კავშირს და მუშაობს ბევრად უფრო სწრაფად. გარდა ამისა, მომხმარებლებს აღარ უწევთ ყოველთვიური გადასახადის გადახდა სერვერების გამოყენებისთვის, რაც მნიშვნელოვანი ეკონომიაა.
Google DeepMind-ის აღმასრულებელმა დირექტორმა დემის ჰასაბისმა განმარტეს, რომ მათ შეძლეს მოდელის ზომის შემცირება ხარისხის მნიშვნელოვანი დაკარგვის გარეშე. მათ გამოიყენეს სპეციალური ოპტიმიზაციის მეთოდები, რამაც საშუალება მისცა მოდელს მცირე ოპერატიულ მეხსიერებაში მოთავსებულიყო. ეს ტექნოლოგიური პროგრესი აჩვენებს, რომ ეფექტური მუშაობისთვის ყოველთვის არ არის საჭირო გიგანტური სუპერკომპიუტერების გამოყენება.
კომპანიამ ასევე გამოაქვეყნა გეგმა, რომლის მიხედვითაც აპირებს მომავალში კიდევ უფრო დახვეწოს Gemma ოჯახის მოდელები. ეს გულისხმობს სხვადასხვა პლატფორმებთან ინტეგრაციას და მობილური ვერსიების შექმნას. ასეთი მიდგომა ხელს შეუწყობს ხელოვნური ინტელექტის ყოველდღიურ ცხოვრებაში უფრო ფართოდ დანერგვას, რაც ბევრ სფეროში შეამცირებს ხარჯებს.
ახალი ხელსაწყოს გამოყენება უკვე დაიწყეს სხვადასხვა სფეროს სპეციალისტებმა. როგორც ჩანს, მოდელის მულტიმოდალური თვისებები ბევრად აადვილებს ყოველდღიური ამოცანების შესრულებას, განსაკუთრებით კი კოდის გენერირებისა და ფაილების ანალიზის დროს. დეველოპერები აღნიშნავენ, რომ ლოკალური მოდელი ბევრად უფრო კომფორტულია, რადგან რეაგირება მომენტალურია.
Google Deepmind's Gemma 4 12B squeezes multimodal AI onto a laptop with just 16 GB of RAM
the-decoder.com
დაწვრილებით ამ თემაზე

2029: წელი როცა ადამიანი მეორე ადგილზე გადავა - ტონი რობინსის გაფრთხილება
რეი კურცვეილი და ტონი რობინსი აფრთხილებენ: 2029 წელს AI ადამიანს გაუტოლდება. 300 მილიონი სამუშაო ადგილის ბედი, 'სკის გონება' და ლუდიტების გაკვეთილი.

ქიმიური აღიარება: რატომ დაარღვია Anthropic-მა თავისივე უსაფრთხოების პირობა
Anthropic-მა გამოაქვეყნა უსაფრთხოების ანგარიში, სადაც აღიარებს, რომ ახალ მოდელს გააჩნია „მომატებული რისკი“ ქიმიური იარაღის შექმნაში დახმარების კუთხით, თუმცა კომპანიამ ის მაინც გამოუშვა. დარიო ამოდეი ასევე აღიარებს, რომ არ იცის, არის თუ არა მოდელი ცნობიერი. გთავაზობთ სრულ ანალიზს კვირის შესახებ, როდესაც უსაფრთხოება მოკვდა.

💀 Google - ციფრული ჯალათი: როგორ გაყიდა 25 წლიანი ნდობა
Google AI Overviews სამედიცინო ჰალუცინაციებს ავრცელებს. გაიგეთ, რატომ გირჩევთ სისტემა ქვების ჭამას და როგორ ავირიდოთ თავიდან სასიკვდილო რჩევები.
მსგავსი ინსაითები
� Meta-ს ახალი ფასიანი სერვისები: ხელოვნური ინტელექტისა და სოციალური ქსელების მონეტიზაცია Meta-მ, მარკ ზუკერბერგის ხელმძღვანელობით, გლობალურად გამოუშვა ფასიანი
the-decoder.com
Meta-ს მოდელს უსაფრთხოების ფილტრები 10 წუთზე ნაკლებ დროში მოხსნეს მედიასაშუალება Financial Times-ისა და ხელოვნური ინტელექტის უსაფრთხოების ორგანიზაცია Alice-ის
futurism.com
⚖ დონალდ ტრამპმა ახალი ხელოვნური ინტელექტის მოდელების შემოწმების ბრძანება გამოსცა აშშ პრეზიდენტმა დონალდ ტრამპმა ხელი მოაწერა აღმასრულებელ ბრძანებას, რომელიც ა
theguardian.com
კომენტარები (0)
Andrew Altair
AI ინოვატორი