VGG-16
VGG-16 არის ქსელი, რომელმაც მიაღწია 92,7% სიზუსტეს ImageNet top-5 კლასიფიკაციაში 2014 წელს. მას აქვს შემდეგი ფენის სტრუქტურა:

როგორც ხედავთ, VGG მიჰყვება ტრადიციულ პირამიდის არქიტექტურას, რომელიც არის კონვოლუცია-გაერთიანების ფენების თანმიმდევრობა.

სურათი Researchgate-დან
ResNet
ResNet არის მოდელების ოჯახი შემოთავაზებული Microsoft Research-ის მიერ 2015 წელს. ResNet-ის მთავარი იდეაა ნარჩენი ბლოკების გამოყენება:

სურათი ეს ქაღალდი-დან
იდენტურობის გაცემის გამოყენების მიზეზი არის ის, რომ ჩვენი ფენა იწინასწარმეტყველებს განსხვავებას წინა ფენის შედეგსა და ნარჩენი ბლოკის გამომავალს შორის - აქედან მოდის სახელი residual. ამ ბლოკების გაწვრთნა ბევრად უფრო ადვილია და შეიძლება ქსელების აგება რამდენიმე ასეული ბლოკით (ყველაზე გავრცელებული ვარიანტებია ResNet-52, ResNet-101 და ResNet-152).
You can also think of this network as being able to adjust its complexity to the dataset. თავდაპირველად, როდესაც იწყებთ ქსელის ვარჯიშს, წონების მნიშვნელობები მცირეა და სიგნალის უმეტესი ნაწილი გადის პირადობის ფენებში. ტრენინგის პროგრესირებასთან ერთად და წონა უფრო დიდი ხდება, ქსელის პარამეტრების მნიშვნელობა იზრდება და ქსელები რეგულირდება ისე, რომ მოერგოს საჭირო ექსპრესიულ ძალას სავარჯიშო სურათების სწორად კლასიფიკაციისთვის.
Google Inception
Google Inception არქიტექტურა ამ იდეას ერთი ნაბიჯით წინ აწვდის და თითოეულ ქსელურ ფენას რამდენიმე განსხვავებული ბილიკის კომბინაციით აშენებს:

სურათი Researchgate-დან
აქ ჩვენ უნდა გავუსვათ ხაზი 1x1 კონვოლუციის როლს, რადგან თავდაპირველად მათ აზრი არ აქვთ. რატომ დაგვჭირდება სურათის გავლა 1x1 ფილტრით? ამასთან, უნდა გახსოვდეთ, რომ კონვოლუციური ფილტრები ასევე მუშაობს რამდენიმე სიღრმის არხთან (თავდაპირველად - RGB ფერები, შემდეგ ფენებში - არხები სხვადასხვა ფილტრებისთვის), და 1x1 კონვოლუცია გამოიყენება ამ შეყვანის არხების ერთმანეთთან შერევისთვის სხვადასხვა სასწავლო წონის გამოყენებით. ის ასევე შეიძლება განიხილებოდეს, როგორც არხის განზომილებაზე შემცირების (გაერთიანება).
აქ არის კარგი ბლოგის პოსტი ამ თემაზე და ორიგინალური ქაღალდი.
MobileNet
MobileNet არის შემცირებული ზომის მოდელების ოჯახი, შესაფერისი მობილური მოწყობილობებისთვის. გამოიყენეთ ისინი, თუ რესურსების ნაკლებობა გაქვთ და შეგიძლიათ მცირეოდენი სიზუსტე შესწიროთ. მთავარი იდეა მათ უკან არის ეგრეთ წოდებული სიღრმისეულად განცალკევებული კონვოლუცია, რომელიც იძლევა კონვოლუციის ფილტრების წარმოდგენას სივრცითი კონვოლუციების კომპოზიციით და 1x1 კონვოლუციით სიღრმის არხებზე. ეს მნიშვნელოვნად ამცირებს პარამეტრების რაოდენობას, რაც ქსელს უფრო მცირე ზომის ხდის და ასევე ადვილია ვარჯიში ნაკლები მონაცემებით.
აქ არის კარგი ბლოგის პოსტი MobileNet-ზე.
დასკვნა
ამ განყოფილებაში თქვენ ისწავლეთ კომპიუტერული ხედვის ნერვული ქსელების მთავარი კონცეფცია - კონვოლუციური ქსელები. რეალური არქიტექტურები, რომლებიც აძლიერებენ გამოსახულების კლასიფიკაციას, ობიექტების ამოცნობას და სურათების გენერირების ქსელებსაც კი, ყველა დაფუძნებულია CNN-ზე, მხოლოდ მეტი ფენით და დამატებითი სასწავლო ხრიკებით.
გამოწვევა
თანდართულ რვეულებში, ბოლოში არის შენიშვნები იმის შესახებ, თუ როგორ უნდა მიიღოთ მეტი სიზუსტე. გააკეთეთ რამდენიმე ექსპერიმენტი, რათა ნახოთ, შეგიძლიათ თუ არა უფრო მაღალი სიზუსტის მიღწევა.
ლექციის შემდგომი ვიქტორინა
მიმოხილვა და თვითშესწავლა
მიუხედავად იმისა, რომ CNN-ები ყველაზე ხშირად გამოიყენება Computer Vision ამოცანებისთვის, ისინი ზოგადად კარგია ფიქსირებული ზომის შაბლონების ამოსაღებად. მაგალითად, თუ საქმე გვაქვს ბგერებთან, შეიძლება ასევე გვსურს გამოვიყენოთ CNN-ები აუდიო სიგნალში გარკვეული სპეციფიკური შაბლონების მოსაძებნად - ამ შემთხვევაში ფილტრები იქნება 1-განზომილებიანი (და ამ CNN-ს დაერქმევა 1D-CNN). ასევე, ზოგჯერ 3D-CNN გამოიყენება მრავალგანზომილებიან სივრცეში ფუნქციების ამოსაღებად, როგორიცაა ვიდეოზე მომხდარი გარკვეული მოვლენები - CNN-ს შეუძლია დროთა განმავლობაში ცვალებადი ფუნქციების გარკვეული ნიმუშების აღბეჭდვა. გააკეთეთ მიმოხილვა და თვითშესწავლა სხვა ამოცანების შესახებ, რომლებიც შეიძლება გაკეთდეს CNN-ებით.