კომპიუტერული ხედვა 2 წთ კითხვა

თავის ამოცნობა ჰოლივუდის თავების მონაცემთა ნაკრების გამოყენებით

ლაბორატორიული დავალება AI დამწყებთათვის სასწავლო პროგრამა-დან.

ამოცანა

ვიდეოსათვალთვალო კამერის ნაკადზე ადამიანების რაოდენობის დათვლა მნიშვნელოვანი ამოცანაა, რომელიც საშუალებას მოგვცემს გამოვთვალოთ მაღაზიებში ვიზიტორთა რაოდენობა, რესტორანში დატვირთული საათები და ა.შ. ამ ამოცანის გადასაჭრელად, ჩვენ უნდა შევძლოთ ადამიანის თავების აღმოჩენა სხვადასხვა კუთხიდან. ობიექტების აღმოჩენის მოდელის მომზადებისთვის ადამიანის თავების აღმოსაჩენად, ჩვენ შეგვიძლია გამოვიყენოთ ჰოლივუდის თავების მონაცემთა ნაკრები.

The Dataset

ჰოლივუდის თავების მონაცემთა ნაკრები შეიცავს 369,846 ადამიანის თავს, რომლებიც ანოტირებულია ჰოლივუდის ფილმების 224,740 ფილმის კადრში. ის მოწოდებულია https://host.robots.ox.ac.uk/pascal/VOC/ ფორმატში, სადაც თითოეული სურათისთვის არის ასევე XML აღწერილობის ფაილი, რომელიც ასე გამოიყურება:

იტვირთება…

ამ მონაცემთა ნაკრებში არის ობიექტების მხოლოდ ერთი კლასი head და თითოეული ხელმძღვანელისთვის თქვენ მიიღებთ შეზღუდვის ველის კოორდინატებს. შეგიძლიათ XML გაანალიზოთ Python ბიბლიოთეკების გამოყენებით, ან გამოიყენოთ ამ ბიბლიოთეკას პირდაპირ PASCAL VOC ფორმატთან გასამკლავებლად.

სასწავლო ობიექტების ამოცნობა

თქვენ შეგიძლიათ მოამზადოთ ობიექტის აღმოჩენის მოდელი ერთ-ერთი შემდეგი გზით:

  • გამოიყენეთ Azure Custom Vision და ეს არის Python API, რომ პროგრამულად მოამზადოთ მოდელი ღრუბელში. მორგებული ხედვა ვერ შეძლებს რამდენიმე ასეულზე მეტ სურათს გამოიყენოს მოდელის ტრენინგისთვის, ამიტომ შეიძლება დაგჭირდეთ მონაცემთა ნაკრების შეზღუდვა.
  • მაგალითის გამოყენება კერასის გაკვეთილი-დან RetunaNet მოდელის მოსამზადებლად.
  • torchvision.models.detection.RetinaNet ჩაშენებული მოდულის გამოყენება ჩირაღდნის ხედვაში.

Takeaway

ობიექტების გამოვლენა არის ამოცანა, რომელიც ხშირად საჭიროა ინდუსტრიაში. მიუხედავად იმისა, რომ არსებობს გარკვეული სერვისები, რომლებიც შეიძლება გამოყენებულ იქნას ობიექტების აღმოჩენის შესასრულებლად (როგორიცაა Azure Custom Vision), მნიშვნელოვანია გვესმოდეს, თუ როგორ მუშაობს ობიექტის ამოცნობა და შეძლოთ საკუთარი მოდელების მომზადება.

ეს გაკვეთილი არის Microsoft “AI for Beginners” კურსის ქართული თარგმანი, გავრცელებული MIT ლიცენზიით.