ბუნებრივი ენის დამუშავება 1 წთ კითხვა

ტრენინგის სკიპ-გრამის მოდელი

ლაბორატორიული დავალება AI დამწყებთათვის სასწავლო პროგრამა-დან.

ამოცანა

ამ ლაბორატორიაში ჩვენ გამოგიწვევთ Word2Vec მოდელის გაწვრთნაზე Skip-Gram ტექნიკის გამოყენებით. ავარჯიშეთ ქსელი ჩაშენებით, რათა წინასწარ განსაზღვროთ მეზობელი სიტყვები $N$-tokens-ის მასშტაბით Skip-Gram ფანჯარაში. შეგიძლიათ გამოიყენოთ კოდი ამ გაკვეთილიდან და ოდნავ შეცვალოთ იგი.

The Dataset

შეგიძლიათ გამოიყენოთ ნებისმიერი წიგნი. შეგიძლიათ იპოვოთ ბევრი უფასო ტექსტი პროექტი გუტენბერგი-ზე, მაგალითად, აქ არის პირდაპირი ბმული ალისის თავგადასავალი საოცრებათა ქვეყანაში) ლუის კეროლის მიერ. ან შეგიძლიათ გამოიყენოთ შექსპირის პიესები, რომლებიც შეგიძლიათ მიიღოთ შემდეგი კოდის გამოყენებით:

იტვირთება…

გამოიკვლიეთ!

თუ დრო გაქვთ და გსურთ უფრო ღრმად შეხვიდეთ საკითხში, შეეცადეთ შეისწავლოთ რამდენიმე რამ:

  • როგორ მოქმედებს ჩაშენების ზომა შედეგებზე?
  • როგორ მოქმედებს ტექსტის სხვადასხვა სტილი შედეგზე?
  • აიღეთ რამდენიმე ძალიან განსხვავებული ტიპის სიტყვა და მათი სინონიმები, მიიღეთ მათი ვექტორული წარმოდგენები, გამოიყენეთ PCA ზომები 2-მდე შესამცირებლად და დახაზეთ ისინი 2D სივრცეში. ხედავთ რაიმე შაბლონებს?

ეს გაკვეთილი არის Microsoft “AI for Beginners” კურსის ქართული თარგმანი, გავრცელებული MIT ლიცენზიით.