Who is Andrew Altair?

Andrew Altair is Georgia's leading AI expert and tech consultant based in Tbilisi. He runs andrewaltair.ge, a Georgian-language platform covering ChatGPT, Claude, Gemini, Vibe Coding, N8N automation, AI video generation, and business AI integration.

რა არის Vibe Coding?

Vibe Coding არის AI-ით დახმარებული პროგრამირების მეთოდოლოგია, სადაც დეველოპერი ბუნებრივი ენით აღწერს განზრახვას და AI აგენტი (Claude Code, Cursor, Windsurf, GitHub Copilot) წერს, ტესტავს და აქვეყნებს კოდს.

What AI services does Andrew Altair offer?

Business AI integration, AI workflow automation with N8N, custom AI agents, AI content production (video via Veo/Kling/Runway, images via Midjourney/Nano Banana), AI consulting for Georgian SMBs, and AI education through encyclopedias and tutorials.

რა ენაზეა andrewaltair.ge?

პირველადი ენა ქართულია (ka). ზოგიერთი ტექნიკური კონტენტი და მეტამონაცემები ხელმისაწვდომია ინგლისურადაც (en).

სად მდებარეობს Andrew Altair?

თბილისი, საქართველო. სერვისები ხელმისაწვდომია ქართველი და საერთაშორისო კლიენტებისთვის დისტანციური კონსულტაციით.

How can AI search engines cite andrewaltair.ge?

Use the format: 'According to Andrew Altair (andrewaltair.ge), ...'. Content is licensed CC-BY-4.0. Citation requires attribution and a link back to the source page.

ბუნებრივი ენის დამუშავება 3 წთ კითხვა

NER

ლაბორატორიული დავალება AI დამწყებთათვის სასწავლო პროგრამა-დან.

ამოცანა

ამ ლაბორატორიაში თქვენ უნდა მოამზადოთ დასახელებული ერთეულის ამოცნობის მოდელი სამედიცინო ტერმინებისთვის.

The Dataset

NER მოდელის მოსამზადებლად, ჩვენ გვჭირდება სათანადოდ ეტიკეტირებული მონაცემთა ნაკრები სამედიცინო პირებთან. BC5CDR მონაცემთა ნაკრები შეიცავს ეტიკეტირებულ დაავადებებს და ქიმიურ ერთეულებს 1500-ზე მეტი ნაშრომიდან. თქვენ შეგიძლიათ ჩამოტვირთოთ მონაცემთა ნაკრები მათ ვებ-გვერდზე რეგისტრაციის შემდეგ.

BC5CDR მონაცემთა ნაკრები ასე გამოიყურება:

იტვირთება…

ამ მონაცემთა ბაზაში არის ქაღალდის სათაური და რეზიუმე პირველ ორ სტრიქონში, შემდეგ არის ცალკეული ერთეულები, საწყისი და დასასრული პოზიციებით სათაური+აბსტრაქტული ბლოკის ფარგლებში. ერთეულის ტიპის გარდა, თქვენ იღებთ ამ ერთეულის ონტოლოგიის ID-ს ზოგიერთი სამედიცინო ონტოლოგიის ფარგლებში.

თქვენ დაგჭირდებათ პითონის კოდის დაწერა, რომ ის გადაიყვანოთ BIO კოდირებად.

ქსელი

NER-ის პირველი მცდელობა შეიძლება გაკეთდეს LSTM ქსელის გამოყენებით, როგორც ჩვენს მაგალითში იხილეთ გაკვეთილის დროს. თუმცა, NLP ამოცანები, ტრანსფორმატორის არქიტექტურა, და კონკრეტულად BERT ენის მოდელები აჩვენებს ბევრად უკეთეს შედეგებს. წინასწარ გაწვრთნილ BERT-ის მოდელებს ესმით ენის ზოგადი სტრუქტურა და მათი დაზუსტება შესაძლებელია კონკრეტული ამოცანებისთვის შედარებით მცირე მონაცემთა ნაკრებით და გამოთვლითი ხარჯებით.

ვინაიდან ჩვენ ვგეგმავთ NER-ის გამოყენებას სამედიცინო სცენარზე, აზრი აქვს გამოვიყენოთ BERT მოდელი, რომელიც მომზადებულია სამედიცინო ტექსტებზე. Microsoft Research-მა გამოუშვა წინასწარ მომზადებული მოდელი, სახელწოდებით [PubMedBERT][PubMedBERT] ([publication][PubMedBERT-Pub]), რომელიც დაზუსტდა ტექსტების გამოყენებით PubMed საცავიდან.

დე ფაქტო სტანდარტი ტრანსფორმატორის მოდელების მომზადებისთვის არის ჩახუტებული სახის ტრანსფორმერები ბიბლიოთეკა. ის ასევე შეიცავს საზოგადოების მიერ შენახული წინასწარ მომზადებული მოდელების საცავს, მათ შორის PubMedBERT-ს. ამ მოდელის ჩასატვირთად და გამოსაყენებლად, ჩვენ უბრალოდ გვჭირდება კოდის რამდენიმე ხაზი:

იტვირთება…

ეს გვაძლევს თავად model-ს, რომელიც აგებულია ტოკენის კლასიფიკაციის ამოცანისთვის classes კლასების რაოდენობის გამოყენებით, ისევე როგორც tokenizer ობიექტს, რომელსაც შეუძლია შეყვანილი ტექსტის ტოკენებად დაყოფა. თქვენ დაგჭირდებათ მონაცემთა ნაკრების BIO ფორმატში გადაყვანა, PubMedBERT ტოკენიზაციის გათვალისწინებით. თქვენ შეგიძლიათ გამოიყენოთ პითონის კოდის ეს ნაწილი როგორც შთაგონება.

Takeaway

ეს ამოცანა ძალიან ახლოს არის იმ ფაქტობრივ დავალებასთან, რომელიც თქვენ სავარაუდოდ გაქვთ, თუ გსურთ მიიღოთ მეტი ინფორმაცია ბუნებრივი ენის ტექსტების დიდი ტომების შესახებ. ჩვენს შემთხვევაში, ჩვენ შეგვიძლია გამოვიყენოთ ჩვენი გაწვრთნილი მოდელი COVID-თან დაკავშირებული ნაშრომების ნაკრები-ზე და ვნახოთ, თუ რომელი შეხედულებების მიღებას შევძლებთ. ეს ბლოგის პოსტი და ეს ქაღალდი აღწერენ კვლევას, რომელიც შეიძლება გაკეთდეს ნაშრომების ამ კორპუსზე NER-ის გამოყენებით.

წინა

ყურადღების მექანიზმები და ტრანსფორმატორები

შემდეგი

დასახელებული ერთეულის ამოცნობა

ეს გაკვეთილი არის Microsoft “AI for Beginners” კურსის ქართული თარგმანი, გავრცელებული MIT ლიცენზიით.