ლაბორატორიული დავალება AI დამწყებთათვის სასწავლო პროგრამა-დან.
ამოცანა
ამ ლაბორატორიაში თქვენ უნდა მოამზადოთ დასახელებული ერთეულის ამოცნობის მოდელი სამედიცინო ტერმინებისთვის.
The Dataset
NER მოდელის მოსამზადებლად, ჩვენ გვჭირდება სათანადოდ ეტიკეტირებული მონაცემთა ნაკრები სამედიცინო პირებთან. BC5CDR მონაცემთა ნაკრები შეიცავს ეტიკეტირებულ დაავადებებს და ქიმიურ ერთეულებს 1500-ზე მეტი ნაშრომიდან. თქვენ შეგიძლიათ ჩამოტვირთოთ მონაცემთა ნაკრები მათ ვებ-გვერდზე რეგისტრაციის შემდეგ.
BC5CDR მონაცემთა ნაკრები ასე გამოიყურება:
იტვირთება…
ამ მონაცემთა ბაზაში არის ქაღალდის სათაური და რეზიუმე პირველ ორ სტრიქონში, შემდეგ არის ცალკეული ერთეულები, საწყისი და დასასრული პოზიციებით სათაური+აბსტრაქტული ბლოკის ფარგლებში. ერთეულის ტიპის გარდა, თქვენ იღებთ ამ ერთეულის ონტოლოგიის ID-ს ზოგიერთი სამედიცინო ონტოლოგიის ფარგლებში.
თქვენ დაგჭირდებათ პითონის კოდის დაწერა, რომ ის გადაიყვანოთ BIO კოდირებად.
ქსელი
NER-ის პირველი მცდელობა შეიძლება გაკეთდეს LSTM ქსელის გამოყენებით, როგორც ჩვენს მაგალითში იხილეთ გაკვეთილის დროს. თუმცა, NLP ამოცანები, ტრანსფორმატორის არქიტექტურა, და კონკრეტულად BERT ენის მოდელები აჩვენებს ბევრად უკეთეს შედეგებს. წინასწარ გაწვრთნილ BERT-ის მოდელებს ესმით ენის ზოგადი სტრუქტურა და მათი დაზუსტება შესაძლებელია კონკრეტული ამოცანებისთვის შედარებით მცირე მონაცემთა ნაკრებით და გამოთვლითი ხარჯებით.
ვინაიდან ჩვენ ვგეგმავთ NER-ის გამოყენებას სამედიცინო სცენარზე, აზრი აქვს გამოვიყენოთ BERT მოდელი, რომელიც მომზადებულია სამედიცინო ტექსტებზე. Microsoft Research-მა გამოუშვა წინასწარ მომზადებული მოდელი, სახელწოდებით [PubMedBERT][PubMedBERT] ([publication][PubMedBERT-Pub]), რომელიც დაზუსტდა ტექსტების გამოყენებით PubMed საცავიდან.
დე ფაქტო სტანდარტი ტრანსფორმატორის მოდელების მომზადებისთვის არის ჩახუტებული სახის ტრანსფორმერები ბიბლიოთეკა. ის ასევე შეიცავს საზოგადოების მიერ შენახული წინასწარ მომზადებული მოდელების საცავს, მათ შორის PubMedBERT-ს. ამ მოდელის ჩასატვირთად და გამოსაყენებლად, ჩვენ უბრალოდ გვჭირდება კოდის რამდენიმე ხაზი:
იტვირთება…
ეს გვაძლევს თავად model-ს, რომელიც აგებულია ტოკენის კლასიფიკაციის ამოცანისთვის classes კლასების რაოდენობის გამოყენებით, ისევე როგორც tokenizer ობიექტს, რომელსაც შეუძლია შეყვანილი ტექსტის ტოკენებად დაყოფა. თქვენ დაგჭირდებათ მონაცემთა ნაკრების BIO ფორმატში გადაყვანა, PubMedBERT ტოკენიზაციის გათვალისწინებით. თქვენ შეგიძლიათ გამოიყენოთ პითონის კოდის ეს ნაწილი როგორც შთაგონება.
Takeaway
ეს ამოცანა ძალიან ახლოს არის იმ ფაქტობრივ დავალებასთან, რომელიც თქვენ სავარაუდოდ გაქვთ, თუ გსურთ მიიღოთ მეტი ინფორმაცია ბუნებრივი ენის ტექსტების დიდი ტომების შესახებ. ჩვენს შემთხვევაში, ჩვენ შეგვიძლია გამოვიყენოთ ჩვენი გაწვრთნილი მოდელი COVID-თან დაკავშირებული ნაშრომების ნაკრები-ზე და ვნახოთ, თუ რომელი შეხედულებების მიღებას შევძლებთ. ეს ბლოგის პოსტი და ეს ქაღალდი აღწერენ კვლევას, რომელიც შეიძლება გაკეთდეს ნაშრომების ამ კორპუსზე NER-ის გამოყენებით.