in

„მცდარ-ბეჭდილ-მძებნი“ – გვერდი, რომელიც ტექსტს შენ მაგივრად გაასწორებს

სულ ცოტა ხნის წინ ქართულ ინტერნეტსივრცეს ე.წ. „სამაგიდო ვებ-გვერდი“ შეემატა – „მცდარ-ბეჭდილ-მძებნი“ – ასე ეწოდება პლატფორმას, რომელიც ტექსტებზე მუშაობისას თქვენი უღალატო მეგზური გახდება. ანალიზატორი ქართული ენის მორფოლოგიის შემმოწმებელია, რომელსაც რამდენიმე წამში შეუძლია ნებისმიერი სიდიდის მითითებულ ტექსტს თვალი გადაავლოს და შეცდომები მოგინიშნოს.

პროექტის ავტორი და ლექსიკონის შემქმნელი ვახო ელერდაშვილია, კომპიუტერული უზრუნველყოფა კი თამარ ფეიქრიშვილს ეკუთვნის.

პროექტის ავტორმა Venue-სთან „მცდარ-ბეჭდილ-მძებნის“ იდეისა და მორფოლოგიური ანალიზატორის სასიკეთო მხარეებზე ისაუბრა:

როგორ დაიბადა პროექტის იდეა?

პროექტის იდეა დაიბადა 2019 წლის ზაფხულში, როდესაც გვსურდა, შეგვექმნა ქართულენოვანი ბოტი ფეისბუქში. მალევე მივხვდით, რომ სანამ ბოტზე დავიწყებდით მუშაობას, მანამდე „სფელჩეკერი“ იყო საჭირო, რადგან პირველი, რაც ნორმალური ბოტის დეველოპმენტისას უნდა გაკეთდეს, შეცდომების ჩასწორებაა.

მაგალითად, ბოტს თუ მისწერს ვინმე „გამრჯობა“-ს, ჯერ ამ სიტყვაში შეცდომა უნდა გასწორდეს და შემდეგ მიხვდება ბოტი, რომ ვესალმებით. ეს მანამდე არ არსებობდა და ამიტომაც დავიწყეთ ქართულ ენაზე მეტყველების ტექნოლოგიებზე (ე.წ. NLP) მუშაობა, რის შემდეგაც ახალი გამოწვევის წინაშე დავდექით: გვჭირდებოდა მეგამონაცემები (ე.წ. big data) იმისათვის, რომ ქართული ენის მოდელზე დაგვეწყო მუშაობა, ამიტომ ძალიან დიდი დრო დავხარჯეთ იმაში, რომ ქართული ტექსტები შეგვეგროვებინა. დღესდღეობით ჩვენს კორპუსში 24 გიგაბაიტი ქართული ტექსტი გვაქვს, რაც მილიარდ 47 მილიონ სიტყვას შეიცავს და ამ ზომის კორპუსი საქართველოში ბევრი არ არის.

ქართულ „სფელჩეკერს“, რომელსაც „მცდარ-ბეჭდილ-მძებნი“ ვუწოდეთ, საფუძვლად ეს კორპუსი დაედო, რომლის გამოყენებითაც ავაგეთ ქართული ენის მოდელი – პარადიგმები 7.500 სიტყვის ზმნური და 91.400 – არაზმნური სიტყვის ფორმისათვის. საბოლოოდ მივიღეთ შედეგი, რომელიც ძალიან სწრაფი, პრაქტიკული და სანდოა!

ვისთვის არის განკუთვნილი აღნიშნული ვებ-გვერდი?

ვებ-გვერდი განკუთვნილია ყველასთვის, ვინც წერს ქართულ ენაზე და ვისაც სურს, რომ მის ტექსტში მცდარბეჭდილები (ანუ „ტაიპო“-ები) არ იყოს. ის გამოადგებათ რედაქტორებს, მთარგმნელებს, სტუდენტებს… ყველას, ვისთვისაც მნიშვნელოვანია უხერხული შეცდომების დროულად აღმოჩენა. ამასთან ჩვენი პლატფორმა მაქსიმალურად ღიაა და ნებისმიერ მსურველს შეუძლია ჩაამატოს სიტყვა, რომელიც მცდარ-ბეჭდილ-მძებნმა არ იცის. ასე მაგალითად, ერთმა ჩვენმა მომხმარებელმა სიტყვების „კორიანტელი“ გამოგვიგზავნა ფინანსების სფეროდან: ჰეჯირება, დერივატივი, ფიდუციური და ა.შ., მეორემ კი – ლიტმცოდნეობის სპეციფიური ტერმინებით გაგვიმდიდრა მონაცემთა ბაზა, რაც მანამდე არ გვქონდა. ეს ღიაობა საშუალებას მოგვცემს, რომ სწრაფად შეგროვდეს ყველა ის ლექსიკური ერთეული, რაც აკლია ჩვენს ბაზას, მიუხედავად იმისა, რომ სიტყვების სიმცირის პრობლემა არ გვაქვს.

მოგეხსენებათ, არსებობს მართლწერის შესამოწმებლად განკუთვნილი სხვა ვებ-გვერდიც (spell.on.ge), ეს ფუნქცია Microsoft Word-შიც შეინიშნება – რით განსხვავდება მათგან მცდარ-ბეჭდილ-მძებნი?

ნებისმიერ ენაზე „სფელჩეკერი“ უნდა შეფასდეს სამი კრიტერიუმით:

  • სისწრაფე

მიგვაჩნია, რომ ეს ყველაზე მნიშვნელოვანი კრიტერიუმია, რადგან თუ უზუსტეს პასუხს მოგვიძებნის გუგლის საძიებო სისტემა, მაგრამ თითოეული სიტყვის მოძებნაზე 10 წუთს დახარჯავს, ის გამოუყენებელი იქნება, თუმცა უზუსტესი.

  • ფორმების მრავალფეროვნება

მნიშვნელოვანია, რომ კარგი „სფელჩეკერი“ ფარავდეს ენაში არსებული ფორმების მაქსიმალურად დიდ რაოდენობას. ამ ეტაპზე ჩვენს მოდელს 300-400 მილიონი ფორმის გენერაცია შეუძლია და მანამდე არსებულ „სფელჩეკერებთან“ შედარებით ეს მონაცემი რამდენჯერმე აღემატება მანამდე არსებული „სფელჩეკერების“ შესაძლებლობებს (მაგალითად, რომ შევადაროთ მაიკროსოფტ ვორდის პრუფრიდერს, ან ზემოხსენებულ spell.on.ge-ს). ნებისმიერ მსურველს თავად შეუძლია ამაში დარწმუნდეს.

  • სისწორე

არანაკლებ მნიშვნელოვანია, რომ „სფელჩეკერი“ იყოს სწორი და სანდო. ამისათვის ჩვენ ვეყრდნობით გიორგი გოგოლაშვილის წიგნს „თანამედროვე ქართული ენის მორფოლოგია“ და თამარ მახარობლიძის სქელტანიან ნაშრომს „The Georgian Verb“, სადაც ქართული ზმნების სრული პარადიგმული ცხრილებია მოცემული. ასევე, ვეყრდნობით ორთოგრაფიულ ლექსიკონს ვარლამ თოფურიასა და ივანე გიგინეიშვილის რედაქციით. ამასთან, უზუსტობის აღმოჩენის შემთხვევაში, ნებისმიერ მსურველს შეუძლია მოგვწეროს ელექტრონულ ფოსტაზე ან ფეისბუქში და ამ საკითხში ჩვენ მაქსიმალურად ღია ვართ – შეცდომების გასწორება და მოდელის სისწორე ჩვენი – ყველას საერთო ინტერესია.

როგორია თქვენი სამომავლო გეგმები?

სამომავლო გეგმების სიმცირეს არ ვუჩივით: გვსურს, შევქმნათ ინტერნეტ-ბრაუზერების ე.წ. „ექსთენშენები“ და მაიკროსოფტ ვორდის add-on-ი, რათა ტექსტების შემოწმება პირდაპირ ფეისბუქში პოსტის წერის დროს ან ვორდში დოკუმენტზე მუშაობისას იყოს შესაძლებელი. ასევე, გვსურს მორფოლოგიური ანალიზატორის პარალელურად, შევქმნათ სინტაქსური და სემანტიკური ანალიზატორები, რომლებიც სინტაქსურ და აზრობრივ შეცდომებს დააფიქსირებს და სხვა ფერის მარკერით გამოყოფს ტექსტში. გეგმები ბევრი გვაქვს და ვიმედოვნებთ, რომ საამისოდ ნებისყოფა გვეყოფა.

კომენტარის დატოვება

თქვენი ელფოსტის მისამართი გამოქვეყნებული არ იყო. აუცილებელი ველები მონიშნულია *

Loading…

0

19 სევდიანი ეპიზოდი ფილმებიდან, სადაც მოვლენები მოულოდნელი სცენარით განვითარდა

ბიონსესა და Adidas-ის კოლაბორაცია

ბიონსესა და Adidas-ის კოლაბორაცია – სამოსის ახალი ხაზი