Абстрактна Вікіпедія/Оновлення/2021-09-17
◀ | Оновлення Абстрактної Вікіпедії | ▶ |
- Лексеми та парадигми
Минулого тижня ми обговорювали, як реалізувати парадигми у Вікіфункціях. Цього тижня обговоримо кілька ідей, як їх можна використати.
Можна запитати, чому це корисно, враховуючи, що ми все одно збираємо всі різні форми лексикографічних даних у Вікіданих. Напевно, нам не потрібно генерувати форми, якщо у нас є повний набір форм у Вікіданих?
Є кілька можливих варіантів використання:
По-перше, ми, ймовірно, ніколи не досягнемо повного охоплення у Вікіданих усіх форм усіма мовами. У деяких мовах кількість форм може бути непомірно великою, і нам, як і будь-якому іншому словнику, може знадобитися вибір форм для зберігання. Зазвичай форми, які не збережені, є часто повторюваними.
По-друге, навіть якщо ми маємо дійсно хороше охоплення, час від часу вам доведеться вводити слова, яких немає у словнику: під час відображення неологізмів, при утворенні нової лексеми перетворенням з іншої граматичної категорії (наприклад: перетворення в англійській мові іменників у дієслова або використання назви місць для створення демонімів), або при використанні слів, запозичених з інших мов. На щастя, такі слова часто є поширеними, і розумні парадигми, описані минулого разу, можуть завести нас далеко.
По-третє, парадигми можна використовувати у Вікіданих для з'єднання з фактичними лексемами. Наприклад, для такої лексеми, як "cat" (кіт), ми могли б посилатися на парадигму, яку ми розробили минулого тижня, або на функції add s (додати s) чи English regular plural. Зв'язування лексеми з функцією дозволяє повторно генерувати окремі форми, що, у свою чергу, означає, що їх можна перевірити на правильність, забезпечуючи таким чином якість даних. Функція English regular plural може сказати нам, що множина для "pasty" повинна бути "pasties", але ця лексема Вікіданих раніше визначила множину як "pastiest". Множиною "strawman" має бути "strawmen", не "strawmans"; множиною для "Frenchwoman" має бути "Frenchwomen", не "Frenchwoman".
Є одне питання: якщо у нас є парадигма, яка може створювати форми, навіщо взагалі створювати та зберігати форми у Вікіданих? Це чудове питання, і відповідне рішення дійсно може бути переглянуте спільнотою. Особисто я вважаю, що нам потрібні обидві форми, форми, які явно зберігаються у Вікіданих, та породжувальні парадигми. Без першої незрозуміло, як би ми поводилися з неправильними формами — чи відповідальність покладається на парадигми? Це здається безладним. Так само парадигми мають вирішальне значення, коли, наприклад, лексема має тисячі можливих форм. Якщо ці форми завжди повторюються, спільнота може вирішити не матеріалізувати їх усіх — особливо, якщо багато лексем об'єднуються одним і тим самим регулярним морфологічним шаблоном.
Здається, це також стосується англійських іменників: майже всі англійські іменники у Вікіданих мають дві форми, хоча можна стверджувати, що англійські іменники мають чотири форми (включаючи присвійні форми); проте англійські присвійні форми, схоже, генеруються настільки регулярно, що наразі автори Вікіданих, здається, вважають їх непотрібними і зазвичай їх опускають.
По-четверте, парадигми також можна використовувати для того, щоб запропонувати вихідну точку під час введення даних. Уявіть, що Wikidata Lexeme Forms дозволяє вибрати функцію у Вікіфункціях, яка, враховуючи лему, генерує всі можливі форми для запису. Інструмент Lexeme Forms уже значно покращив створення лексем, зробивши записи набагато узгодженішими та розширюваними. Якби, крім того, ми також могли б автоматично генерувати більшість форм, це набагато збільшило б швидкість введення даних і одночасно зменшило б ймовірність помилок при введенні даних.
Крім усіх цих негайних поліпшень, може бути ще багато переваг. Наприклад, для зберігання офлайн-словника буде потрібно набагато менше місця для зберігання, якщо ми використовуємо парадигми. Розробка парадигм для мов з недостатніми ресурсами, може створити допоміжні засоби для роботи з цими мовами. Наявність бази знань парадигм у різних мовах може бути цікавою з точки зору лінгвістичних досліджень.
Після запуску Вікіфункцій ми сподіваємось, що спільнота розробить бібліотеку морфологічних парадигм та їх зв'язок із лексикографічними даними у Вікіданих. Крім того, що це дуже корисний крок на нашому шляху до Абстрактної Вікіпедії, ми вважаємо, що це значно розширить вміст лексикографічних даних у Вікіданих. Це, разом із наданням доступу до лексикографічних даних із Вікісловників, допоможе значно розширити можливості авторів у Вікісловнику, особливо у менших Вікісловниках та у мовах з меншою кількістю авторів у всіх словниках.
Дякуємо Користувач:YULdigitalpreservation, який створив EntitySchema E327 (схему сутності E327) у Вікіданих для англійських іменників з родовим відмінком, та User:VIGNERON за створення морфології французької множини на NotWikiLambda та Користувач:Strobilomyces за співпрацю.