Abstraktní Wikipedie/Aktualizace/2022-05-27

This page is a translated version of the page Abstract Wikipedia/Updates/2022-05-27 and the translation is 100% complete.
716-newspaper.svg Aktualizace Abstraktní Wikipedie Translate

Abstraktní Wikipedie prostřednictvím e-mailového seznamu Abstraktní Wikipedie na IRC Wikifunkce na Telegramu Wikifunkce na Twitteru Wikifunkce na Facebooku Wikifunkce na YouTube Webové stránky Wikifunkcí Translate

Návrh architektury generování přirozeného jazyka (NLG)

Náš spolupracovník z Google.org, Ariel Gutman, je autorem návrhu architektury pro systém generování přirozeného jazyka (NLG) abstraktní Wikipedie.

Navrhovaná architektura se řídí 4 hlavními principy:

  1. Modularita: systém by měl být modulární, aby bylo možné nezávisle upravovat různé aspekty NLG (např. morfosyntaktická a fonotaktická pravidla).
  2. Lexikálnost: systém by měl být schopen jak načítat lexikální data (odděleně od kódu), tak se spoléhat na produktivní jazyková pravidla pro generování těchto dat za běhu (např. skloňování anglického plurálu s -s).
  3. Rekurzivita: vzhledem ke kompoziční a rekurzivní povaze většiny jazyků by efektivní systém NLG musel být sám rekurzivní.
  4. Rozšiřitelnost: systém by měl být přístupný rozšiřování jak jazykovými odborníky a technickými přispěvateli, tak i netechnickými a neodbornými přispěvateli, kteří pracují na různých částech systému.

Tyto úvahy vedou k návrhu "potrubního" systému, v němž je vstupní konstruktor zpracováván různými moduly (odpovídajícími různým aspektům přirozeného jazyka), dokud není vrácen konečný výstupní text.

A proposal of an NLG architecture for Abstract Wikipedia.svg

V této pipeline jsou tmavě modré bloky prvky, které by vytvořili přispěvatelé do Wikifunkcí (obdélníky) nebo Wikidat (zaoblené obdélníky), zatímco světle modré prvky představují funkce nebo data žijící v orchestrátoru Wikifunkcí.

Klíčovým aspektem systému jsou "šablonové vykreslovače". Wikifunkce budou poskytovat specializovaný šablonovací jazyk, vyvinutý vlastními silami, který by měl umožnit i netechnickým přispěvatelům psát renderery pro jejich jazyk. Tyto renderery budou podporovány lexikálními daty z Wikidat a gramatickými vztahy ve stylu univerzální závislosti, které by v rámci Wikifunkcí definovali jazykově zainteresovaní přispěvatelé.

Budeme rádi, když nám na diskusní stránce návrhu sdělíte jakoukoli zpětnou vazbu, zejména pokud jde o nápad vyvinout vlastní šablonovací systém.

Další aktualizace za minulý týden

  • Tento týden tým uspořádal první zasedání Deep Dive. Představili jsme naše projektové OKR (cíle a klíčové výsledky) a získali zpětnou vazbu od vedení.
  • Tento týden strávil tým přípravami na víkendový Hackathon:
    • Proběhla prezentace a otázky a odpovědi na téma Wikifunkcí.
    • Pro účastníky Hackathonu bylo identifikováno a označeno několik úkolů z backlogu Phabricatoru.

Níže je uveden stručný týdenní přehled s důrazem na stav každého pracovního procesu:

  • Výkon:
    • Pokrok v nastavení Beta clusteru: služby orchestrátoru a evaluátoru se nyní automaticky aktualizují na nejnovější bitovou kopii.
  • NLG:
    • Dokončení počátečního návrhu dokumentu návrhu architektury systému NLG.
  • Metadata:
    • Částečné dokončení kódu front-endu, aby byla zajištěna dopředná i zpětná kompatibilita pro staré a nové formáty metadat.
  • Zkušenosti:
    • Další pokrok v implementaci zobrazení funkcí a editorů pro mobilní zařízení
    • Dokončení migrace funkčních schémat na pole Benjamin
    • Předané návrhy pro 'Text se záložním řešením'