Abstraktní Wikipedie/Aktualizace/2022-06-21
◀ | Aktualizace Abstraktní Wikipedie | ▶ |
Komunity budou pomocí abstraktní Wikipedie vytvářet (přinejmenším) dva různé typy článků: na jedné straně budeme mít vysoce standardizované články založené výhradně na Wikidatech, tzv. modelové články, a na druhé straně budeme mít ručně vytvořený obsah na míru, sestavený větu po větě. Dnes se budeme zabývat druhým typem, poté co jsme v předchozím newsletteru probrali první typ, modelové články. Oba typy lze mimochodem implementovat pomocí konceptu "šablonových vykreslovačů", který je součástí návrhu Ariela Gutmana. Srovnání obou typů také věnujeme jeden z příštích newsletterů.
U ručně sestavovaných článků musíme učinit mnohem více předpokladů o tom, co bude nakonec ve Wikifunkcích k dispozici, než u článků založených na modelech. Následující popis si neklade za cíl předepisovat komunitě, jak by věci měly fungovat, ale poskytuje pouze nástin jedné z možností. Je založen na "Experiment s Čarodějem ze země Oz", který jsme provedli během našeho nedávného offline setkání týmu Abstraktní Wikipedie.
Vzali jsme první větu z částečně náhodně vybraného článku s cílem ručně vytvořit reprezentaci této věty v abstraktní Wikipedii. Často je těžší zjistit, jak překládat články o myšlenkách než o konkrétnějších věcech, jako jsou lidé, místa a předměty. Věta pochází z anglického článku Profit (economics) na Wikipedii, který jsme vybrali jako běžný příklad pojmu:
An economic profit is the difference between the revenue a commercial entity has received from its outputs and the opportunity costs of its inputs.
Všimněte si, že neočekáváme, že anglická Wikipedie bude zdrojem všech článků pro abstraktní Wikipedii, ale určitě je pro tým vhodným zdrojem inspirace, protože všichni mluvíme anglicky. Jako základ jsme každý z nás ručně přeložili tento text do jazyků, které ovládáme.
Jedním z mocných, ne-li nejmocnějších nástrojů v našem arzenálu, jak tuto větu proměnit v abstraktní obsah, je to, že ji můžeme přepsat a zjednodušit. V abstraktní Wikipedii není cílem co nejvěrněji přeložit znění všech existujících článků Wikipedie, ale zachytit co nejvíce z významu článků. Proto jsme si dovolili větu přepsat takto:
In economics, the profit of a commercial entity is defined as the difference between its outputs’ revenue and its inputs’ opportunity cost.
Z důvodu časové tísně jsme větu dále zkrátili, a to jednoduše:
In economics, profit is defined as the difference between revenue and cost.
Z toho jsme pak sestavili následující abstraktní obsah.
Kontext
- kontext: economics
- obsah: Definice
- subjekt: profit
- definice: Rozdíl
- první: income
- druhý: operating cost
Tučný text je označení konstruktoru, kurzívou je označení klíče daného konstruktoru a odkaz ukazuje na položku Wikidat. Navazuje na zápis použitý v předchozích příkladech. Stejně jako u předchozích příkladů předpokládáme dostupnost použitých konstruktorů. Abychom byli konkrétní, v tomto případě předpokládáme níže uvedené konstruktory s jejich příslušnými klíči. To, jak by se klíče nebo konstruktory jmenovaly a vlastně i to, které konstruktory a klíče by vůbec existovaly, se může velmi lišit.
Kontext vrací celou větu představující podřazenou větu, která je zařazena do kontextu
- kontext je podstatné jméno, které popisuje kontext, v němž se obsah nachází
- obsah přebírá klauzuli, která je zasazena do kontextu
Definice vrací úplnou klauzuli definující něco jako definici
- subjekt přebírá podstatné jméno, které je definováno
- definice přebírá podstatné jméno, které představuje definici
Difference vrátí podstatný výraz, který znamená kvantitativní rozdíl mezi dvěma danými podstatnými jmény
- první přebírá podstatné jméno, který představuje první část
- druhý přebírá podstatné jméno, které představuje druhou část.
Tam, kde jsme výše zmínili "podstatné jméno", máme ve skutečnosti na mysli "koncept, který lze realizovat jako podstatné jméno pomocí rendereru". Také jsme pominuli značnou náročnost mechanismu, pomocí kterého by renderer mohl jednoduše převzít položku Wikidat a přeměnit ji na podstatné jméno. To je výzva, se kterou se Mahir obdivuhodně vypořádal s pomocí Ninai a Udiron.
Další výzvou bylo najít správné položky Wikidat pro každé z příslušných podstatných jmen. Například pro druhý klíč konstruktoru Rozdíl jsme zvolili provozní náklady. Dalšími kandidáty mohly být náklady nebo náklady obětované příležitosti. Opět to nemusí být nutně nejlepší volba, ale pouze ta, která nás napadla vzhledem k našim časovým omezením a způsobu, jakým jsme k úloze přistupovali.
Posledním krokem cvičení bylo vzít tento abstraktní obsah a co nejmechaničtěji vykreslit (ručně) text v přirozeném jazyce v jazycích, kterými mluvíme, s využitím popisků vybraných položek Wikidat (mělo jít o lexémy spojené s položkami, ale to bylo příliš řídké). Tento krok je důvodem, proč jsme celé cvičení nazvali experimentem "Čaroděj ze země Oz", protože zde simulujeme to, co by udělaly renderery ve Wikifuncích.
Zde jsou některé výsledky (bohužel jsme nezaznamenali výsledky, ke kterým jsme dospěli během offsite, takže jsme je znovu vytvořili pro tento zpravodaj):
Angličtina: In economics, economic profit is defined as the difference between income and operating cost.
Němčina: In Wirtschaftswissenschaft ist Gewinn definiert als der Unterschied zwischen Einkommen und Betriebskosten.
Chorvatština: U ekonomiji, dobit je definiran kao razlika između dohodka i troška*.
Ruština: В экономике, экономическая прибыль определяется как разница между доходом и операционными затратами.
Francouzština: En économie, le profit est défini comme la différence entre les revenus et les dépenses d'exploitation.
Španělština: En economía, ganancia económica se define como la diferencia entre ingresos y costes*.
Kannadština: ಅರ್ಥಶಾಸ್ತ್ರದಲ್ಲಿ, ಆರ್ಥಿಕ ಲಾಭವನ್ನು ಆದಾಯ ಮತ್ತು ನಿರ್ವಹಣಾ ವೆಚ್ಚದ ನಡುವಿನ ಅಂತರವೆಂದು ವ್ಯಾಖ್ಯಾನಿಸಲಾಗಿದೆ.
Čínština: 在经济学中,经济利润被定义为收入与经营成本之间的差额。
Hebrejština: בכלכלה, רווח מוגדר כהפרש בין הכנסה להוצאות תפעוליות.
Švédština: I nationalekonomi definieras vinst som skillnaden mellan inkomst och Opex.
Italština: In economia, il profitto è definito come la differenza fra il reddito e i costi operativi*.
Arabština: في الاقتصاد*، يتم تعريف الربح على أنه الفرق بين الدخل المالي والمصروفات الجارية.
Slova označená hvězdičkou jsme přeložili ručně, protože v té době neměla ve Wikidatech popisek, nebo se k nim popisek nehodil.
Během offline setkání jsme vyhodnotili výsledky a zjistili, že jsou nejen čitelné (i když ne dokonalé), ale také srozumitelnější než náš původní překlad. To je pravděpodobně důsledek procesu zjednodušení, kterým text prošel. Celý experiment nás naplnil optimismem ohledně tohoto přístupu.
Tento zpravodaj se opozdil kvůli množství interních diskusí, které vyvolal. Neočekávejte, že všichni v týmu budou souhlasit se vším, co je zde uvedeno. Myslíme si, že tyto diskuse by měly být otevřené, aby se do nich mohl zapojit každý. Očekávejte, že další budou následovat.
Další novinky:
Další podporu nám poskytují techničtí spisovatelé (technical writers) společnosti ThisDot: Dva techničtí spisovatelé ThisDot se připojí k týmu na zbytek června, aby zjistili, jak uživatelům přiblížit koncept funkcí a jak jim snadno přeložitelným způsobem sdělit, co jsou funkce a jak fungují.
Níže je uveden stručný týdenní přehled s důrazem na stav každého pracovního procesu.
Výkon:
- Vypracování návrhu dokumentu o výkonnostních ukazatelích
- Zahájení výzkumu hlášené pomalosti při vyhodnocování funkcí
- Přidání logování a dashboardingu do Beta clusteru a napsání dokumentace k Beta clusteru
NLG:
- Napsali jsme Proof of Concept podpory nových funkcí Wikifunkcí pro podporu navrhovaných pipelines NLG
Meta-data:
- Změněny vrstvy MediaWiki v PHP a Vue pro práci s oběma formáty
- Zajištění, aby žádný testovací kód/případ funkce-orchestrátoru nepoužíval starý formát
Zkušenosti:
- WikiLambda PHP a Function-schemata byly dokončeny a sloučeny
- Design: pokračovat v práci na zobrazení psaného seznamu
- Front-end: přizpůsobení kódů ISO mobilním zařízením a zahájení implementace komponent tabulky