추상 위키백과/업데이트/2022-06-21
◀ | 추상 위키백과 업데이트 | ▶ |
커뮤니티는 추상 위키백과를 사용하여 (최소한) 두 가지 다른 유형의 문서를 작성합니다. 한편으로 우리는 모델 기사라고 하는 전적으로 위키데이터에 기반한 고도로 표준화된 문서를 갖게 될 것입니다. 다른 한편으로, 우리는 문장별로 조립된 맞춤형, 손으로 만든 콘텐츠를 갖게 될 것입니다. 오늘은 이전 뉴스레터에서 첫 번째 유형인 모델 문서에 대해 논의한 후 두 번째 유형에 대해 논의할 것입니다. 그런데 두 유형 모두 아리엘 구트만 제안의 일부인 "템플릿 렌더러" 개념으로 구현할 수 있습니다. 우리는 또한 두 가지 유형의 비교에 대한 향후 뉴스레터를 할애할 것입니다.
수기로 편집된 문서의 경우, 우리는 모델 기반 문서보다 위키함수에서 궁극적으로 사용할 수 있는 것에 대해 더 많은 가정을 해야 합니다. 다음 설명은 일이 어떻게 작동해야 하는지 커뮤니티에 규정하기 위한 것이 아니라 가능성의 스케치를 제공합니다. 최근 추상 위키백과 팀 외부에서 수행한 "오즈의 마법사 실험"을 기반으로 합니다.
추상 위키백과에서 해당 문장의 표현을 손으로 만들기 위해 반 무작위로 선택한 문서에서 첫 번째 문장을 가져왔습니다. 사람, 장소, 사물과 같은 보다 구체적인 것보다 아이디어에 대한 기사를 번역하는 방법을 보는 것이 더 어려운 경우가 많습니다. 이 문장은 영어 위키백과 문서 이익(경제학)에서 나온 것으로, 우리가 개념의 일반적인 예로 선택한 다음과 같습니다:
An economic profit is the difference between the revenue a commercial entity has received from its outputs and the opportunity costs of its inputs.
영어 위키백과가 추상 위키백과의 모든 문서에 대한 출처가 될 것이라고 기대하지는 않지만, 우리 모두가 영어를 사용한다는 점을 감안할 때 확실히 팀에게 편리한 영감의 소스입니다. 기준으로 우리는 각각 해당 텍스트를 우리가 사용하는 언어로 수동으로 번역했습니다.
이 문장을 추상적인 내용으로 바꾸는 가장 강력한 도구는 아닐지라도 우리가 그것을 다시 작성하고 단순화할 수 있다는 것입니다. 추상 위키백과의 목표는 기존 위키백과 문서의 표현을 가능한 한 충실하게 번역하는 것이 아니라 문서의 의미를 최대한 포착하는 것입니다. 그래서 우리는 다음과 같이 문장을 다시 쓸 자유를 얻었습니다:
In economics, the profit of a commercial entity is defined as the difference between its outputs’ revenue and its inputs’ opportunity cost.
시간 제약으로 인해 다음과 같이 문장을 더욱 줄였습니다:
In economics, profit is defined as the difference between revenue and cost.
우리는 이것으로부터 다음과 같은 추상 콘텐츠를 모았습니다.
맥락
- "맥락": economics
- "콘텐츠": 정의
- "주어": profit
- "정의": 차이
- "첫째": income
- "둘째": operating cost
여기서 굵은 텍스트는 생성자의 레이블이고 기울임꼴 텍스트는 지정된 생성자의 키 레이블이며 링크는 위키데이터 항목을 가리킵니다. 이는 이전 예에서 사용된 표기법을 따릅니다. 이전 예제와 마찬가지로 사용된 생성자의 가용성을 가정합니다. 명시적으로, 이 경우 우리는 각각의 키와 함께 아래에 나열된 생성자를 가정합니다. 키 또는 생성자의 이름이 지정되는 방식과 실제로 존재하는 생성자와 키가 매우 다를 수 있습니다.
컨텍스트는 컨텍스트에 배치되는 종속 절을 나타내는 전체 절을 반환합니다.
- "컨텍스트"는 내용이 있는 컨텍스트를 기술하는 명사구를 취합니다
- "컨텐츠"는 컨텍스트에 들어가는 절을 취합니다.
정의는 무언가를 정의로 정의하는 전체 절을 반환합니다.
- "주어"는 정의되고 있는 명사구를 취합니다.
- "정의"는 정의를 나타내는 명사구를 취합니다
차이는 주어진 두 명사구 사이의 양적 차이를 의미하는 명사구를 반환합니다.
- "첫째"는 첫 번째 부분을 나타내는 명사구를 취합니다.
- "둘째"는 두 번째 부분을 나타내는 명사구를 취합니다.
위에서 "명사구"를 언급한 경우 실제로 "렌더러에 의해 명사구로 실현될 수 있는 개념"을 의미합니다. 또한, 우리는 렌더러가 위키데이터 항목을 가져와 명사로 바꿀 수 있는 메커니즘을 갖는 상당한 어려움을 간과했습니다. 그것은 마히르가 니나이와 우디론과 함께 훌륭하게 해결한 도전입니다.
또 다른 과제는 관련된 각 명사구에 대해 올바른 위키데이터 항목을 찾는 것이었습니다. 예를 들어, 차이 생성자의 두 번째 키에 대해 운영 비용을 선택했습니다. 다른 후보는 비용 또는 기회 비용이 될 수 있습니다. 다시 말하지만, 이것이 반드시 최선의 선택은 아니지만 시간 제약과 작업에 접근하는 방식을 감안할 때 생각해낸 것입니다.
연습의 마지막 단계는 추상적인 내용을 취하고 선택한 위키데이터 항목의 레이블을 사용하여 가능한 한 기계적으로 우리가 사용하는 언어로 자연어 텍스트를 (손으로) 렌더링하는 것입니다(어휘 항목에 연결되었지만 너무 희소했습니다). 여기에서 위키함수의 렌더러가 수행하는 작업을 시뮬레이션하기 때문에 이 단계에서 전체 연습을 "오즈의 마법사" 연습이라고 불렀습니다.
다음은 몇 가지 결과입니다(불행히도 오프사이트에서 얻은 결과를 기록하지 않았기 때문에 이 뉴스레터를 위해 다시 만들었습니다):
"영어": In economics, economic profit is defined as the difference between income and operating cost.
"독일어": In Wirtschaftswissenschaft ist Gewinn definiert als der Unterschied zwischen Einkommen und Betriebskosten.
"크로아티아어": U ekonomiji, dobit je definiran kao razlika između dohodka i troška*.
"러시아어": В экономике, экономическая прибыль определяется как разница между доходом и операционными затратами.
"프랑스어": En économie, le profit est défini comme la différence entre les revenus et les dépenses d'exploitation.
"스페인어": En economía, ganancia económica se define como la diferencia entre ingresos y costes*.
"칸나다어": ಅರ್ಥಶಾಸ್ತ್ರದಲ್ಲಿ, ಆರ್ಥಿಕ ಲಾಭವನ್ನು ಆದಾಯ ಮತ್ತು ನಿರ್ವಹಣಾ ವೆಚ್ಚದ ನಡುವಿನ ಅಂತರವೆಂದು ವ್ಯಾಖ್ಯಾನಿಸಲಾಗಿದೆ.
"중국어": 在经济学中,经济利润被定义为收入与经营成本之间的差额。
"히브리어": בכלכלה, רווח מוגדר כהפרש בין הכנסה להוצאות תפעוליות.
"스웨덴어": I nationalekonomi definieras vinst som skillnaden mellan inkomst och Opex.
"이탈리아어": In economia, il profitto è definito come la differenza fra il reddito e i costi operativi*.
"아랍어": في الاقتصاد*، يتم تعريف الربح على أنه الفرق بين الدخل المالي والمصروفات الجارية.
별표로 표시된 단어는 당시 위키데이터에 레이블이 없거나 레이블이 맞지 않았기 때문에 저희가 수동 번역한 것입니다.
오프사이트 동안 우리는 결과를 평가했고, 실제로 읽을 수 있을 뿐만 아니라(완벽하지는 않지만) 초기 번역보다 이해하기 쉽다는 것을 발견했습니다. 이것은 텍스트가 겪은 단순화 과정의 효과일 가능성이 높습니다. 전체 연습을 통해 우리는 접근 방식에 대한 낙관론으로 가득 차게 되었습니다.
"이 뉴스레터는 내부적으로 발생한 토론의 양으로 인해 늦었습니다. 팀의 모든 사람이 여기에서 말하는 모든 것에 동의할 것이라고 기대하지 마세요. 우리는 이러한 토론이 모든 사람이 참여할 수 있도록 공개되어야 한다고 생각합니다. 더 많은 것을 기대하세요."
추가 업데이트:
ThisDot 기술 작성자의 추가 지원을 받고 있습니다. 두 명의 ThisDot 기술 작성자가 6월 남은 기간 동안 팀에 합류하여 사용자를 기능 개념으로 온보딩하는 방법과 기능이 무엇이며 어떻게 사용자에게 전달할지 알아낼 것입니다. 그들은 쉽게 번역할 수 있는 방식으로 작동합니다.
다음은 각 작업 흐름의 상태를 강조하는 간단한 주간 요약입니다.
성능:
- 성과 지표 문서 초안 작성
- 함수 평가에서 보고된 느림에 대한 연구 시작
- 베타 클러스터에 로깅 및 대시보드 추가 및 베타 클러스터에 대한 문서 작성
NLG:
- 제안된 NLG 파이프라인을 지원하기 위해 새로운 위키함수 기능에 대한 지원 개념 증명을 작성했습니다.
메타 데이터:
- 변경된 미디어위키 PHP 및 두 형식 중 하나를 처리하는 Vue 레이어
- 기능 조정자 테스트 코드/케이스가 이전 형식을 사용하지 않도록 보장
경험:
- 위키람다 PHP 및 함수 스키마 완료 및 병합
- 디자인: 입력된 목록 보기에서 계속 작업
- 프런트 엔드: ISO 코드를 모바일 친화적으로 만들고 테이블 구성 요소 구현을 시작했습니다.