추상 위키백과/업데이트/2022-08-19
◀ | 추상 위키백과 업데이트 | ▶ |
Google.org 펠로우인 아리엘 구트만은 안식년의 일부를 추상 위키백과의 자연어 생성 워크스트림으로 작업하고 있는 마리아 키트 교수와 함께 최근 틀 언어에 대한 자세한 사양을 작성했습니다. 이것은 위키함수 기여자가 추상 콘텐츠의 렌더러를 쉽게 만들 수 있도록 하는 것을 목표로 합니다. 예를 들어, 개체 Q7259는 위키데이터에서 주장된 Q5482740을 가리키는 속성 P106을 가지고 있으며 모든 기계가 제자리에 있으면 "아다 러브레이스는 프로그래머였습니다"와 같이 렌더링할 수 있습니다. 틀 언어는 구조화된 콘텐츠가 선택한 자연어의 텍스트로 표시될 수 있도록 문장을 생성하기 위한 구조를 지정하는 데 도움이 됩니다.
아키텍처 제안에서 모든 생성자(일반적으로 단일 구 또는 문장 구조의 의미를 포착하는 것을 목표로 함)가 특정 틀과 일치하여 해당 생성자를 텍스트로 렌더링한다는 것을 기억할 수 있습니다. 틀은 위키함수에 있으며 렌더러 역할을 할 수 있도록 합성 구문으로 구문 분석됩니다. 이 파서의 초기 버전은 이미 위키함수 CLI 도구의 일부로 구현되어 있으며, 이를 가지고 놀 수 있습니다.
이 틀은 어떻게 생겼습니까? 틀은 텍스트와 슬롯의 조합으로, 슬롯은 위키함수의 다른 틀이나 함수를 참조할 수 있어 동적 콘텐츠를 허용합니다. 문법적 제약 조건의 지정은 슬롯 내 레이블로 지정된 종속 관계(예: 문법 주석에 대한 UD 형식 사용)를 통해 수행됩니다. 텍스트의 경우 렌더링 내내 그대로 유지되는 정적 텍스트를 나타내거나 인접 구문 및 음운 제약 조건에 따라 다른 형식을 취할 수 있는 어휘를 나타낼 수 있습니다.
우선, 사람의 나이를 설명하는 문장을 생성하는 예제 틀을 살펴보겠습니다. "Dan은 20살입니다.", 두 개의 필드가 있는 생성자가 주어졌을 때: entity
(사람의 Q-id) 및 years
(나이). 영어에서 이 틀은 다음과 같습니다:
{Person(entity)} is {nummod:Cardinal(years)} {root:Lexeme(L2505)} old.
중괄호로 구분된 세 개의 슬롯이 있습니다:
{Person(entity)}
는 사람의 이름으로 해석됩니다.{nummod:Cardinal(years)}
은 연도로 확인됩니다. 세 번째 슬롯의 "numeral modifier"로 표시됩니다.{root:Lexeme(L2505)}
는 어휘소 "year"를 참조하는 위키데이터 Lexeme L2505에서 가져옵니다. 슬롯이root
로 표시되기 때문에 이전 슬롯에 연결되어 올바른 형태의 어휘인 "year" 또는 "years"를 선택할 수 있습니다.
템플릿의 나머지 텍스트("is"
및 "old"
)는 이 경우 정적 텍스트입니다. 다른 경우에는 동사도 굴절될 수 있음을 지정해야 하거나 숫자를 적절하게 렌더링하기 위해 추가 처리가 필요할 수 있습니다. 그리고 문장의 구성 요소에 걸쳐 주어-동사 일치 및 기타 유형의 일치를 표시하기 위해 유사한 종속성 레이블을 사용할 것입니다.
문서에서 유사한 예가 더 복잡하지만 4개의 다른 언어(스웨덴어, 프랑스어, 히브리어 및 줄루어)에 대해 제공되며 각각 고유한 특성과 과제를 제시하지만 제안된 템플릿 언어로 성공적으로 캡처할 수 있습니다. 문서를 읽고 피드백을 제공하고 이 형식을 사용하여 렌더링하기 어려울 수 있는 다른 언어로 된 도전적인 예를 생각해 보시기 바랍니다. 그래서 우리는 그것을 개선하고 이상적으로는 사용되는 모든 자연어에 가능한 한 가장 광범위한 적용을 달성할 수 있습니다.
위키마니아 2022
지난 주는 위키마니아 2022로 전 세계의 위키미디어인들이 만나 토론하는 연례 행사였습니다. 위키함수에 대한 두 개의 세션이 있었습니다. 하나는 팀이 이끄는 위키함수에 대한 세션이었고 다른 하나는 마히르 모르셰드가 이끄는 니나이와 우디론에 대한 세션이었습니다.
세션은 데니의 위키함수에 대한 간략한 소개와 여러 팀 구성원이 서로 다른 주제에 대해 간략하게 설명하는 사전 녹화된 섹션으로 구성되었습니다.
우리는 가졌습니다:
- 기술 아키텍처의 제임스 포레스터
- 디자인 언어의 아민 알 하즈와니
- 콘텐츠 모델의 제노바 갈라자 헤레데로
- Codex의 줄리아 키저만
- 지식 형평성에 관한 코리 마사로
- 자연어 생성에 관한 아리엘 쿠트만, 위 뉴스레터의 첫 부분 소개
- 함수 모델을 공식화하는 알리 아사프
공용에서 이 사전 녹화된 부분을 볼 수 있습니다.
모든 위키마니아 세션과 마찬가지로 공동 메모가 활성화되었습니다. 세션에 대한 메모에는 비디오에 이어 세션의 마지막 부분에서 묻고 답변된 모든 질문이 포함되어 있습니다. 세션의 전체 비디오는 유튜브에서 볼 수 있지만 사전 녹화된 비디오를 재생하는 데는 여러 가지 기술적인 문제가 있습니다. 대신 공용 비디오로 건너뛸 수 있습니다. 개별 세션의 업로드는 나중에 사용할 수 있을 것으로 예상됩니다.
마히르 모르셰드는 니나이와 우디론에 대한 위키마니아 세션을 갖고 여기에서 녹음을 시작합니다. 니나이와 우디론은 자연어 생성을 위한 도구이며 이전 뉴스레터에서 소개했습니다.
2022년 8월 12일 현재 워크스트림 업데이트
성능
- 성능 분석 방법론 문서화 시작
- 위키람다에 대한 상태 확인 API 엔드포인트 설정
자연어 생성
- 팀원들의 휴가로 인해 진척이 별로 없다. 줄루어, 음보시, 키스와힐리어에 대한 명사 클래스 정보 추가 시작
메타 데이터
- 테스터 페이지에 메타데이터 대화 상자 표시 완료
- ZMaps용 몇 가지 새로운 PHP 유틸리티 생성
경험
- 수정 및 병합된 베타 실행 차단기
- 다양한 버그 수정에 큰 진전
- 다양한 옵션을 연구하기 시작했습니다.