추상 위키백과/관련 작업 및 이전 작업/자연어 생성

This page is a translated version of the page Abstract Wikipedia/Related and previous work/Natural language generation and the translation is 100% complete.
Other languages:
Bahasa Indonesia • ‎Deutsch • ‎English • ‎dansk • ‎français • ‎italiano • ‎русский • ‎ગુજરાતી • ‎ไทย • ‎한국어

추상 위키백과는 추상적 표현에서 자연어 텍스트를 생성합니다. 이것은 참신한 아이디어가 아니며 이전에 여러 번 시도되었습니다.

이 페이지는 다양한 기존 접근 방식을 수집하는 것을 목표로 합니다. 다양한 접근 방식의 핵심 아이디어와 장점과 단점, 기존 구현의 요점을 요약하려고합니다. 이 페이지(공동체별 및 공동체용)는 먼저 집중할 접근 방식을 선택하는 데 도움이 됩니다.

구현

Arria NLG
ASTROGEN
Chimera
Elvex
FUF/SURGE
Genl
GoPhi
Grammar Explorer
Grammatical Framework
  • 위키백과: Grammatical Framework [ en ] [ nn ]
  • 웹사이트: https://www.grammaticalframework.org/
  • 라이선스: GNU General Public License: see text
  • 지원되는 언어: Afrikaans, Amharic (partial), Arabic (partial), Basque (partial), Bulgarian, Catalan, Chinese, Czech (partial), Danish, Dutch, English, Estonian, Finnish, French, German, Greek ancient (partial), Greek modern, Hebrew (fragments), Hindi, Hungarian (partial), Interlingua, Italian, Japanese, Korean (partial), Latin (partial), Latvian, Maltese, Mongolian, Nepali, Norwegian bokmål, Norwegian nynorsk, Persian, Polish, Punjabi, Romanian, Russian, Sindhi, Slovak (partial), Slovene (partial), Somali (partial), Spanish, Swahili (fragments), Swedish, Thai, Turkish (fragments), and Urdu.
jsRealB
KPML
Linguistic Knowledge Builder
Multimodal Unification Grammar
NaturalOWL
NLGen and NLGen2
OpenCCG
rLDCP
RoseaNLG
Semantic Web Authoring Tool (SWAT)
SimpleNLG
SPUD
Suregen-2
Syntax Maker
TGen
Universal Networking Language
UralicNLP
  • 웹사이트: https://uralicnlp.com/
    https://github.com/mikahama/uralicNLP
  • 지원되는 언어: Finnish, Russian, German, English, Norwegian, Swedish, Arabic, Ingrian, Meadow & Eastern Mari, Votic, Olonets-Karelian, Erzya, Moksha, Hill Mari, Udmurt, Tundra Nenets, Komi-Permyak, North Sami, South Sami and Skolt Sami[1]

이론적 배경

 
위키데이터 제공

Natural language generation [ de ] [ en ] [ es ] [ fr ] [ 日本語 ] [ nn ] [ 中文 ] natural language processing의 하위 분야입니다. 주해에 대한 더 광범위한 주제를 참조하세요.[2]

파이프 라인 모델

2018년 조사에 의하면,[3] 가트(Gatt)[4]크래머(Krahmer)[5]natural language generation을 "비언어적 입력에서 텍스트 또는 음성을 생성하는 작업"으로 기술하기 시작했습니다. 그들은 6가지 하위 문제를 식별합니다(Reiter & Dale 1997, 2000 이후[6]) [2.NLG Tasks, pp. 70-82]:[3]

  1. Content determination (content determination (Q5165077))
  2. Text structuring (document structuring (Q5287648))
  3. Sentence aggregation (aggregation (Q4692263))
  4. Lexicalisation (lexical choice (Q6537688))
  5. Referring expression generation (referring expression generation (Q7307185))
  6. Linguistic realisation (realization (Q7301282))

위에 나열된 6개 주제에는 영어 위키백과(2020년 7월 24일 현재)에만 문서가 있습니다.

이 6가지 하위 문제는 "초기" 과제로 시작하여 언어 출력의 목적에 맞게 조정 된 "파이프 라인"의 세분화로 볼 수 있습니다. "후기" 과제는 최종 언어 형식에 더 적합합니다. 요약 양식은 "무엇(1), 순서(2) 및 세그먼트(3) 방법, 어떤 단어(4&5), 어떤 형식(6)으로"일 수 있습니다. 어휘화(4)는 이 요약 형식에서 "표현 생성 참조"(REG) (5)와 명확하게 구별되지 않습니다. REG의 핵심 아이디어는 반복과 모호함을 피하거나 충돌하는 목표 사이의 긴장을 관리하는 것입니다. 이것은 "발표자들은 그들의 기여가 교환 목적에 대해 충분히 유익한 지 확인해야하지만 그 이상은 안된다"라고 하는 그라이스의 대화격률(Grice, 1975[7])(또는 앨버트 아인슈타인 이후(1933) 이후 로저 세션스(1950)가 한 말: "모든 것은 가능한 한 단순해야하지만 더 단순해서는 안됩니다!")에 해당합니다.

Content determination

Document structuring

Aggregation

Lexical choice

Referring expression generation

Realization

"언어학에서 구현은 일종의 표층 구조가 기저 구조에서 파생되는 과정입니다. 즉, 언어 분석의 추상적인 대상이 실제 언어로 생성되는 방식입니다. 음소는 종종 언어음으로 "실현"된다고 합니다. 특정 음소를 인식할 수 있는 다양한 소리를 이음이라고 합니다."
"구현은 또한 자연어 생성의 하위 작업으로, 구문 표현에서 인간 언어(영어, 프랑스어 등)로 실제 텍스트를 생성하는 작업을 포함합니다."
영어 위키백과
(위키백과 기여자, “구현(Realization)”, 위키백과, 무료 백과사전, 22020년 5월 26일, 02:46 UTC, <https://en.wikipedia.org/w/index.php?title=Realization&oldid=958866516> [2020년 8월 31일 확인함].)


블랙 박스 접근 방식

이후 조사에서 Gârbacea와 Mei[8]는 NLG의 새로운 하위 분야로 “신경 언어 생성”을 제안했습니다. 설문 조사에 인용 된 11개의 논문에는 2016년 초(Édouard Grave, Armand Joulin, Nicolas Usunier)에 "신경 언어"가 포함 된 제목이 있습니다[9]. "신경 언어 생성"이 나타난 최초의 인용은 2017년 (Jessica Ficler 및 Yoav Goldberg)입니다[10].

2020년 중반에 "신경 언어 생성"은 언어 중립적 콘텐츠의 자연어 표현을 생성하는 데 사용할만큼 성숙하지 않았습니다.

각주

  • Jessica Ficler and Yoav Goldberg, 2017[10]
  • Édouard Grave, Armand Joulin, and Nicolas Usunier, 2016[9]
  • Gârbacea and Mei, 2020[8]
  • Gardent et al., 2017[11]
  • Gatt & Krahmer, 2018[3]
  • Grice, 1975[7]
  • Reiter & Dale, 2000[6] (PDF ends at the end of the first section.)

외부 링크

참고

  1. https://models.uralicnlp.com/nightly/
  2. The Scholia view on Natural-language generation lacked the standard sources and leading authors on 27 July 2020. Instead, see Google Scholar.
  3. a b c Gatt, Albert; Krahmer, Emiel (January 2018), "Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation", Journal of Artificial Intelligence Research 61: 65–170, archived from the original on 2020-06-23, retrieved 2020-07-24 
  4. Gatt's publications
  5. Emiel Krahmer (Q51689943) selected publications
  6. a b Reiter, EB; Dale, R (2000), Building Natural-Language Generation Systems. (PDF), Cambridge University Press., archived from the original (PDF) on 2019-07-11, retrieved 2020-07-27 
  7. a b Grice, H. Paul (1975), Logic and conversation (PDF), retrieved 2020-08-10 
  8. a b Gârbacea, Cristina; Mei, Qiaozhu, Neural Language Generation: Formulation, Methods, and Evaluation (PDF), pp. 1–70, retrieved 2020-08-08, Compared to the survey of (Gatt and Krahmer, 2018), our overview is a more comprehensive and updated coverage of neural network methods and evaluation centered around the novel problem definitions and task formulations. 
  9. a b Grave, Édouard; Joulin, Armand; Usunier, Nicolas (2016), Improving neural language models with a continuous cache (PDF) 
  10. a b Ficler, Jessica; Goldberg, Yoav (2017), "Controlling linguistic style aspects in neural language generation" (PDF), Proceedings of the Workshop on Stylistic Variation: 94–104 . Published slightly earlier that year was Van-Khanh Tran and Le-Minh Nguyen. 2017.
    Ficler, Jessica; Goldberg, Yoav (2017), Semantic Refinement GRU-based Neural Language Generation for Spoken Dialogue Systems (PDF) 
  11. Gardent, Claire; Shimorina, Anastasia; Narayan, Shashi; Perez-Beltrachini, Laura (2017), "The WebNLG Challenge: Generating Text from RDF data." (PDF), Proceedings of the 10th International Conference on Natural Language Generation: 124–133