Wikipedia Abstrak/Pekerjaan terkait dan sebelumnya/Penghasil bahasa alami
Wikipedia Abstrak akan membuat teks bahasa natural dari sebuah representasi abstrak. Ini bukanlah ide baru, dan telah dicoba beberapa kali sebelumnya.
Halaman ini bertujuan mengumpulkan pendekatan-pendekatan berbeda yang sudah ada. Halaman ini mencoba meringkas ide-ide inti dari pendekatan-pendekatan yang berbeda, kelebihan dan kekurangan mereka, dan mengarahkan ke implementasi yang ada. Halaman ini (oleh dan untuk komunitas) akan membantu memilih pendekatan mana yang difokuskan terlebih dahulu.
Implementasi
- Arria NLG
- Wikipedia: Arria NLG [ de ] [ en ] [ nn ]
- Situs web: https://www.arria.com/
- Lisensi: Proprietary, 30 patents apply
- Bahasa yang didukung: English
- ASTROGEN
- Chimera
- Situs web: https://github.com/AmitMY/chimera
- Lisensi: MIT License
- Elvex
- Situs web: https://github.com/lionelclement/Elvex
- FUF/SURGE
- Situs web: https://www.cs.bgu.ac.il/~elhadad/surge
- Genl
- Situs web: http://kowey.github.io/GenI/
- GoPhi
- Situs web: https://github.com/rali-udem/gophi
- Grammar Explorer
- Situs web: http://www.fb10.uni-bremen.de/anglistik/langpro/kpml/tutorials/Grexplorer/grexplorer.html
- Grammatical Framework
- Wikipedia: Grammatical Framework [ en ] [ nn ]
- Situs web: https://www.grammaticalframework.org/
- Lisensi: GNU General Public License: see text
- Bahasa yang didukung: Afrikaans, Amharic (partial), Arabic (partial), Basque (partial), Bulgarian, Catalan, Chinese, Czech (partial), Danish, Dutch, English, Estonian, Finnish, French, German, Greek ancient (partial), Greek modern, Hebrew (fragments), Hindi, Hungarian (partial), Interlingua, Italian, Japanese, Korean (partial), Latin (partial), Latvian, Maltese, Mongolian, Nepali, Norwegian bokmål, Norwegian nynorsk, Persian, Polish, Punjabi, Romanian, Russian, Sindhi, Slovak (partial), Slovene (partial), Somali (partial), Spanish, Swahili (fragments), Swedish, Thai, Turkish (fragments), and Urdu.
- jsRealB
- KPML
- Situs web: http://www.fb10.uni-bremen.de/anglistik/langpro/kpml/README.html
- Bahasa yang didukung: (2014):
- More advanced: Czech, English, German?, Spanish
- Prototype: Bulgarian, Chinese, Dutch, Portuguese, Russian
- Less advanced: French, Greek, Japanese
- Linguistic Knowledge Builder
- Situs web: http://moin.delph-in.net/LkbTop
- Multimodal Unification Grammar
- NaturalOWL
- NLGen and NLGen2
- OpenCCG
- Situs web: http://openccg.sourceforge.net/
- rLDCP
- RoseaNLG
- Situs web: https://rosaenlg.org/
- Bahasa yang didukung: English, French, German and Italian
- Semantic Web Authoring Tool (SWAT)
- Wikipedia: WYSIWYM [ en ] [ nn ] A SWAT is a tool that implements the WYSIWYM (what you see is what you meant) interaction technique for developing formal representations based on successive refinements (by humans) of NLG outputs.
- Situs web: http://mcs.open.ac.uk/nlg/SWAT/
- Bahasa yang didukung: OWL Simplified English
- SimpleNLG
- Situs web: https://github.com/simplenlg/simplenlg
- Bahasa yang didukung: English, French
- SPUD
- Situs web: https://www.cs.rutgers.edu/~mdstone/nlg.html
- Suregen-2
- Situs web: http://www.suregen.de/index.html
- Bahasa yang didukung: German, English
- Syntax Maker
- Situs web: https://github.com/mikahama/syntaxmaker
- Bahasa yang didukung: Finnish
- TGen
- Situs web: https://github.com/UFAL-DSG/tgen
- Universal Networking Language
- UralicNLP
- Situs web: https://uralicnlp.com/
https://github.com/mikahama/uralicNLP - Bahasa yang didukung: Finnish, Russian, German, English, Norwegian, Swedish, Arabic, Ingrian, Meadow & Eastern Mari, Votic, Olonets-Karelian, Erzya, Moksha, Hill Mari, Udmurt, Tundra Nenets, Komi-Permyak, North Sami, South Sami and Skolt Sami[1]
Latar belakang teori
Natural language generation [ de ] [ en ] [ es ] [ fr ] [ 日本語 ] [ nn ] [ 中文 ] adalah subbidang dari natural language processing. Lihatlah topik yang lebih luas di Scholia.[2]
Model saluran pipa
Dalam survey 2018 mereka, [3] Gatt[4] dan Krahmer[5] dimulai dengan menggambarkan natural language generation sebagai "pekerjaan menghasilkan teks atau ucapan dari masukan non-linguistik." Mereka menetapkan enam submasalah (setelah Reiter & Dale 1997, 2000[6]) [2.NLG Tasks, pp. 70-82]:[3]
- Content determination (content determination (Q5165077))
- Text structuring (document structuring (Q5287648))
- Sentence aggregation (aggregation (Q4692263))
- Lexicalisation (lexical choice (Q6537688))
- Referring expression generation (referring expression generation (Q7307185))
- Linguistic realisation (realization (Q7301282))
Perhatikan bahwa keenam topik yang didaftarkan di atas hanya punya artikel di Wikipedia bahasa Inggris (24 Juli 2020).
Keenam submasalah ini bisa dipandang sebagai pembagian dari “saluran pipa”, dimulai dari pekerjaan “awal”, disesuaikan dengan maksud keluaran lingustiknya. Pekerjaan “akhir” lebih disesuaikan dengan bentuk linguistik akhirnya. Bentuk ringkasannya bisa ditulis “Apa (1), bagaimana diurutkan (2) dan dibagi-bagi (3), dengan kata apa (4&5) dan dalam bentuk apa(6)”. Leksikalisasi (4) tidak jelas bedanya dengan “penghasilan ekspresi pengacu” (referring expression generation, REG) (5) dalam bentuk ringkasan ini. Ide kunci selama REG adalah menghindari pengulangan dan ambiguitas, atau mengelola tensi antara sasaran-sasaran yang bertentangan. Ini bersesuaian dengan maksim Grice (Grice, 1975[7]) yang mengatakan bahwa “para pembicara sebaiknya memastikan bahwa kontribusi mereka cukup informatif untuk tujuan percakapan, tetapi tidak lebih dari itu” (atau, sebagaimana dikatakan Roger Sessions (1950) mengikuti Albert Einstein (1933): “semua hal harus sesederhana mungkin tetapi tidak lebih sederhana dari itu!”).
Content determination
Document structuring
Aggregation
Lexical choice
Referring expression generation
Realization
- “Dalam linguistik, realisasi adalah proses di mana suatu bentuk representasi permukaan diturunkan dari representasi dasarnya; artinya, bagaiamana cara beberapa objek abstrak analisis linguistik dihasilkan dalam bahasa sebenarnya. Fonem sering disebut direalisasikan oleh bunyi bahasa. Bunyi beragam yang dapat merealisasikan suatu fonem tertentu disebut alofon fonem tersebut.”
- "Realisasi juga merupakan subpekerjaan dari penghasil bahasa alami, yang merupakan pembuatan teks aktual dalam bahasa manusia (bahasa Inggris, Prancis, dll.) dari sebuah representasi sintaksis."
- Wikipedia bahasa Inggris
- (Kontributor Wikipedia, “Realization”, Wikipedia, Ensiklopedia Bebas, 26 Mei 2020, 02:46 UTC, <https://en.wikipedia.org/w/index.php?title=Realization&oldid=958866516> [diakses pada 31 Agustus 2020].)
Pendekatan kotak hitam
Dalam survey setelahnya, Gârbacea dan Mei[8] mengusulkan “Penghasil bahasa saraf” (Neural language generation) sebagai subbidang baru dari NLG. Sebelah karya yang dirujuk dalam survei mereka memiliki judul yang mengandung frasa "bahasa saraf" (neural language), yang paling awal berasal dari tahun 2016 (Édouard Grave, Armand Joulin, and Nicolas Usunier)[9]. Sitasi tertua yang mengandung frasa “neural language generation” berasal dari tahun 2017 (Jessica Ficler dan Yoav Goldberg)[10].
Pada pertengahan tahun 2020, "penghasil bahasa saraf" tidak cukup dewasa untuk digunakan untuk menghasilkan bentuk bahasa alami dari konten bebas bahasa.
Referensi
- Jessica Ficler and Yoav Goldberg, 2017[10]
- Édouard Grave, Armand Joulin, and Nicolas Usunier, 2016[9]
- Gârbacea and Mei, 2020[8]
- Gardent et al., 2017[11]
- Gatt & Krahmer, 2018[3]
- Grice, 1975[7]
- Reiter & Dale, 2000[6] (PDF ends at the end of the first section.)
Pranala luar
- ACL Special Interest Group on Natural Language Generation ACL is the Association for Computational Linguistics.
- Ehud Reiter's Blog Ehud Reiter has no English Wikipedia page (apart from his user page).
- Natural Language Generation (CLAN Group), School of Natural and Computing Sciences, The University of Aberdeen.
- Institute for Language, Cognition and Computation (ILCC), School of Informatics, The University of Edinburgh.
- Harvard NLP, Harvard University.
- The Interaction Lab, School of Mathematical and Computer Sciences, Heriot-Watt University.
- Institute of Linguistics and Language Technology, University of Malta (Albert Gatt, Director).
- The Open University Natural Language Generation Group.
- TALN Research Group, Department of Information and Communication Technologies,Universitat Pompeu Fabra, Barcelona.
- The Natural Language Processing Group, The University of Sheffield.
- The Natural Language Group, Information Sciences Institute, University of Southern California.
- SyNaLP (Symbolic and statistical NLP), Laboratoire Lorrain d'Informatique et ses Applications (LORIA).
- Paul G. Allen School of Computer Science and Engineering, University of Washington.
Catatan
- ↑ https://models.uralicnlp.com/nightly/
- ↑ Pandangan Scholia mengenai penghasil bahasa natural kekurangan sumber standar dan penulis terkemuka pada 27 Juli 2020. Sebaiknya, lihatlah Google Scholar.
- ↑ a b c Gatt, Albert; Krahmer, Emiel (January 2018), "Survey of the State of the Art in Natural Language Generation: Core tasks, applications and evaluation", Journal of Artificial Intelligence Research 61: 65–170, archived from the original on 2020-06-23, retrieved 2020-07-24
- ↑ publikasi Gatt
- ↑ Emiel Krahmer (Q51689943) publikasi terpilih
- ↑ a b Reiter, EB; Dale, R (2000), Building Natural-Language Generation Systems. (PDF), Cambridge University Press., archived from the original (PDF) on 2019-07-11, retrieved 2020-07-27
- ↑ a b Grice, H. Paul (1975), Logic and conversation (PDF), retrieved 2020-08-10
- ↑ a b Gârbacea, Cristina; Mei, Qiaozhu, Neural Language Generation: Formulation, Methods, and Evaluation (PDF), pp. 1–70, retrieved 2020-08-08,
Compared to the survey of (Gatt and Krahmer, 2018), our overview is a more comprehensive and updated coverage of neural network methods and evaluation centered around the novel problem definitions and task formulations.
- ↑ a b Grave, Édouard; Joulin, Armand; Usunier, Nicolas (2016), Improving neural language models with a continuous cache (PDF)
- ↑ a b Ficler, Jessica; Goldberg, Yoav (2017), "Controlling linguistic style aspects in neural language generation" (PDF), Proceedings of the Workshop on Stylistic Variation: 94–104. Published slightly earlier that year was Van-Khanh Tran and Le-Minh Nguyen. 2017.
Ficler, Jessica; Goldberg, Yoav (2017), Semantic Refinement GRU-based Neural Language Generation for Spoken Dialogue Systems (PDF) - ↑ Gardent, Claire; Shimorina, Anastasia; Narayan, Shashi; Perez-Beltrachini, Laura (2017), "The WebNLG Challenge: Generating Text from RDF data." (PDF), Proceedings of the 10th International Conference on Natural Language Generation: 124–133