Community Wishlist Survey 2017/Translations/Wikisource/Create new Han Characters with IDS extension for WikiSource

⬅ Back to proposal

For translators: Please don't add headlines for votes and comments here. Votes will only be counted on the original proposal page. Feel free to include a note about this in your language. When you've added a translation, please include the language (in your language, not in English) to the list of proposals or replace "none yet" if no such list exists.

== Your language ==

Your translation.

中文 edit

於維基文庫上利用IDS描述新造漢字

  • Problem: 東亞文化圈的CJKV(中國、台灣、新加坡、馬來西亞華語區、香港、日本、韓國、台灣、越南)許多地方使用漢字(更正式的名稱是「zh:語素文字」),在電腦數位文獻處理上,一直有一個大問題,就是漢字缺字問題(lacking),不單單是各國古代漢字文獻有大量缺字,近代傳統活字排版印刷時代的書籍還有各自自創的缺字(有時可能是只有某一本書,就獨特地出現了300-400個該書獨有發明的新字),當要放進維基文庫的時候,處理此問題非常地困難。這個問題的本質是漢字過去在電腦上的處理未考慮到漢字是個開放字集的事實。當今維基媒體計畫上如果有尚未被unicode所支援的方塊字,現在只有一種解決辦法,就是使用圖檔,問題是必須手工繪製而且該文字的資訊無法被排序(indexing)、搜尋(search)、交換(exchange ,copy paste到別的網站,圖片就消失了,文章裡面的缺字就變成空白)。
  • Who would benefit: 最主要會受到益處的,是中文維基文庫的編者與讀者,但使用漢字的維基媒體計畫將來都可以受益(如日文、越南文、韓文、中文、文言文、客家語、吳語、贛語等),甚至未來其他語言的維基辭典、維基百科。
  • Proposed solution: 漢字的特殊性在於字並非像拼音字母由少數的字母以一維空間(1D)構成,而是以更多的基本表音或表意的「部件」( Components)以2維方式在一個方塊空間內組合(compisite)而成,主要組合方式是水平組合、垂直組合、包圍組合。基本的研究,在1970年代開始,台灣中研院開始進行這方面的研究,有很豐碩的成果,而後就被應用在有超巨量缺字的cbeta佛典計畫(把日本大正藏佛典數位化)等計畫。
    而後,Unicode標準裡面也推出了Ideographic Description Sequence(IDS)規範,制定了IDC(組字符)而且是以符合電腦文字處理的先序(prefix)結構設計,從此之後,在各學術機構的中文研究(例如四庫全書,裝滿四個倉庫的圖書館的一堆書)或者佛學研究,就開始活用IDS ,催生動態組字技術來解決其缺字問題。
    過去,這類技術都在學術界內使用,最近10年,才有通用用途的開放原碼的動態組字引擎陸續研發。台灣在地的維基協會發現現在有很好的進步引擎:漢字組建,遂提出解決方案-han3_ji7_tsoo1_kian3 呈像伺服器rendering server + IDS extension,漢字缺字可以呈現、可以被搜尋定序、可以被交換。
  • More comments: 目前已經有不少測試了,詳見測試維基頁