Sprachkenncodes

be-tarask: Факты, аргумэнтацыя, рэалізацыя і апытаньне, зьвязаныя з моўнымі кодамі у Вікіпэдыі.

en: Facts, argumentation, implementation, and poll related to language codes on Wikipedia.

gem-CH (Schwyzerdütsch, Schwiitzertüütsch): Tatsachä, Begründige, Umsetzigä und Abstimmige zu de Schprooch-Chürzel vo de Wikipedia.

de: Fakten, Argumentation, Implementierung und Umfrage zu Sprachkenncodes bei Wikipedia.

es: Los hechos, discuten, puesta en práctica, y encuesta relacionada con los códigos de la lengua en Wikipedia.

fr; Les faits, l'argumentation, l'exécution, et le scrutin liés aux codes de langue sur Wikipedia.

gr: Τα γεγονότα, η επιχειρηματολογία, η εφαρμογή, και η ψηφοφορία πληροφοριών αφορούσαν τους γλωσσικούς κώδικες σε Wikipedia.

it: I fatti, l'argomentazione, l'esecuzione e lo scrutinio si sono riferiti ai codici di lingua su Wikipedia.

id:Kebenaran, pendapat, pelaksanaan, dan permintaan pendapat berhubungan dengan pengkodean bahasa yang ada di Wikipedia

jp: ウィキペディアの言語コードに関連する事実、議論、実施、および投票について。

ko: 사실, 논의, 실시, 및 정보 투표는Wikipedia에 언어 부호에 관련시켰다.

nl: Feiten, argumentatie, implementatie, en opiniepeiling hadden op taalcodes betrekking inzake Wikipedia.

pt: Os fatos, a argumentação, a execução, e a votação relacionaram-se aos códigos da língua em Wikipedia.

ru: Факты, аргументация, реализация/внедрение и опрос, связанные с языковыми кодами на(?) Википедии.

uk: Факти, аргументація, впровадження і опитування щодо мовних кодів у Вікіпедії.

vi: Những sự thật, luận chứng, thực hiện và trưng cầu liên quan đến mã ngôn ngữ tại Wikipedia.

yg: ꬸꭏ＇ꬸꭏꬰ＂、ꬾꭔꬸ＇ꭃꭘꬸ＂、ꬸꭏꬰ＇ꬸꭏ＂，ꭄꭊ＂ꭁꭒꬸ＇ꭁꭏꬲ＂ꭂꭏꬸ＇ꬱꭏ＂ꬹꭊꬲ＇ꬱꭔꬷ＂ꬱꭒ＂ꬱꭒ＇ꬱꭔꬸ＂ꬵꭊꬺ＇ꭂꭐ＂ꬳꬽꭐꬸ＇ꬶꭏꬺ＂ꭃꭔꬽ＇ꬿꭊꬺ＂Wikipedia。

zh-cn: 事实、辩论、实施, 和信息民意测验与语言代码关系了在Wikipedia 。

zh: 關於在 Wikipedia 所使用的語言代號的事實、討論、實施，和民意投票。

zh-yue: 關於喺 Wikipedia 所使用嘅語言代號嘅事實、討論、實踐, 同埋民意投票。

edit

Andere Sprachen: Deutsch | English edit

Ein Standard, um Sprachen zu kennzeichnen, die in Internetdokumenten verwendet werden, ist RFC 3066. Größtenteils empfiehlt es zweibuchstabige Codes der ISO 639-1 (wenn das möglich ist) oder dreibuchstabige Codes der ISO 639-2, wenn zweibuchstabige Codes nicht verfügbar sind oder andere Codes (oder Regional- oder Dialektspezifikatoren, die mit obigen zusammenhängen).

Diese Codes werden in HTTP-Accept-language- und Content-type-Headern, im HTML-'lang'- und im XML-'xml:lang'-Attribut verwendet. Sie werden außerdem als erstes Element des Hostnamens jeder Wikipedia-Sprachausgabe verwendet: fr.wikipedia.org, nah.wikipedia.org etc.

(Außer 'www', aber das steht auf einem anderen Blatt!)

Beachte, dass Sprachkenncodes keine Landeskenncodes sind.

Fakten

Existierende Sprachkenncodes und ihre Verwendung

Es gibt mindestens 6809 Sprachen auf der Welt, denn das ist die Anzahl der SIL-Codes.

SIL-Codes (3-buchstabig, http://www.ethnologue.com )
- maximal: 17576 Sprachen
- derzeit: 6809 Sprachen (Als Referenz, wie viele ungefähr existieren)
- http://www.ethnologue.com/ethno_docs/introduction.asp

ISO 639-2 (3-buchstabig, http://www.loc.gov/standards/iso639-2 )
- maximal 17576 (minus 23 Doppel-, 3 Spezial- und ?? reservierte Codes)
- derzeit: ca. 450
- es gibt 23 Sprachen mit 2 Codes: z.B. ISO 639-2/T : deu = ISO 639-2/B : ger, aber nicht mehrdeutig

ISO 639-1 (2-buchstabig)
- maximal 676 Sprachen (minus ?? reservierte Codes)
- derzeit: 180

90% aller Sprachen werden bis 2050 wahrscheinlich verschwinden

http://www.guardian.co.uk/uk_news/story/0,3604,721955,00.html

Das Problem der Sprachkenncodes ist ein theoretisches. Warte einfach ab. Walter 22:58, 21 Dec 2003 (UTC)

Sprachkenncodes sehen wie Landeskenncodes aus

Es gibt etwa 50 "Konflikte" zwischen Sprach- und Landeskenncodes, die in Language codes/Conflicts aufgelistet sind. Ein Konflikt tritt auf, wenn ein Land den selben Code verwendet wie eine Sprache, die in ihm nicht gesprochen wird. Theoretisch sind Landes- und Sprachkenncodes grundverschieden, so dass der Konflikt nicht existiert.

Argumentation

Zweibuchstabige Sprachkenncodes sind ISO 3166-1-Landeskenncodes viel zu ähnlich

Das könnte vorteilhafterweise wie eine Eselsbrücke wirken; wie auch immer, es könnte Verwirrung stiften, wenn der Landes- und der Sprachkenncode in Konflikt geraten. Zum Beispiel könnte be.wikipedia.org die weißrussische (belorussische) oder die belgische Wikipedia sein. Zweibuchstabige Subdomains werden oft von Firmen für ihre landesspezifischen Webseiten verwendet. Siehe Language codes/Conflicts für die komplette Liste.

PRO dreibuchstabiger Code:
- nutzlose Verwirrung und das Schreiben von Erklärungen (FAQs) kann vermieden werden
- die Benutzer werden nicht denken, dass sie landesspezifische Inhalte erhalten
- auf lange Sicht gibt es die Möglichkeit, landesspezifische Inhalte mit dem zweibuchstabigen System anzubieten. Z.B. nl.wikipedia.org als Eintrag für die Niederlande.

Kleine Sprachen

Kleine Sprachen ohne zweibuchstabigen Code werden einen dreibuchstabigen Code erhalten. Das ist nicht nett. Es ist, als ob man sagte: Du bist klein, du kriegst die längere URL, jeder soll sehen, dass du nicht in die Gruppe der großen Sprachen gehörst. Für dich reicht ein dreibuchstabiger Code.

Die meisten Weltsprachen haben einfach keinen dreibuchstabigen Code! Wie auch immer, auch die zweibuchstabigen Codes repräsentieren die Mehrheit der Sprachen. Ich würde diesen Dingen derzeit keine all zu große Bedeutung beimessen, aber ich bin absolut bereit, die dreibuchstabigen Codes als Aliase bereitzustellen und so kann auch jede Sprache, die nur über einen dreibuchstabigen Code verfügt, bei Wikipedia aufgesetzt werden. --Brion VIBBER 05:33 7 May 2003 (UTC)

RFC 3066

Tags für die Identifizierung von Sprachen, RFC-3066 Sprachkenncodezuweisungen

Das Wesentliche:

Verwende zweibuchstabige Codes der ISO 639-1, wenn sie existieren (en, fr, eo)
Greife auf dreibuchstabige Codes der ISO 639-2 zurück, wenn es keine zweibuchstabigen gibt (ger, art, cel)
Greife anderenfalls auf die IANA-definierten Tags (i-tsu) zurück
Verwende die Landeskenncodes oder Regional-, Dialekt- oder Untergruppen-Untertags, wenn es notwendig ist, sich etwas mehr von den Hauptcodes zu unterscheiden (sgn-US, cel-gaulish, art-loglan)

Wikipedia ist jung und es gibt keine Notwendigkeit, den Fehler zu wiederholen, ISO 639-1 zu verwenden. Die Rückgriffregel ist ganz gut, aber es ist einfacher, wenn man die Regel gar nicht erst braucht, weil man nur 'ein' Codesystem verwendet und nicht 'zwei', wie RFC. Das bedeutet nicht, dass man Aliase nicht zulassen sollte. Natürlich können die zweibuchstabigen Codes weiterhin verwendet werden, aber sie sollten den Status 'veraltet' erhalten, wie wir das von HTML-Tags kennen. Wir sollten jedem Außenstehenden ermöglichen, Wikipedia mit dem dreibuchstabigen Code aufzurufen. 'Aliase wären okay.' Tobias Conradi 19:35 8 May 2003 (UTC)

Ich stimme Tobias zu. Mein Vorschlag für eine Anpassung wäre, auf dreibuchstabige Codes zurückzugreifen, wenn der zweibuchstabige Code auch ein Landeskenncode eine Nation ist, die nicht (überwiegend) diese Sprache verwendet. Zum Beispiel ist "be" Belgien, aber auch Belorussisch (Weißrussisch), deshalb sollten wir statt dessen "bel" verwenden. Siehe Language codes/Conflicts -- Kowey 19:03, 21 Dec 2003 (UTC)

Ich stimme mit Brion überein. Bitte zwingt bestehende Wikipedias nicht, einen anderen Sprachkenncode zu verwenden. Giskart 10:54 7 May 2003 (UTC)

Implementierung

Details zu Aliasen und Weiterleitungen

Wird der Inhalt auf zei Wegen verfügbar sein oder wird es eine Serverweiterleitung geben? Wenn ja, in welche Richtung? Tobias Conradi 19:35 8 May 2003 (UTC)

Ich wollte Weiterleitungen verwenden, so dass ein Besuch von beispielsweise http://epo.wikipedia.org/wiki/Interreto dich zu http://eo.wikipedia.org/wiki/Interreto schicken würde. Das muss nicht für immer in dieser Richtung so sein, aber es würde den Status Quo beibehalten; beachte, dass die Verwendung von Weiterleitungen eher als Aliase so seltsame Dinge vermeidet wie Login-Cookies, die von der alternativen URL aus nicht verfügbar sind oder Suchmaschinen, die die Site mehrfach durchsuchen und indizieren. --Brion VIBBER 21:02 8 May 2003 (UTC)

Ich würde für http://eo.wikipedia.org/wiki/Interreto als Weiterleitung auf http://epo.wikipedia.org/wiki/Interreto stimmen. Dann haben wir klare Interfaces (für immer?) und gewöhnen die Leute daran, die dreibuchstabige Version zu verwenden. Würde es damit Probleme geben?

Nun, es ist hässlich wie nichts und weicht von der Verwendung von Landeskenncodes überall sonst im Netz ab. Ich würde es lieber nicht so machen und andere haben die selbe Meinung geäußert (siehe Giskarts Kommentar weiter oben). Und noch einmal, dreibuchstabige Codes würden nicht alle Möglichkeiten abdecken. Einige Sprachen werden zusätzliche dialekt- oder regionalspezifische Bezeichner benötigen oder haben gar keinen dreibuchstabigen Code, so dass Einheitlichkeit nicht erreicht werden kann. --Brion VIBBER 00:36 9 May 2003 (UTC)

Wo die Codes verwendet werden sollen

Ideen zur Sprachintegration schlägt vor, Sprachkenncodes als Teil der URL und nicht des Domainnamens zu übergeben:

Ich persönlich finde, dass das viel weniger Verwirrung mit den Landeskenncodes stiften würde. -- Kowey 10:14, 6 Jan 2004 (UTC)

Formlose Umfrage

Bitte mach kenntlich, wenn du zu einer der Wikipedias auf Language codes/Conflicts gehörst, weil dich das wahrscheinlich mehr betrifft, als Leute von en, fr, etc.

Konsens

Dinge, mit denen alle übereinstimmen

Wikipedias sind für Sprachen, nicht für Länder
Wir sollten Weiterleitungen verwenden, um die Dinge kompatibel zu halten
HTTP-Headers und XML/HTML-Attribute sollten definitiv der RFC folgen

Zweibuchstabige Codes beibehalten (RFC)

Zu dreibuchstabigen Codes wechseln

Kowey - Malay (ms); keine Verwirrung benutzerfreundlicher (oder nicht an den Domainnamen anhängen)