ウィキメディア財団2019年中期事業計画/プラットフォームの進化

This page is a translated version of the page Wikimedia Foundation Medium-term plan 2019/Platform evolution and the translation is 68% complete.
ウィキメディア財団2019年中期事業計画

フリーな知識の根源的なインフラストラクチャとなるには、私たちのプラットフォームを進化させる必要があり、広大な拡張性、幅広いコンテンツ共有、高性能で使いやすく、参入障壁の低さが求められます。機械がコンテンツを作成するエコシステムであっても、私たちのコミュニティとプロジェクトは関連性と競争力を維持できなければならず、私たちのプラットフォームが提供するツールを使うと、すべての人々が知識の作成者とキュレーターの両方になれるようにする必要があります。

「プラットフォームの進化」という優先事項の対象にはウィキメディアの技術エコシステムの改善と時流にあわせた進化が含まれ、AIによるコンテンツ作成や、学習の大部分を占めるリッチメディア、構造化されたコンテンツを提供すること、また皆さんが協働するときに最小限の技術力でどんな機器上でも使えるツールをご用意します。また、この優先順位は寄稿やキュレーションや協働の場で新しい市場に成長をもたらすものであり、小規模で新しいコミュニティと大規模で確立されたプロジェクトの双方がより公平なツールを使い、その焦点は、同一のコンテンツの作成と管理について、能力格差を発生させないようにすることです。

そのためには、貢献者のニーズと迅速なイノベーションの必要性に応えるために、人工知能学習(AI)のような技術を取り入れ、より深いレベルの自動化を行う必要があります。AIサービスを統合することで、コンテンツのギャップを迅速に特定・解消し、コンテンツの完全性を保護し、より成熟したWikiの上に小規模なコミュニティ・プロジェクトや言語を構築する力を与えることが可能になるります。機械学習が効果を発揮するためには、コンテンツを構成するデータがより構造化される必要があります。また、貢献者が効果的かつ一貫してデータを投稿し、作業できるよう支援するツールを提供する必要があります。

コンテンツギャップへの対応には、より多くのストレージとサーバーパワー、そしてより多くの種類のメディアを編集、アップロード、取り込むためのより良いツールを必要とするリッチメディアの取り込みを容易にすることも含まれます。エンジニアリングの面では、継続的インテグレーションによるソフトウェアのリリースプロセスの自動化を進め、コードの品質とテストをより意図的に重視することで、より革新的で迅速な実験が可能になります。

最新のエクスペリエンスを一貫して構築するためには、読者や貢献者がプロジェクトとやり取りするためのコアソフトウェアとともに、サーバー、ネットワークインフラ、ソフトウェア開発環境の更新が必要です。これにはMediawikiやWikibaseなどのウィキメディア技術エコシステムを支えるツールや基盤、ウィキペディア、ウィキデータ、コモンズ、ウィキソースなどのコンテンツ作成などのプロジェクトが含まれます。

そのためプラットフォームの進化における投資とは、機械学習や構造化データ開発、マルチメディアとインタラクティブ・コンテンツの容量、サーバとネットワークの社会基盤、開発者向けツールとエンジニアリングの生産性を対象とし、さらに製品やユーザーベースや使用事例には、ボランティアの多様性がもたらす明確な定義がまとめて反映されます。

成果

1. Software platforms with integrated machine learning, rich media, and structured data components, and associated tooling for internal and external development and reuse of code and content.

対応する優先課題:プラットフォームの進化、世界規模の読者層

  • This outcome focuses on:
    • the development of a robust AI infrastructure, consisting of APIs, tooling, data pipelines and other infrastructure to assist in surfacing knowledge gaps, automated language translation and other forms of knowledge creation, moderation, search and discovery. This infrastructure will also provide facilities to detect and correct algorithm biases and make Wikipedia, Wikidata and other project data available to train models created outside of our project spaces.
    • expanded development of structured data tools to enhance data formatting and categorization capabilities for easier consumption by our machine learning pipelines behind the APIs, as well as by machine learning tools built by third parties.
    • support for the integration and discoverability of rich content including video, audio, and interactive media, as well as the infrastructure to serve it with high performance, high redundancy, and low latency to all parts of the world.

2. Fully automated and continuous code health and deployment infrastructure.

対応する優先課題:プラットフォームの進化

  • With an early focus on improving engineering productivity for technical contributors, including Foundation staff engineers at the Foundation, this outcome encompasses:
    • automating our code deployment pipeline and ensuring broad test coverage with tooling and practices that make it easy for volunteer and staff developers to deploy safe, healthy code;
    • speeding up deployments and having greater confidence in the quality, performance, scalability and overall sustainability of our code base;
    • making software high quality in a measurable way that ships with testing, analytics, monitoring, security and privacy built in, and;
    • addressing architectural issues that will improve the modularity of our technology stacks, making it easier to maintain the health of our codebase as we continue to scale and maintain our projects.

3. Tooling for contributors is easy to use, well-documented, and accessible to users, increasing engagement and contribution.

対応する優先課題:プラットフォームの進化、活発なウィキメディア運動

  • This outcome is focused on the contributor experience and will provide:
    • high-quality and accessible tooling for technical and content contributors, curators and collaborators;
    • processes that remove hurdles to simplify code and content contributions into projects, and;
    • a lower barrier to entry for new technical contributors and aspiring editors.

評価指標

1. 機械学習、構造化データとリッチメディアの統合。

  • コンテンツの25%に対し、AIツールとワークフローを利用しています。これは主に2つの構成要素としてAIプラットフォームの完成と、それを用いたコンテンツ消費および創作物の消費活動をアウトプットし、さらにこの (訳注:25%相当という) 評価指標で双方の側面を捉えるように設計されています。より具体的には、編集者、読者およびコンテンツにおけるMTPの増加は、AIプラットフォームなしでは実現できませんが、実際の影響を見積もることは困難です。
  • コンテンツの消費または作成のうち25%が「構造化データ」を活用しています。これにはウィキデータを含み、記事やテンプレートその他のソースからのコンテンツにも及び、新しい寄稿や消費のフォームの要素に活用できる形式でプログラム上に格納されています。AIと同様、この評価指標には生成終了と利用の両方を組み込んであり、他の優先事項による出力取得の完了に欠かせません。
  • プロジェクト間で作成および消費されたリッチメディアのコンテンツが25%増加しました。世界規模の読者層の出力、具体的には出力2 (当社のコア製品エクスペリエンスを実質的に拡張) はこの指標が示すように、堅牢なリッチメディアCMSプラットフォームがプロジェクト群を超えて準備され利用できるかどうかにかかっています。

2. Engineering productivity and technical community indicators.

  • コード精度は私たちのコードベース全般に工業規格の指標を用いて自動化した測定とプロファイルを実施して25%向上させる。
  • 開発者満足度を定期の調査で計測し顕著なコードレビューの件数を20%減少させる。
  • 編集コミュニティにあてる指標と連動させ、十分に声の届いていない地域も対象に含め、技術コミュニティの成長と定着率の改善5%増を目指す。