Wikidata:語彙データ/解説
ここでは、ウィキデータの語彙データについて解説します。ウィキデータの語彙素に関する一般的な情報を説明することを目的としています。すなわち、それらがどのように構成されているか、どのように編集できるか、そして豊かにするために何を追加したら良いかです。
このページの情報はほとんどの言語に広く適用できますが、「ある言語のモデリングに有効なものが、別の言語のモデリングにも常に有効であるとは限らない」ことに注意してください。 特定の言語用の語彙素のモデリングについては、それぞれの言語の解説ページを参照してください。
WikibaseLexeme拡張機能の技術文書もご覧ください。ウィキデータの語彙素についてサポートしています。
Wikidata語彙データの用語集が利用可能です。
データモデル
「WikibaseLexemeのデータモデル」は、ウィキデータで「語彙素(Lexeme)」として扱われるデータの構造を記述します。このページでは概略を示します。詳細は、対応するWikibaseLexeme文書ページをご覧ください。
語彙素とは、語、句、接頭辞といった、ある言語の語彙要素です(語彙素全般に関する詳細については、ウィキペディアの語彙素の解説を参照)。 語彙素は、項目やプロパティと同様に、ウィキベースのエンティティでもあり、それらもまた個々の識別子を持ち、個別にアクセスしたり照会したりすることができます。
語彙素には7つの構成要素があり、次の各サブセクションで説明します:
- そのLID;
- その見出し語;
- その言語;
- その語彙範疇;
- その(トップレベルの)文;
- その語義; 及び
- その語形。
語彙素ID
語彙素には、L3746552
のように、「L」で始まり、0~9の数字が続く識別子があります。これらのID(「lexemeid識別子」を意味する「LID」と呼ばれることがよくあります)は、ウィキデータ内で一意であり、語彙素が作成されると自動的に割り当てられます。
語彙素のRDF URIはhttp://www.wikidata.org/entity/
で、その後に語彙素IDが続きます。
語彙素の見出し語
語彙素の見出し語(lemmata)(単数形lemma)は、主に語彙素の人間が読める表現として使用されます。各見出し語は、有効なIETF言語タグを伴う文字列で構成されています。通常、見出し語は、単語、句、または接辞の文字で書かれた形式であり、それらが形態学的に「語基」や「語幹」の形と考えられるかどうかにかかわらず、それらを記述する辞書に見られます。
- 例えば、英語の語彙素Lexeme:L3435には「umbrella」という見出し語があります。なぜなら、ほとんどの英語辞書は、この語彙素に関する情報を「umbrella」という見出しの下に提供しており、「umbrellas」や「umbrella's」や「umbrellas'」のようなものの下には提供していないからです。
- 例えば、イタリア語の語彙素Lexeme:L1196965には「volare」という見出し語があります。これは、ほとんどのイタリア語辞書が、「volo」、「volante」、「volato」などではなく、この見出しの下に情報を提供しているためです。
- 例えば、韓国語の語彙素Lexeme:L17には、「먹다」という見出し語があります。なぜなら、ほとんどの韓国語辞書は、「먹-」、「먹어」、さらには「먹습니다」のようなものではなく、この形式で情報を提供しているからです。
語彙素はいくつかの見出し語を持つことができます。特に、与えられた言語内で文字体系や他の正書法の規則に違いがある場合にはそうです。異なる見出し語は異なる言語タグで示され、語彙素は与えられた言語タグに対して1つの見出し語しか持てません。
- 例えば、ヒンドゥスタン語の語彙素Lexeme:L641622には、
hi
というコードの「चाचा」とur
というコードの「چاچا」という2つの見出し語があります。これらは、デーヴァナーガリー文字(ヒンディー語に使用)とアラビア語文字(ウルドゥー語に使用)で同じ字体(発音は/t͡ʃɑː.t͡ʃɑː/)を表しています。 - 例えば、ヘブライ語の語彙素Lexeme:L641622には、コード
he
の「ָאדום」とコードhe-x-Q21283070
の「אָדֹם」という2つの見出し語があります。これは、発音区別符号が存在するかどうかによって、同じ語形をどのように発音するかが異なることを反映しています。ֹ - 例えば、Southern Min言語の語彙集Lexeme:L308008には、コード
nan-hani
の「城市」、コードnan-x-Q56929
の「siânn-tshī」、コードnan-x-Q559173
の「siâⁿ-chhī」という3つの見出し語があります。これらは、漢字または2つのローマ字体系のいずれかを使用して表し、それぞれが同じ単語の語形に対応します。
上記の言語コードのいくつかには'-x-'が含まれていることに注意してください。これが言語コードに存在する主な理由は2つあります:
- 言語コードがまだサポートされていない言語の場合、使用する言語コードの最後の手段は、
mis
ベースコードと共に、その言語のウィキデータ項目のQIDを含む私用のサブタグを追加することです。- 例えば、Polabian (Q36741)において、Lexeme:L1089491などは、
mis-x-Q36741
というコードの見出しを持っています。 - 例えば、Soyot (Q4426878)において、Lexeme:L1015954などは、
mis-x-Q4426878
というコードの見出しを持っています。 - 例えば、Láadan (Q35757)において、Lexeme:L623039などは、
mis-x-Q35757
というコードの見出しを持っています。
- 例えば、Polabian (Q36741)において、Lexeme:L1089491などは、
- ある言語をサポートする言語コードがあっても、その言語コードがサポートされていないバリエーションがある場合、私用サブタグは既存のサポートされているコードに直接付加できます。
- 例えば、ベンガル語のVarendri (Q48726757)において、Lexeme:L672268などは、
bn-x-Q48726757
(「bn」は既存のサポートされているコード)コードの見出し語を持っています。 - 例えば、Devanagari Sindhi (Q116688933)の見出し語では、シンド語の語彙素に対して言語コード
sd-x-q116688933
('sd'は既存のサポートされているコード)を使用します。 - 例えば、Fula言語の語彙素のAdlam (Q19606346)にある見出し語は、言語コード
ff-x-q19606346
(「ff」は既存のサポートされているコード)を使用します。
- 例えば、ベンガル語のVarendri (Q48726757)において、Lexeme:L672268などは、
語彙素の見出し語は、{{L}}
テンプレートを使用してウィキデータ上の語彙素にリンクするときに表示されるものです(このページの後半を含む)。
語彙素の言語
語彙素が属する言語は、その言語のウィキデータ項目への参照です。
ほとんどの言語では、これは簡単に判断できます。English (Q1860)、Thai (Q9217)、Manchu (Q33638)、およびGun (Q3111668)は、多くの可能性のうちの4つにすぎません。なぜなら、それらには言語コードen
、th
、mnc
、およびguw
というサポート言語があるからです。
しかし、一部の言語では、その語彙素に特定の言語項目を使用することを要求し始めています。詳細については、各言語の解説ページを参照してください。
語彙範疇
語彙素が属する語彙カテゴリは、言語における特定の構文的挙動を有する単語の特定のグループのためのウィキデータ項目への参照です。これは通常、名詞、動詞、形容詞、副詞などの語彙素の「品詞の一部」に対応しています。
語彙素の語彙範疇は、語彙素がその言語における構文的な振る舞い方のより広範な反映として、他のより適切であるがより具体的な記述よりもいくらか一般的であるべきである。count noun (Q1520033)、separable verb (Q3254028)、およびrelative pronoun (Q1050744)のような他の項目は、該当する場合、代わりにinstance of (P31)文の値として追加されるべきである。
異なる言語は必然的に異なる語彙範疇を使用するかもしれませんが、いくつかは言語間で比較が行われるのに十分な頻度です。語彙範疇に関する全文書ページを参照して、言語間でカテゴリを比較してください。
語彙素の文
語彙素は、項目やプロパティと同様に、その形式や意味の1つに固有ではない語彙素に関する情報を提供する文(主張)を持っています。特定の言語がどのように機能するか、および語彙素の語彙範疇に応じて、いくつかの文は他の文よりも特定の語彙素に適しています。
Template:Lexicographical propertiesには、語彙素に直接適用できる多くの共通プロパティがリストされています。
語彙素の語義
語義は語彙素の様々な意味を記述します。
語義は三つの部分から構成されています:1) 語義ID, 2) 注釈、および 3) 文。
- 語義IDは、それが属する語彙素のIDで始まり、ハイフン(「-」)と「S」が続き、その後に10進表記の自然数が続きます。たとえば、
L3746552-S4
のようになります。これらのIDはウィキデータ内で一意です。語彙素内で新しい語義が作成されると、まったく新しい語義IDが提供されます。LIDと同様に、語義IDをhttp://www.wikidata.org/entity/
に追加して、語義の一意のURIを形成できます。 - 注釈は、自然言語を使用して語義の意味を定義します。特定の言語Xの語彙素では、言語Xの注釈は語義の意味をより詳細に説明する必要があります。一方、他の言語YおよびZの注釈は、YおよびZの話者に意味が何であるかが十分に明確である限り、あまり詳細でなくても構いません。
- 語彙素、項目、およびプロパティと同様に、語義は、語義と他の語義やウィキデータ項目との関係をさらに記述する文を持つことができます。
Template:Lexicographical propertiesには、語彙素の語義に直接適用できる多くの共通プロパティがリストされています。
語彙素の語形
語形は、音声または文章における語彙素のさまざまな実形態を記述します。
言語が形態学的にどのように振る舞うかによって、語彙素には正確に1つの形式がある場合もあれば、複数の形式がある場合もあります。一般的に、言語は孤立的あるいは分析的であるほど、または凝集性あるいは多合成性が高いほど、語彙素ごとに1つの形式を持つことでより多くの利益を得ることができます。多くの融合言語の語彙素は、通常、文法的特徴の特定の組み合わせに対して複数の形式を持っています。
語形は4つの部分で構成されています: 1) 語形ID、2) 表現、3) 文法的特長、4) 文。
- 語形IDは、それが属する語彙素のIDで始まり、ハイフン(「-」)と「F」が続き、その後に10進表記の自然数が続きます。例:
L3746552-F4
。これらのIDはウィキデータ内で一意です。語彙素内で新しい語形が作成されると、完全に新しい語形IDが提供されます。LIDや語義IDと同様に、語形IDをhttp://www.wikidata.org/entity/
に追加して、語形の一意のURIを形成できます。 - 表現は、言語タグを伴う文字列で、特定のフォームがどのように使用されるかを示します。見出し語と同様に、1つの語形に複数の表現があり、言語内の表記体系の違いや正書法のバリエーションを処理できます。
- 文法的特長は、与えられた語形が適用される構文的状況を定義するウィキデータ項目への参照です。
- 語彙素、語義、項目、およびプロパティと同様に、語形は、語形と他の語形およびウィキデータ項目との関係をさらに記述する文を持つことができます。
Template:Lexicographical propertiesには、語彙素の語形に直接適用できる多くの共通プロパティがリストされています。
語彙素の収容基準
いくつかのケースや言語では、関連する単語に対して複数のエンティティが存在する場合がありますが、他の言語では1つしか存在しない場合があります。次の表は、特定の名詞がどのようにリンクされるかの概要を示しています:
difference in | 1 lexeme | 2+ lexemes | |||
---|---|---|---|---|---|
sense | add several senses | add applicable sense to lexeme | link other(s) with homograph lexeme | duplicate forms on each | |
etym. | add etym. to each sense | add etym. to lexeme base | link other(s) with homograph lexeme | duplicate forms on each | |
gender | add gender to each sense | add gender to lexeme base | link other(s) with homograph lexeme | duplicate forms on each | |
common/proper | add several senses | use lexical category "noun" | add applicable sense to lexeme | link other(s) with homograph lexeme | duplicate forms on each |
caps/lowercase | add several forms | qualify forms to applicable senses | add applicable sense to lexeme | link other(s) with homograph lexeme | add only applicable forms |
singular/plural | add several forms | qualify forms to applicable senses | add applicable sense | if possible link other(s) with homograph lexeme | add only applicable forms |
pronunciation | add the same form twice | qualify forms to applicable senses, add prononciation | add applicable sense | if possible link other(s) with homograph lexeme | add form and applicable pronunciation |
forms/spelling | add several forms or alternate forms | qualify forms to applicable senses | add applicable sense | if possible link other(s) with homograph lexeme | add only applicable forms |
For a given language and criterion (first column), just one of the two might apply
インターフェイス
次のセクションでは、語彙素の編集を含む一般的なタスクを実行するためにウィキデータのユーザー・インターフェースで実行するステップについて詳しく説明します。
語彙素
語彙素の新規作成
- Special:NewLexeme を開きます。
- Lemmaの下に、見出し語を入力します(詳細については、#Lexeme lemmataを参照してください)。
- Lexeme's languageの下に、言語の名前またはQIDを入力して、語彙素の言語を入力します(詳細については、#Lexeme languageを参照してください)。
- プロンプトが表示されたら、Spelling variant of the Lemmaの下に見出し語の言語コードを入力します(詳細については、#Lexeme lemmataを参照してください)。
- Lexical categoryの下に、名前またはQIDを入力して、語彙素の語彙範疇を入力します(詳細については、#Lexical categoryを参照してください)。
- 「Create」をクリックして変更内容を保存します。
これで、最も基本的な情報を含む語彙素が作成されました。まだわずかしか登録されていないため、文、語義、語形(このページの後半を参照)などの情報が追加されるまで有意義な利用はできません。
語彙素の見出し語、言語、語彙範疇の編集
- 見出し語の隣にある「編集」ボタンをクリックします。
- 見出し語は次のように編集することができます:
- 見出し語を追加するには、まず既存の見出し語の隣に表示される"+"を選択してください。
- Lemmaの下の新しい見出し語に見出し語の表現を追加します
- Spelling variantの下の新しい見出し語にも新しい見出し語の言語コードを追加します。
- 特定の見出し語を削除するには、その見出し語のLemmaの横に表示される「x」を選択するだけです。
- 言語の変更には、Languageの横にある検索ボックスを使って、言語の項目を選択してください。
- 語彙素の語彙範疇を変更するには、Lexical categoryの横にある検索ボックスを使って語彙範疇に項目を選択してください。
- 「publish」をクリックして変更内容を保存します。
語彙素の文の追加、編集、削除
語彙素に文を追加するには、次の手順を実行します:
- 「add statement」をクリックします
- プロパティの入力、プロパティ欄にその名前(
derived from lexeme
など)を入力し、提案された候補から選択します。 - プロパティの値を入力します。
注:translation (P5972)やsynonym (P5973)などのWikidata property for lexicographic senses (Q54275340)は、現在、語彙素の見出し語や語義の注釈による語義の検索をサポートしていません。つまり、文に値を入力するには、値として必要な語義の正確な語義IDを入力する必要があります。 - 文に修飾子と情報源を追加する場合は、自由に追加してください。
- 「publish」をクリックして文を保存します。
- 文を編集するには「edit」をクリックします。
- 文を削除するには「edit」をクリックしてから「remove」をクリックします.
語彙素の削除
語彙素を削除するには、項目で行うのと同じように、Wikidata:Requests for deletionsで削除を要求できます。the Merge gadgetを有効にしている場合は、それを使用して語彙素の削除要求を送信できます。
語彙素の検索
Special:Searchや任意のページの検索ボックスで語彙素を検索するには、そのLID、見出し語の1つ、またはその語形の1つの表現を使用できます。
これを行う最も簡単な方法は、これらのいずれかに接頭辞「L:」を付けることです。これにより、検索の語彙素ネームスペースに自動的に結果が表示されます。たとえば、語彙素L301993には「হৃদয়」という見出し語があり、その形式の1つには「হৃদয়েতে」という表現があります。「L:L301993」、「L:হৃদয়」、または「L:হৃদয়েতে」を検索すると、結果に同じ語彙素が返されます。
または、接頭辞「L:」を付けずに(たとえば、「L301993」、「হৃদয়」、または「হৃদয়েতে」を使用して)検索し、Search in:の「Lexeme」名前空間を選択して検索を再実行して、同じ語彙素を取得することもできます。
セレクタ(結果を提案するためにポップアップするドロップダウンメニュー)は、まだlexeme名前空間をサポートしていないことに注意してください。ただし、キーワードを入力した後にEnterキーを押すか、検索アイコンをクリックすると、結果が表示されます。
語義
語義の新規作成
- 語彙素の語義セクションで、「add Sense」をクリックします。
- Languageの下で、注釈の言語コードを入力します。
- Glossの下で、注釈を入力します。
- 新しい注釈を追加するには、「add」をクリックして手順2と3を繰り返します。
- 「publish」をクリックして変更内容を保存します。
語義の注釈の編集
- 語義の注釈の横にある「edit」をクリックします。
- 新しい注釈を追加するには、以下を実行します:
- 既存の語義の注釈の下で、より小さな「add」リンクをクリックします。 (新しい文や語義を 追加するために使っているadd statementやadd Senseのリンクを間違ってクリックしないように注意してください。)
- Languageの下で、新しい注釈の言語コードを入力します。
- Glossの下で、新しい注釈を入力します。
- 追加したい注釈の数だけこれらの手順を繰り返します。
- 注釈を削除するには、注釈の隣にある「remove」をクリックします。
- 「publish」をクリックして変更内容を保存します。
語義の除去
- 語義の注釈の横にある「edit」をクリックします。
- 「remove」をクリックします。
語形
語形の新規作成
- 語彙素の語形セクションで、「add Form」をクリックします。
- Representationの下に、新しい語形の表現を入力します。
- Spelling variantの下で、その表現の言語コードを入力します。
- さらに表現を追加するには、既存のリプレゼンテーションの横にあるプラス記号(+)をクリックし、新しい表現に対して手順2と3を繰り返します。
- Grammatical featuresの横に、1つまたは複数の文法上の特長を入力します。名前を入力し、表示される項目のリストから選択します。
- 「publish」をクリックして変更内容を保存します。
語形の表現や文法的特長の編集
- 語形の表現の横にある「edit」をクリックします。
- 表現は次のように編集することができます:
- 表現を追加するには、まず既存の表現の隣に表示される"+"を選択してください。
- Representationの下の新しい表現欄に、語形の新しい表現を追加します。
- Spelling variantの下の新しい表現にも新しい表現の綴り字のコードを追加します。
- 特定の表現を削除するには、その表現のRepresentationの横に表示される「x」を選択するだけです。
- 文法的特徴を追加するには、テキストボックスの最後にその名前を入力して、表示される項目のリストから適切な項目を選択してください。
- 文法的特徴を削除するには、その隣にある"x"をクリックしてください。
- 「publish」をクリックして変更内容を保存します。
語形の削除
- 語形の表現の横にある「edit」をクリックします。
- 「remove」をクリックします。
機能
Wikidata:Lexicographical data/Developmentも参照
最初のバージョンでの機能
- 新しいデータ型: 語彙素、語形
- 語彙素の追加、編集、削除
- 語形の追加、編集、削除
- 文の追加、編集、削除
- 修飾子の追加、編集、削除
- 情報源の追加、編集、削除
- 語彙素や語形から項目にリンクする
- 語彙素、語形または項目から別の語彙素にリンクする
- 値の入力時に検索と提案
- 基本的な内部 API (UI用であり、あなたが使用するものではありません)
追加予定の機能
短期・長期計画からのオーダー
- Special:Search でのコンテンツ検索 Done
- 履歴ページ、最近の変更。監視リストで見出し語を表示 Done
- 語義の追加、編集、削除 Done
- RDFのサポートとquery.wikidata.org のデータへの問い合わせ機能 Done
- APIサポートの改善
- 語形の自動生成
- クライアントに関するデータアクセス (他のウィキメディアプロジェクト) Done
- ウィクショナリーから直接データを編集