Edge, Chrome, Safari, Firefox推奨
UniDic非コアデータのロゴ

本サイトでは、短単位自動解析用辞書「UniDic」のアペンドデータを

UniDic非コアデータ』として公開しています。


「非コア」データというフレーズには、UniDicの短単位形態論情報が、専門家によって人手で厳密に付与されているのに対し、

「本サイトで公開するデータがクラウドソーシング等を使って専門家の手作業を介さず、非専門家の手によって作成されたものであり、公式のデータではない」

という意図が込めてあります。

意味合いは少々違いますが、現代日本語書き言葉均衡コーパス(BCCWJ)の「非コアデータ」のような言葉の使い方だと思ってください。

また本サイトで公開するデータは、解析用UniDic(v2.2.0以降)の標準出力もしくはmecab-dict-indexする前のlex.csv(v2.2.0以降)に適用するためのもので、

短単位ID(語彙素IDや語彙表ID) + 追加情報

のみの公開となります。UniDic自体は付属しません。

短単位IDに関しては、このページを参照ください。

更新履歴
2019.08.26

・ライセンスをMITからApache 2.0に変更

2019.08.15

・サイトデザイン一旦完成
・「内部に原言語からの省略形を含むカタカナ語彙素のリスト」の名称に年月を付与
・「複数(2つ)の短単位に分割可能な複合語のリスト_2019_03」公開
・「関連語リスト_2019_03」公開

2019.01.15

・プレサイト完成
・「内部に原言語からの省略形を含むカタカナ語彙素のリスト」公開

内部に原言語からの省略形を含むカタカナ語彙素のリスト_2017_02

パトカー = パト(patrol)カー(car)のように、原言語からの省略形を内部に含むカタカナ短単位語彙素のリスト。

リスト中の記法を使うと、

パトカーの「パト」は「patorol」の省略形であるため「abbr」、

対して、パトカーの「カー」は「car」からの省略は起きていないので、「!abbr」マークが付けられる。


リポジトリ:abbreviation_2017_02ファイルのダウンロード方法

ライセンス


リポジトリ内の各ファイルの内容は以下の通り。

1)abbr_src_2017_02.zip(展開 → abbr_src_2017_02.tsv)

クラウドソーシングを使い、原言語からの省略が起きているかどうかアンケート調査した結果のrawデータ(非識別加工済み)。

各列名およびクラウドソーシング上での設問など詳細は、ファイル中に記載。

少し大きいデータなので、zip圧縮データ公開。

2)abbr_inter_2017_02.tsv

1)のデータを見やすく加工したもの。

列詳細はファイル内ヘッダー部のコメント中に記載。

3)abbr_aggregaton_2017_02.tsv

1)2)のデータはユーザごとの個別の回答であるので、それを集計した結果。

例)abbr:80、!abbr:20の場合、

その語彙素の当該箇所が原言語からの省略形であるとみなしたユーザが80人、

そうではないとみなしたユーザが20人いたことを表している。

列詳細はファイル内ヘッダー部のコメント中に記載。

4)abbreviation_○○_2017_02.tsv

3)の集計結果から、abbrの値がabbr+!abbr中の○○%以上になった箇所で原言語からの省略が起きているとみなし、

改めて値なしのabbrマークだけを付与しなおし(○○%未満の場合!abbrマークだけ)、

付与しなおした中で、abbrマークを含む行だけを列挙したファイル。

(ざっと見た様子では100%や90%よりも、80%あたりのデータがよさげ)

列詳細はファイル内ヘッダー部のコメント中に記載。

謝辞

本研究は国立国語研究所の所長裁量経費の助成を受けたものです。

複数(2つ)の短単位に分割可能な複合語のリスト_2019_03

短単位は1最小単位、もしくは複数の最小単位の結合からなる単位である。

(最小単位と短単位の関係についてはUniDic公式ページを参照)

そのため1短単位であっても複数の最小単位の結合からなっている場合、その最小単位それぞれが別個の短単位としてUniDicDBに登録されていることがある。

例:()は語彙素ID

  • 走り過ぎる(90675) → 走る(29712) 過ぎる(19108)
  • 夢見る(38909) → 夢(38906) 見る(36920)

本データは、上のような複数短単位に分割可能な短単位のうち、"2短単位"に分割可能なものを自動形態素解析によって候補に挙げ、 クラウドソーシングを使ってその分割が正しいか否かを選別したリストである。


リポジトリ:constitute_2019_03ファイルのダウンロード方法

ライセンス


リポジトリ内の各ファイルの内容は以下の通り。

1)cons_src_2019_03.zip(展開 → cons_src_2019_03.tsv)

自動形態素解析によって2短単位に分割した短単位を、 分割の確信度に基づき並び替え、 上位のもの(確信度が高い分割)を抜き出し、 その分割が正しいか否かクラウドソーシングを使ってアンケート調査した結果のrawデータ(非識別加工済み)。

各列名およびクラウドソーシング上での設問など詳細は、ファイル中に記載。

少し大きいデータなので、zip圧縮データ公開。

2)cons_all_2019_03.tsv

1)のデータに対し、クラウドソーシングの品質評価手法(Multi-class 版の GLAD:[Whitehill+ 09]の多クラス拡張)を適用し、 各分割に行われた人手の判定に確率で確信度(0.0~1.0)を与えたもの。

列詳細はファイル内ヘッダー部のコメント中に記載。

3)constituent_○.○_2019_03.tsv

2)の集計結果から、確信度が○.○以上の分割の行だけを列挙したファイル。

列詳細はファイル内ヘッダー部のコメント中に記載。

謝辞

本研究は国立国語研究所の所長裁量経費の助成を受けたものです。

関連語リスト_2019_03

同義や、類義、包含など、意味的に近しい関係を持つ(と思われる)字面の近しい短単位ペアのリスト。

例:()は語彙素ID

  • アレンジメント-arrangement(1285) アレンジ-arrange(1284)
  • 読み聞かせる(174056) 読み聞かす(191472)
  • 笑い声(41331) 笑う(41336)

リポジトリ:reference_2019_03ファイルのダウンロード方法

ライセンス


リポジトリ内の各ファイルの内容は以下の通り。

1)ref_src_2019_03.zip(展開 → ref_src_2019_03.tsv)

上のような短単位のペアをランダムに取り出し、 取り出したペアが"似たような意味を持つか否か?" クラウドソーシングを使ってアンケート調査した結果のrawデータ(非識別加工済み)。

各列名およびクラウドソーシング上での設問など詳細は、ファイル中に記載。

少し大きいデータなので、zip圧縮データ公開。

2)ref_all_2019_03.tsv

1)のデータに対し、クラウドソーシングの品質評価手法(Multi-class 版の GLAD:[Whitehill+ 09]の多クラス拡張)を適用し、 各ペアに行われた人手の判定に確率で確信度(0.0~1.0)を与えたもの。

列詳細はファイル内ヘッダー部のコメント中に記載。

3)reference_○.○_2019_03.tsv

2)の集計結果から、確信度が○.○以上のペアの行だけを列挙したファイル。

列詳細はファイル内ヘッダー部のコメント中に記載。

謝辞

本研究は国立国語研究所の所長裁量経費の助成を受けたものです。