本サイトでは、短単位自動解析用辞書「UniDic」のアペンドデータを
『UniDic非コアデータ』として公開しています。
「非コア」データというフレーズには、UniDicの短単位形態論情報が、専門家によって人手で厳密に付与されているのに対し、
「本サイトで公開するデータがクラウドソーシング等を使って専門家の手作業を介さず、非専門家の手によって作成されたものであり、公式のデータではない」
という意図が込めてあります。
意味合いは少々違いますが、現代日本語書き言葉均衡コーパス(BCCWJ)の「非コアデータ」のような言葉の使い方だと思ってください。
また本サイトで公開するデータは、解析用UniDic(v2.2.0以降)の標準出力もしくはmecab-dict-indexする前のlex.csv(v2.2.0以降)に適用するためのもので、
短単位ID(語彙素IDや語彙表ID) + 追加情報
のみの公開となります。UniDic自体は付属しません。
短単位IDに関しては、このページを参照ください。
- 2019.08.26
-
・ライセンスをMITからApache 2.0に変更
- 2019.08.15
-
・サイトデザイン一旦完成
・「内部に原言語からの省略形を含むカタカナ語彙素のリスト」の名称に年月を付与
・「複数(2つ)の短単位に分割可能な複合語のリスト_2019_03」公開
・「関連語リスト_2019_03」公開 - 2019.01.15
-
・プレサイト完成
・「内部に原言語からの省略形を含むカタカナ語彙素のリスト」公開
パトカー = パト(patrol)カー(car)のように、原言語からの省略形を内部に含むカタカナ短単位語彙素のリスト。
リスト中の記法を使うと、
パトカーの「パト」は「patorol」の省略形であるため「abbr」、
対して、パトカーの「カー」は「car」からの省略は起きていないので、「!abbr」マークが付けられる。
リポジトリ:abbreviation_2017_02(ファイルのダウンロード方法)
リポジトリ内の各ファイルの内容は以下の通り。
クラウドソーシングを使い、原言語からの省略が起きているかどうかアンケート調査した結果のrawデータ(非識別加工済み)。
各列名およびクラウドソーシング上での設問など詳細は、ファイル中に記載。
少し大きいデータなので、zip圧縮データ公開。
1)のデータを見やすく加工したもの。
列詳細はファイル内ヘッダー部のコメント中に記載。
1)2)のデータはユーザごとの個別の回答であるので、それを集計した結果。
例)abbr:80、!abbr:20の場合、
その語彙素の当該箇所が原言語からの省略形であるとみなしたユーザが80人、
そうではないとみなしたユーザが20人いたことを表している。
列詳細はファイル内ヘッダー部のコメント中に記載。
3)の集計結果から、abbrの値がabbr+!abbr中の○○%以上になった箇所で原言語からの省略が起きているとみなし、
改めて値なしのabbrマークだけを付与しなおし(○○%未満の場合!abbrマークだけ)、
付与しなおした中で、abbrマークを含む行だけを列挙したファイル。
(ざっと見た様子では100%や90%よりも、80%あたりのデータがよさげ)
列詳細はファイル内ヘッダー部のコメント中に記載。
本研究は国立国語研究所の所長裁量経費の助成を受けたものです。
短単位は1最小単位、もしくは複数の最小単位の結合からなる単位である。
(最小単位と短単位の関係についてはUniDic公式ページを参照)
そのため1短単位であっても複数の最小単位の結合からなっている場合、その最小単位それぞれが別個の短単位としてUniDicDBに登録されていることがある。
例:()は語彙素ID
- 走り過ぎる(90675) → 走る(29712) 過ぎる(19108)
- 夢見る(38909) → 夢(38906) 見る(36920)
本データは、上のような複数短単位に分割可能な短単位のうち、"2短単位"に分割可能なものを自動形態素解析によって候補に挙げ、 クラウドソーシングを使ってその分割が正しいか否かを選別したリストである。
リポジトリ:constitute_2019_03(ファイルのダウンロード方法)
リポジトリ内の各ファイルの内容は以下の通り。
自動形態素解析によって2短単位に分割した短単位を、 分割の確信度に基づき並び替え、 上位のもの(確信度が高い分割)を抜き出し、 その分割が正しいか否かクラウドソーシングを使ってアンケート調査した結果のrawデータ(非識別加工済み)。
各列名およびクラウドソーシング上での設問など詳細は、ファイル中に記載。
少し大きいデータなので、zip圧縮データ公開。
1)のデータに対し、クラウドソーシングの品質評価手法(Multi-class 版の GLAD:[Whitehill+ 09]の多クラス拡張)を適用し、 各分割に行われた人手の判定に確率で確信度(0.0~1.0)を与えたもの。
列詳細はファイル内ヘッダー部のコメント中に記載。
2)の集計結果から、確信度が○.○以上の分割の行だけを列挙したファイル。
列詳細はファイル内ヘッダー部のコメント中に記載。
本研究は国立国語研究所の所長裁量経費の助成を受けたものです。
同義や、類義、包含など、意味的に近しい関係を持つ(と思われる)字面の近しい短単位ペアのリスト。
例:()は語彙素ID
- アレンジメント-arrangement(1285) アレンジ-arrange(1284)
- 読み聞かせる(174056) 読み聞かす(191472)
- 笑い声(41331) 笑う(41336)
リポジトリ:reference_2019_03(ファイルのダウンロード方法)
リポジトリ内の各ファイルの内容は以下の通り。
- 片方の短単位がもう片方の短単位と全前方完全一致する
- 2つの短単位の先頭文字列が一致する
- 2つの短単位間の編集距離が近い
上のような短単位のペアをランダムに取り出し、 取り出したペアが"似たような意味を持つか否か?" クラウドソーシングを使ってアンケート調査した結果のrawデータ(非識別加工済み)。
各列名およびクラウドソーシング上での設問など詳細は、ファイル中に記載。
少し大きいデータなので、zip圧縮データ公開。
1)のデータに対し、クラウドソーシングの品質評価手法(Multi-class 版の GLAD:[Whitehill+ 09]の多クラス拡張)を適用し、 各ペアに行われた人手の判定に確率で確信度(0.0~1.0)を与えたもの。
列詳細はファイル内ヘッダー部のコメント中に記載。
2)の集計結果から、確信度が○.○以上のペアの行だけを列挙したファイル。
列詳細はファイル内ヘッダー部のコメント中に記載。
本研究は国立国語研究所の所長裁量経費の助成を受けたものです。