WO2021245997A1

WO2021245997A1 - 言語学習支援装置、プログラム及び情報処理方法

Info

Publication number: WO2021245997A1
Application number: PCT/JP2021/006599
Authority: WO
Inventors: 拓途西村
Original assignee: 言語研究開発合同会社
Priority date: 2020-06-05
Filing date: 2021-02-22
Publication date: 2021-12-09
Also published as: JP2023110106A

Abstract

【課題】客観的なデータに基づいた言語学習教材の作成を可能とする技術を提供すること。【解決手段】本発明の一態様によれば、言語学習支援装置が提供される。この言語学習支援装置は、単語抽出部と、カウント部と、ソート部とを備える。単語抽出部は、文章に含まれる単語を抽出するように構成される。カウント部は、単語及びフレーズの出現回数をカウントするように構成される。フレーズとは、抽出された複数の単語を、文章の登場順に並ぶ複数の単語の組み合わせとして扱う単位である。ソート部は、カウントされたフレーズを出現回数に基づきソートするように構成される。

Description

言語学習支援装置、プログラム及び情報処理方法

　本発明は、言語学習支援装置、プログラム及び情報処理方法に関する。

　教育者が言語学習に関する教材を作成する際、学習者が効率よく言語学習できるように、日常生活やビジネスの中でよく使用される表現を優先的に収録した教材を作成するのが一般的である。特許文献１には、教材の作成を支援する教材作成支援システムが開示されている。

特開２０１４－２２８９５７号公報

　しかしながら、言語学習教材に収録する表現を選択する際、どのような表現が頻繁に使用されているかの判断は、教材作成者の経験則や、推測、勘等に基づいて行われる場合が多く、教材の内容が教材作成者の主観に左右されてしまうという問題が生じていた。

　本発明では上記事情を鑑み、客観的なデータに基づいた言語学習教材の作成を可能とする技術を提供することとした。

　本発明の一態様によれば、言語学習支援装置が提供される。この言語学習支援装置は、単語抽出部と、カウント部と、ソート部とを備える。単語抽出部は、文章に含まれる単語を抽出するように構成される。カウント部は、単語及びフレーズの出現回数をカウントするように構成される。フレーズとは、抽出された複数の単語を、文章の登場順に並ぶ複数の単語の組み合わせとして扱う単位である。ソート部は、カウントされたフレーズを出現回数に基づきソートするように構成される。

　これにより、客観的なデータに基づいた言語学習教材の作成を可能とする技術を提供することができる。

第１の実施形態に係る言語学習支援装置３のハードウェア構成を示すブロック図である。言語学習支援装置３の機能を示す機能ブロック図である。言語学習支援装置３の動作の流れを示すアクティビティ図である。文章データＴ１と、処理部３３３による変換処理の結果とを示す図である。処理部３３３による変換処理の結果を示す図である。処理部３３３による変換処理の結果を示す図である。ソート部３３６によるソート結果Ｓを示す図である。重複削除前後のソート結果Ｓを示す図である。表示部３４に表示されるソート結果Ｓの例である。処理部３３３による変換処理前後のフレーズを示した図の一例である。本実施形態に係るシステム１の構成概要を示す図である。第３の実施形態に係る言語学習支援装置３の機能を示す機能ブロック図である。言語学習支援装置３の動作の流れを示すアクティビティ図である。入力データの一例を示す図である。制御部３３による処理結果の一例を示す図である。

　以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。

　ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピュータが読み取り可能な非一時的な記録媒体（Ｎｏｎ－Ｔｒａｎｓｉｔｏｒｙ　Ｃｏｍｐｕｔｅｒ－Ｒｅａｄａｂｌｅ　Ｍｅｄｉｕｍ）として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現（いわゆるクラウドコンピューティング）するように提供されてもよい。

　また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、０又は１で構成される２進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ（いわゆる量子ビット）によって表され、広義の回路上で通信・演算が実行されうる。

　また、広義の回路とは、回路（Ｃｉｒｃｕｉｔ）、回路類（Ｃｉｒｃｕｉｔｒｙ）、プロセッサ（Ｐｒｏｃｅｓｓｏｒ）、及びメモリ（Ｍｅｍｏｒｙ）等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路（Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ：ＡＳＩＣ）、プログラマブル論理デバイス（例えば、単純プログラマブル論理デバイス（Ｓｉｍｐｌｅ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ：ＳＰＬＤ）、複合プログラマブル論理デバイス（Ｃｏｍｐｌｅｘ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｌｏｇｉｃ　Ｄｅｖｉｃｅ：ＣＰＬＤ）、及びフィールドプログラマブルゲートアレイ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ：ＦＰＧＡ））等を含むものである。

１．ハードウェア構成（第１の実施形態）
　本節では、本実施形態のハードウェア構成について説明する。図１は、第１の実施形態に係る言語学習支援装置３のハードウェア構成を示すブロック図である。言語学習支援装置３は、コンピュータに専用プログラムがインストールされることによって実施される。言語学習支援装置３は、通信部３１と、記憶部３２と、制御部３３と、表示部３４と、入力部３５とを有し、これらの構成要素が言語学習支援装置３の内部において通信バス３０を介して電気的に接続されている。各構成要素についてさらに説明する。

（通信部３１）
　通信部３１は、ＵＳＢ、ＩＥＥＥ１３９４、Ｔｈｕｎｄｅｒｂｏｌｔ、有線ＬＡＮネットワーク通信等といった有線型の通信手段が好ましいものの、無線ＬＡＮネットワーク通信、ＬＴＥ／３Ｇ等のモバイル通信、Ｂｌｕｅｔｏｏｔｈ（登録商標）通信等を必要に応じて含めてもよい。すなわち、これら複数の通信手段の集合として実施することがより好ましい。

（記憶部３２）
　記憶部３２は、前述の記載により定義される様々な情報を記憶する。これは、例えば、制御部３３によって実行される言語学習支援装置３に係る種々のプログラム等を記憶するソリッドステートドライブ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ：ＳＳＤ）等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報（引数、配列等）を記憶するランダムアクセスメモリ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ：ＲＡＭ）等のメモリとして実施されうる。また、これらの組合せであってもよい。

（制御部３３）
　制御部３３は、言語学習支援装置３に関連する全体動作の処理・制御を行う。制御部３３は、例えば不図示の中央処理装置（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ：ＣＰＵ）である。制御部３３は、記憶部３２に記憶された所定のプログラムを読み出すことによって、言語学習支援装置３に係る種々の機能を実現する。すなわち、ソフトウェア（記憶部３２に記憶されている）による情報処理がハードウェア（制御部３３）によって具体的に実現されることで、制御部３３に含まれる各機能部（図２参照）として実行されうる。これらについては、次節においてさらに詳述する。なお、制御部３３は単一であることに限定されず、機能ごとに複数の制御部３３を有するように実施してもよい。またそれらの組合せであってもよい。

（表示部３４）
　表示部３４は、例えば、言語学習支援装置３の筐体に含まれるものであってもよいし、外付けされるものであってもよい。表示部３４は、ユーザが操作可能なグラフィカルユーザインターフェース（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ：ＧＵＩ）の画面を表示する。これは例えば、ＣＲＴディスプレイ、液晶ディスプレイ、有機ＥＬディスプレイ及びプラズマディスプレイ等の表示デバイスを、言語学習支援装置３の種類に応じて使い分けて実施することが好ましい。当該表示デバイスは、制御部３３における出力部３３８の制御信号に応答して、表示画面を選択的に表示しうる。これにより、表示部３４は、ソート結果Ｓをユーザが視認可能に表示することができる。

（入力部３５）
　入力部３５は、言語学習支援装置３の筐体に含まれるものであってもよいし、外付けされるものであってもよい。例えば、入力部３５は、表示部３４と一体となってタッチパネルとして実施されてもよい。タッチパネルであれば、ユーザは、タップ操作、スワイプ操作等を入力することができる。もちろん、タッチパネルに代えて、スイッチボタン、マウス、ＱＷＥＲＴＹキーボード等を採用してもよい。すなわち、入力部３５がユーザによってなされた操作入力を受け付ける。当該入力が命令信号として、通信バス３０を介して制御部３３に転送され、制御部３３が必要に応じて所定の制御や演算を実行しうる。

　特に、ユーザは、入力部３５を用いてフレーズに含める単語数の上限値や、自然言語処理の可否、採用フレーズ４の単語数、ソート結果Ｓの表示条件等、文章データＴ１の処理条件等を入力することができる。

２．機能構成
　本節では、本実施形態の機能構成について説明する。図２は、言語学習支援装置３の機能を示す機能ブロック図である。前述の通り、ソフトウェア（記憶部３２に記憶されている）による情報処理がハードウェア（制御部３３）によって具体的に実現されることで、制御部３３に含まれる各機能部として実行されうる。

　具体的には、言語学習支援装置３（制御部３３）は、受付部３３１と、設定部３３２と、処理部３３３と、単語抽出部３３４と、カウント部３３５と、ソート部３３６と、重複削除部３３７と、出力部３３８とを備える。

（受付部３３１）
　受付部３３１は、通信部３１又は記憶部３２を介して情報を受け付け、これを作業メモリに読出可能に構成される。特に、受付部３３１は、通信部３１、記憶部３２又は入力部３５を介して種々の情報を受け付けるように構成される。具体的には、受付部３３１は、文章データＴ１と、文章データＴ１の処理設定に関する情報とを入力データとして受け付ける。文章データＴ１、文章データＴ１、フレーズ群Ｆ等の処理設定に関する情報は、言語学習支援装置３における記憶部３２に予め記憶されているものを読み出すようにしてもよいし、外部メディアに記憶されたものを読み出すようにしてもよい。あるいはユーザが、入力部３５を用いて、これらのデータ又は情報を直接作成してもよいし、通信部３１を介して、外部からこれらのデータ又は情報をダウンロードするようにしてもよい。

（設定部３３２）
　設定部３３２は、受付部３３１が受け付けた種々の情報に基づき、言語学習支援装置３による処理条件を設定する。具体的には、例えば、設定部３３２は、文章データＴ１の処理設定に関する情報に基づき、フレーズに含める単語数の上限値や、自然言語処理の有無、採用フレーズ４に含まれる単語数、ソート結果Ｓの表示条件等、文章データＴ１の処理条件を設定する。設定部３３２による各種設定は、設定ファイルとして記憶部３２に記憶される。すなわち、設定部３３２は、該処理条件に基づき各種設定を行うことで、受付部３３１が受け付けた文章データＴ１の処理条件を、言語学習支援装置３の情報処理に反映する。なお、処理条件の詳細は次節で詳述する。

（処理部３３３）
　処理部３３３は、文章データＴ１を含むファイル及び文章データＴ１に含まれる単語、記号、数字等を設定部３３２による設定に基づき処理する。具体的には、文章データＴ１を含むファイルを結合・分割し、文章データＴ１の書式を変換し、任意の記号が含まれる単語及びフレーズを削除する。

（単語抽出部３３４）
　単語抽出部３３４は、文章中の所定入力に基づき、文章に含まれる単語を抽出する。なお、単語抽出部３３４は、単語とともに、文章に含まれる記号及び数字の抽出を行うことに留意されたい。

（カウント部３３５）
　カウント部３３５は、単語及びフレーズの出現回数をカウントするように構成される。また、上限値が設定されている場合、カウント部３３５は、設定された上限値以下の単語及びフレーズの出現回数をカウントするように構成される。

（ソート部３３６）
　ソート部３３６は、カウントされた単語及びフレーズを出現回数に基づきソートする。また、採用フレーズ４が決定された場合、ソート部３３６は、採用フレーズ４を出現回数に基づきソートする。また、ソート部は、カウント部３３５によってカウントされたフレーズを出現度Ｆ４に基づきソートしてもよい。これにより、出現回数の多い単語及びフレーズがランキング形式で示されることとなる。

（重複削除部３３７）
　重複削除部３３７は、ソート結果Ｓに含まれる複数のフレーズに同一の単語の組み合わせが含まれる場合、複数のフレーズのうち一部を削除することで、採用フレーズ４を決定するように構成される。

（出力部３３８）
　出力部３３８は、ソート結果Ｓを出力し、これが言語学習支援装置３の表示部３４に表示される。出力部３３８が出力するソート結果Ｓとは、例えば、ソート結果Ｓ１８～ソート結果Ｓ２２であり、詳細は後述する。

３．情報処理の詳細
　本節では、前述した言語学習支援装置３の情報処理について説明する。図３は、言語学習支援装置３の動作の流れを示すアクティビティ図である。以下、図３における各アクティビティに沿って説明をする。

　まず、ユーザは、入力部３５を用いて、文章データＴ１及び文章データＴ１の処理設定に関する情報を、言語学習支援装置３に予めインストールされた専用プログラムに読み込ませる。受付部３３１は、文章データＴ１及び文章データＴ１の処理設定に関する情報を受け付ける（アクティビティＡ１）。なお、受付部３３１は、自然言語処理のなされた文章データＴ１を受け付けてもよい。

　文章データＴ１のファイル形式は、例えばテキスト形式（．ｔｘｔ又は．ｃｓｖ）である。文章データＴ１は、複数のファイルからなってもよいし、単一のファイルでもよい。また、文章データＴ１は、言語コーパスであることが好ましいが、学術論文、新聞、演説等、何らかの言語により構成された資料であれば、種類は問わない。さらに、文章データＴ１は、数億単語以上で構成されることが好ましいが、これに限定されず、１０００単語以下でもよい。文章データＴ１の処理設定に関する情報とは、例えば、フレーズに含める単語数の上限値、自然言語処理に関する設定、ファイルの分割単位に関する設定等情報である。なお、文章データＴ１の言語は、特に限られないが、例えば、英語、中国語、フランス語、ドイツ語、スペイン語、ロシア語、ポルトガル語、ヒンドゥー語、アラビア語等である。本実施形態では、英語を例に説明している。

　次に、設定部３３２は、アクティビティＡ１において受け付けた処理設定に基づき、フレーズに含める単語数の上限値を設定する（アクティビティＡ２）。また、この際、自然言語処理に係る設定、採用フレーズ４の単語数等、文章データＴ１の処理条件が設定される。

　次に、処理部３３３は、所定の単語数ごとにファイルを分割する（アクティビティＡ３）。所定の単語数は、設定部３３２の処理設定に基づき、例えば、１万語、１００万語等である。ファイルが複数ある場合、処理部３３３は、ファイルの分割前に全てのファイルを結合してから、分割を行うことが好ましい。例えば、ファイルに含まれる単語数の合計が１０億語である場合、処理部３３３は、１００万語ごとに１０００ファイルに分割する。

　その後、処理部３３３は、アクティビティＡ２においてなされた設定に基づき、文章データＴ１に含まれる文字、数字及び記号を、所定の形式に変換する（アクティビティＡ４）。また、処理部３３３は、文章データＴ１に含まれる改行を削除する。具体的には、例えば、処理部３３３は、文章中の全角文字（英数字及び記号を含む）を、半角文字に変換するとともに、アルファベットの大文字を小文字に変換する。また、処理部３３３は、文章データＴ１に含まれる改行を削除する。

　図４は、文章データＴ１と、処理部３３３による変換処理の結果とを示す図である。図４に示される文章データＴ１は、アクティビティＡ１において受け付けた文章データＴ１である。中間データＴ１０は、処理部３３３によって、文章データＴ１に含まれる改行が削除された場合の処理結果である。また、中間データＴ１１は、処理部３３３によって、文章に含まれる大文字が小文字に変換された場合の処理結果である。これにより、表記のゆれがあることで文章中の同一の意味をもつ文字、記号、数字等が別々にカウント部３３５によってカウントされることを防ぐことができる。

　また、設定部３３２によって、自然言語処理を行う処理設定がされている場合、処理部３３３は、文章中の各単語を品詞へ置き換える。中間データＴ１２は、文章の一部“ｍｙ　ｆａｔｈｅｒ’ｓ　ｄｒａｇｏｎ　ｃｈａｐｔｅｒ　ｏｎｅ　ｍｙ　ｆａｔｈｅｒ　ｍｅｅｔｓ”が変換された結果、「限定詞　限定詞　名詞　名詞　数字　限定詞　名詞　動詞」へと置き換えられた場合の処理結果の例である。なお、中間データＴ１２では、単語の種類に関わらず自然言語処理を行う例を示したが、設定部３３２の設定に基づき、特定の単語のみについて、かかる処理を行ってもよい。例えば、設定部３３２が“ａ”又は“ｔｈｅ”のみについて、自然言語処理を行うよう設定していた場合、“ａ”又は“ｔｈｅ”のみ自然言語処理が行われてもよい。

　次に、単語抽出部３３４は、文章中の所定入力（例えばスペース、タブ記号又は改行）に基づき、文章データＴ１に含まれる単語、記号及び数字（以後、単語等）を抽出する（アクティビティＡ５）。また、単語等が抽出されると、処理部３３３は、抽出された単語等を文章の登場順に並べた単語リストを生成するとともに、該単語リストに基づき上限値以下の単語等で構成されるフレーズを含むフレーズリストを生成する（アクティビティＡ６）。なお、処理部３３３は、単語とともに抽出した記号及び数字を、それぞれ一単語とみなして単語リスト及びフレーズリストを作成することに留意されたい。

　ここで、フレーズとは、抽出された複数の単語等を、文章の登場順に並ぶ複数の単語の組み合わせとして扱う単位である。図５及び図６は、処理部３３３による変換処理の結果を示す図である。例えば、上限値が２である場合、単語抽出部３３４によって文章データＴ１に含まれる単語が抽出された後、処理部３３３は、単語リスト（例えば、中間データＴ１３）を生成する（図５）。また、処理部３３３は、抽出した単語を、単語リストに基づき、２単語ごとにフレーズとしてリストアップしたフレーズリスト（例えば、中間データＴ１５）を生成する。

　より具体的には、“ｍｙ”、“ｆａｔｈｅｒ’ｓ”、“ｄｒａｇｏｎ”、“ｃｈａｐｔｅｒ”、“ｏｎｅ”、が単語として抽出された場合、２単語のフレーズとしては、文章の登場順に“ｍｙ　ｆａｔｈｅｒ’ｓ”、“ｄｒａｇｏｎ　ｃｈａｐｔｅｒ”と、“ｆａｔｈｅｒ’ｓ　ｄｒａｇｏｎ”、“ｃｈａｐｔｅｒ　ｏｎｅ”とがリストアップされる。すなわち、連続している任意の組合せをフレーズとしてリストアップする。より一般化すると、ｎ単語のフレーズの場合は、ｎ通りのリストアップが考えられる。このようにすることで、漏れのないリストアップが実現される。その結果、処理部３３３によって、文章データＴ１は、２つのリスト（単語リスト及び２単語のフレーズリスト）に変換される。なお、任意の連続する組合せを列挙して説明するのは煩雑であるため、以下では、連続している任意の組合せのうち、代表的な１つを選択して代表例として説明するものとする。

　上限値が３である場合、処理部３３３は、前述した単語リスト及び２単語を含むフレーズリストに加え、３単語のフレーズを含む３つのフレーズリストを生成する。かかる場合、抽出された単語は文章の登場順に、“ｍｙ　ｆａｔｈｅｒ’ｓ　ｄｒａｇｏｎ”が３単語のフレーズの代表例としてリストアップされる（不図示）。

　上限値が５である場合、前述した３つのリストに加え、４単語を含むフレーズ及び５単語を含むフレーズのフレーズリストを生成し、合わせて５つの単語リスト又はフレーズリストが生成される。なお、本実施形態において、フレーズリストを作成する際、記号及び数字はそれぞれひとつの単語として扱うことに留意されたい。すなわち、単語リストに“ｌｉｔｔｌｅ”、“ｂｏｙ”、“．”がリストアップされ、これらが一つのフレーズとして扱われる場合、“ｌｉｔｔｌｅ　ｂｏｙ　．”が３単語のフレーズとみなされる。

　単語リスト及びフレーズリストが生成されると、処理部３３３は、処理設定に基づき、単語とともに抽出された所定の記号と、所定の記号を含むフレーズとを削除する（アクティビティＡ７）。例えば、設定部３３２によって、コンマ、ピリオド、クエッションマーク、ダブルクォーテーションマーク等の記号を削除するように設定された場合、処理部３３３は、中間データＴ１３を生成後、かかる記号を削除して中間データＴ１４を生成する。また、２単語のフレーズで構成されるフレーズリストにおいては、図６に示されるように、処理部３３３は、中間データＴ１５で示されるフレーズのうち、上記の記号を含む“ｂｏｙ　．”“ｓｔｒｅｅｔ　．”“？　””に係るフレーズを削除し、中間データＴ１６を生成する（図６）。なお、ここで生成された単語リスト（例えば、中間データＴ１４）及びフレーズリスト（例えば、中間データＴ１６）は、テキスト形式で生成されることが好ましい。

　所定の記号が削除されると、カウント部３３５は、設定された上限値以下の単語及びフレーズの出現回数をカウントする（アクティビティＡ８）。また、出現回数がカウントされると、ソート部３３６は、カウントされたフレーズを出現回数に基づきソートする。すなわち、ソート部３３６は、文章中に出現した単語又はフレーズを、それぞれ出現回数の多い順に並べる。図７は、ソート部３３６によるソート結果Ｓを示す図である。て表示される。例えば、ソート結果Ｓ１０は、単語リストに含まれる単語の出現回数が多い順に並べたものである。また、ソート結果Ｓ１１は、２単語のフレーズリストに含まれるフレーズを出現回数が多い順に並べたものである。

　また、複数のフレーズに同一の単語の組み合わせが含まれる場合、重複削除部３３７は、複数のフレーズのうち一部を削除することで、採用フレーズ４を決定する（アクティビティＡ９）。ここで、採用フレーズ４は、フレーズに含まれる単語数に基づき決定されることが好ましい。より具体的には、採用フレーズ４は、フレーズに含まれる単語数が最大又は最小のフレーズであることが好ましい。なお、採用フレーズ４を最大のフレーズとするか、最小のフレーズとするかの決定及び採用フレーズ４に含まれる単語数に係る決定は、設定部３３２によってなされた文章データＴ１の処理設定に基づき行われる。

　ここで、採用フレーズ４とは、重複削除部３３７によって削除されずに残ったフレーズである。図８は、重複削除前後のソート結果Ｓを示す図である。図８において、上限値が３に設定されるとともに、採用フレーズ４をフレーズに含まれる単語数が最大のフレーズとする設定がなされた場合の例が示される。例えば、重複削除前のソート結果Ｓ１２～ソート結果Ｓ１４を参照すると、文章中に“ｈｅ”という単語が３回、“ｈｅ　ｉｓ”というフレーズが２回、“ｈｅ　ｉｓ　ａ　ｓｔｕｄｅｎｔ”というフレーズが２回出現した場合、重複削除部３３７は、それぞれのソート結果Ｓで重複している“ｈｅ”及び“ｈｅ　ｉｓ”を削除するとともに、採用フレーズ４を“ｈｅ　ｉｓ　ａ　ｓｔｕｄｅｎｔ”に決定し、ソート結果Ｓ１５～ソート結果Ｓ１７を生成する。すなわち、複数のフレーズに同一の単語の組み合わせが含まれる場合、重複削除部３３７は、複数のフレーズのうち、１つの採用フレーズ４を除いた残りを削除する。これにより、ユーザがソート結果Ｓを学習に用いる際、単語やフレーズの重複のないソート結果Ｓを確認することが可能となるので、学習者が効率よく言語学習することができる。

　ここで、フレーズに含まれる単語数が最大のフレーズを採用フレーズ４とする設定がなされた場合の例として、図８を参照されたい。図８において、ソート結果Ｓ１２～ソート結果Ｓ１４において重複する単語又はフレーズがある場合、単語数が最大のソート結果Ｓ１４以外のソート結果Ｓ１２及びソート結果Ｓ１３に含まれるフレーズが削除されることとなる。すなわち、ソート結果Ｓ１４に含まれるフレーズが、優先的に採用フレーズ４として残される。より具体的には、重複削除前後のソート結果Ｓを比較すると、“ｈｅ”、“ｉｓ”、“ａ”、”“ｈｅ　ｉｓ”及び“ｉｓ　ａ”は、それぞれソート結果Ｓ１４のフレーズに含まれる単語の組み合わせと重複するものとして削除され、ソート結果Ｓ１４においてこれらの単語及びフレーズを含む“ｈｅ　ｉｓ　ａ　ｓｔｕｄｅｎｔ”と、“ｓｈｅ　ｈａｓ　ｔｈｅ”とが残ることとなる。なお、ソート結果Ｓ１６の“ｓｈｅ　ｉｓ”は、ソート結果Ｓ１４に含まれるフレーズと重複しないので、削除されず残されることとなる。

　また、採用フレーズ４に含まれる単語数は、１を下限とし、上限はないが、３以上２０以下であることが好ましい。具体的には、３，４，５，６，７，８，９，１０，１１，１２，１３，１４，１５，１６，１７，１８，１９，２０であり、ここで例示した数値の何れか２つの間の範囲内であってもよい。このような構成により、例えば、採用フレーズ４に含まれる単語数が４と設定され、単語数が３～２０の各フレーズにおいて、それぞれ同一の単語の組み合わせが含まれる場合、単語数が３及び５～２０のフレーズが削除され、単語数が４のフレーズが採用フレーズ４として残されることとなる。その結果、言語学習に適した単語数のフレーズが優先的に採用フレーズ４として残され、学習者はより効率的に言語学習をすることが可能となる。

　その後、ソート部３３６は、採用フレーズ４を出現回数に基づきソートする（アクティビティＡ１０）。そして、自然言語処理が行われていない場合、出力部３３８は、かかる結果を出力する（アクティビティＡ１１）。そして、表示部３４は、出力されたソート結果Ｓを表示する。これにより、ユーザは、文章中での出現回数の多い単語又はフレーズをランキング形式で確認することが可能となり、学習者は、客観的なデータに基づいた言語学習が可能となる。

　図９は、表示部３４に表示されるソート結果Ｓの例である。ソート結果Ｓ１８、ソート結果Ｓ１９及びソート結果Ｓ２０は、それぞれ２単語、３単語、５単語のフレーズにおけるソート結果Ｓである。該ソート結果Ｓは、設定部３３２が設定したソート結果Ｓの表示設定に基づき表示される。ソート結果Ｓの表示設定とは、例えば、出現頻度が２回以上の単語及びフレーズのみを表示する設定や、出現頻度が上位１０位までの単語及びフレーズのみを表示する設定である。ソート結果Ｓ１８～ソート結果Ｓ２２は、出現頻度が３回以上の単語及びフレーズのみを表示する設定に基づき表示されたソート結果Ｓの例である。

　ここで、自然言語処理が行われていた場合、処理部３３３は、アクティビティＡ４において品詞に置き換えられた採用フレーズ４に含まれる単語を、所定の文字に変換する（アクティビティＡ１２）。図１０は、処理部３３３による変換処理前後のフレーズを示した図の一例である。図１０に示されるように、
処理部３３３は、文章に含まれる所定の単語が所定の品詞に置換されたフレーズを、所定の文字に変換する。すなわち、処理部３３３は、“ｂｅ　ｇｏｉｎｇ　ｔｏ　動詞”、“ｈａｖｅ　ｔｏ　動詞”は、“ｂｅ　ｇｏｉｎｇ　ｔｏ　ｄｏ”、“ｈａｖｅ　ｔｏ　ｄｏ”に変換する（ソート結果Ｓ２４及びソート結果Ｓ２４参照）。

　その後、出力部３３８は、ソート結果Ｓを出力する（アクティビティＡ１３）。なお、自然言語処理が行われている場合であっても、アクティビティＡ１２をスキップして、ソート結果Ｓ２２のように、各単語が所定の品詞に置き換えられたままの状態でソート結果Ｓを出力してもよい。

　また、ソート結果Ｓ２１で示されるように、ソート部３３６は、採用フレーズ４を、単語数に関わらず、出現回数に基づきソートしてもよい。具体的には、アクティビティＡ１０又はアクティビティＡ１２の後、処理部３３３は、ソート結果Ｓ１８～ソート結果Ｓ２０を合算し、かかる処理結果をアクティビティＡ１１又はアクティビティＡ１３において、ソート部３３６が出現回数に基づきソートしてもよい。

　ソート結果Ｓ２１は、上限値が５と設定された場合に、採用フレーズ４を、それぞれのフレーズに含まれる単語数に関わらずソートした結果である。すなわち、フレーズの単語数別の出現回数のランキングではなく、単語数の異なるソート結果Ｓをまとめて示した総合ランキングが示される。

　このように、第１の実施形態に係る言語学習支援装置３によれば、文章データＴ１を入力として、実際に使用される頻度に基づいて、単語やフレーズのランキングを生成することができる。このようなランキングを用いることで、より客観的なデータに基づいた言語学習教材の作成を行うことができ、言語学習支援に貢献すると考えられる。また、本実施形態では、専用プログラムをインストールした言語学習支援装置３を使用するため、オフライン環境でも使用可能であり、大容量の文章データＴ１を扱うことに適している。

４．第２の実施形態
　本節では、第２の実施形態に係る言語学習支援装置３及びこれを含むシステム１について説明する。なお、第１の実施形態に係る言語学習支援装置３と同様の構成や特徴については、説明を省略する。図１１は、本実施形態に係るシステム１の構成概要を示す図である。システム１は、端末２と、言語学習支援装置３とを備え、これらが電気通信回線を通じて通信可能に構成される。

　端末２は、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて言語学習支援装置３にアクセス可能なものであれば、その形態は問わない。端末２は、通信部と、記憶部と、制御部と、表示部と、入力部とを有し、これらの構成要素が端末２の内部において通信バスを介して電気的に接続されている。

　通信部、記憶部、制御部、表示部及び入力部の具体的な説明については、第１節で説明した言語学習支援装置３における通信部３１、記憶部３２、制御部３３、表示部３４及び入力部３５の記載を参照されたい。

　言語学習支援装置３は、ハードウェア構成として、通信部３１と、記憶部３２と、制御部３３とを有し、これらの構成要素が言語学習支援装置３の内部において通信バス３０を介して電気的に接続されている。詳細は、第１節で説明した言語学習支援装置３における通信部３１、記憶部３２及び制御部３３の記載を参照されたい。また、第２の実施形態における言語学習支援装置３（制御部３３）は、機能構成として、受付部３３１と、設定部３３２と、処理部３３３と、単語抽出部３３４と、カウント部３３５と、ソート部３３６と、重複削除部３３７と、出力部３３８とを備える。

　特に、受付部３３１は、ユーザが使用する端末２からネットワーク及び通信部３１を介して種々の情報を受け付けるように構成される。具体的には、受付部３３１は、端末２から文章データＴ１と、言語学習支援装置３における文章データＴ１の処理設定に関する情報とを受け付ける。

　また、出力部３３８は、ソート結果Ｓを出力し、これが端末２の表示部に表示される。あるいは、出力部３３８は、ソート結果Ｓを端末２に表示させるためのレンダリング情報だけを生成してもよい。

　このように、第２の実施形態に係るシステム１によれば、文章データＴ１を入力として、実際に使用される頻度に基づいて、単語やフレーズのランキングを生成することができる。このようなランキングを用いることで、より客観的なデータ基づいた言語学習教材の作成を行うことができ、言語学習支援に貢献すると考えられる。また、本実施形態では、ユーザが端末２を介して、外部サーバである言語学習支援装置３にアクセス可能に構成されており、多くのユーザがより手頃にランキングを生成することができる。

４．第３の実施形態
　本節では、第３の実施形態に係る言語学習支援装置３について説明する。ただし、第１の実施形態及び第２の実施形態に係る言語学習支援装置３と同様の構成や特徴については、説明を省略する。図１２は、第３の実施形態に係る言語学習支援装置３の機能を示す機能ブロック図である。
具体的には、言語学習支援装置３は、算出部３３９をさらに備える。

　図１３は、言語学習支援装置３の動作の流れを示すアクティビティ図である。以下、図１３における各アクティビティに沿って説明をする。

　ユーザは、入力部３５を用いて、フレーズ群Ｆと、頻度データＴ５と、重み付けデータＴ６とを入力データとして言語学習支援装置３に予めインストールされた専用プログラムに読み込ませてもよい。また、このとき、ユーザは、重み付けの処理条件に係る情報を、入力データとして読み込ませてもよい。入力データが読み込まれると、受付部３３１は、これらの入力データを受け付ける（Ａ１０１）。つまり、受付部３３１は、フレーズ群Ｆと、頻度データＴ５とを受け付ける。受付部３３１が受け付けた入力データは、記憶部３２に記憶される。

　図１４は、入力データの一例を示す図である。フレーズ群Ｆは、単語又は２以上の単語を含むフレーズを複数含む。なお、受付部３３１が、フレーズが重複するフレーズ群Ｆを受け付けた場合、重複削除部３３７は、フレーズの重複を削除してもよい。

　頻度データＴ５は、単語又はフレーズの出現回数を示すデータである。具体的には、頻度データＴ５は、単語又はフレーズと、その出現回数とを対応付けたデータである。図１４の例によれば、“Ｔｈｉｓ”の出現回数は１０、“ｉｓ”の出現回数は２０回であることが示される。なお、受付部３３１が単語又はフレーズが重複する頻度データＴ５を受け付けた場合、重複削除部３３７は、重複する単語又はフレーズの出現回数を合算した上で、重複を削除してもよい。

　重み付けデータＴ６は、特定の単語又はフレーズの重みを示すデータである。図１４の例によれば、頻度データＴ５に含まれる単語又はフレーズのうち、　“ｇｏｏｄ”と、”ｔｈｉｓ　ｉｓ”と、“ｋｎｏｗ”について、それぞれ５と、２と、４と重みが付けられている。また、重み付けの処理条件に係る情報とは、例えば、一律に特定の種類の単語又はフレーズについて重み付けをする条件に係る情報である。

　次に、算出部３３９は、フレーズ群Ｆと、頻度データＴ５とに基づき、フレーズ群Ｆに含まれる各単語又は各フレーズの出現度Ｆ４を算出する（Ａ１０２）。具体的には、算出部３３９は、頻度データＴ５を参照して、フレーズ群Ｆに含まれる各単語又は各フレーズの出現回数の合計から、出現度Ｆ４を算出する。

　図１５は、制御部３３による処理結果の一例を示す図である。中間データＴ１７は、算出された出現度Ｆ４ａの一例である。算出部３３９は、出現度Ｆ４ａを算出するフレーズが“ｔｈｉｓ　ｉｓ　ｇｏｏｄ”である場合（図１５参照）、“ｔｈｉｓ　ｉｓ　ｇｏｏｄ”に含まれる単語“ｔｈｉｓ”と、”ｉｓ”と、”ｇｏｏｄ”との出現回数（それぞれ１０回、２０回、３０回）と、“ｔｈｉｓ　ｉｓ　ｇｏｏｄ”に含まれるフレーズ”ｔｈｉｓ　ｉｓ”の出現回数（５回）との合計である６５を、このフレーズの単語数である３で割り、２１．６７を“ｔｈｉｓ　ｉｓ　ｇｏｏｄ”の出現度Ｆ４ａとして算出する。このとき、割り切れない数が算出された場合、算出部３３９は、端数処理をしてから出現度Ｆ４ａを算出する。具体的には、例えば、算出部３３９は、小数点第３位を四捨五入した数を、出現度Ｆ４ａとして算出する。このようにして、フレーズ群Ｆに含まれる全てのフレーズについて、出現度Ｆ４ａを算出する。

　また、算出部３３９は、重み付けデータＴ６及び重み付けの処理条件に係る情報に基づき、特定の単語又はフレーズについて重み付けを行った上で出現度Ｆ４を算出してもよい。以下、図１４及び図１５
を参照しながら、算出部３３９が、重み付けデータＴ６に基づき“ｔｈｉｓ　ｉｓ　ｇｏｏｄ”の出現度Ｆ４ｂを算出する例について説明する。中間データＴ１８は、算出された出現度Ｆ４ｂの一例である。

　重み付けデータＴ６では、“ｔｈｉｓ　ｉｓ　ｇｏｏｄ”に含まれる“ｇｏｏｄ”について、値３の重みが付けられている。したがって、算出部３３９は、頻度データＴ５では、“ｇｏｏｄ”の出現回数が３０回とされているところ、これに３を掛けて、“ｇｏｏｄ”の出現回数を、９０回であるものとして出現度Ｆ４ｂを算出する。つまり、算出部３３９は、“ｔｈｉｓ　ｉｓ　ｇｏｏｄ”に含まれる単語“ｔｈｉｓ”と、”ｉｓ”と、”ｇｏｏｄ”との出現回数（それぞれ１０回、２０回、９０回）と、フレーズ”ｔｈｉｓ　ｉｓ”の出現回数（５回）との合計である１２５を、このフレーズの単語数である３で割り、４１．６７を“ｔｈｉｓ　ｉｓ　ｇｏｏｄ”の出現度Ｆ４ｂとして算出する。このようにして、フレーズ群Ｆに含まれる全てのフレーズについて、出現度Ｆ４ｂを算出する。ただし、これに限らず、算出部３３９は、様々な方法により出現度Ｆ４を算出することができる。例えば、算出部３３９は、フレーズの単語数である３で割らずに、フレーズ群Ｆに含まれる各単語又は各フレーズの出現回数の合計を予め設定された値で割ってもよいし、掛けてもよく、そのまま出現度Ｆ４ｂとして算出してもよい。また、例えば、算出部３３９は、フレーズ群Ｆに含まれる各単語又は各フレーズの出現回数の合計を、フレーズ群Ｆに含まれるフレーズうち最も単語数の多いフレーズで四則演算を行ってもよい。

　なお、例えば、受付部３３１が、一律に動詞を２だけ重み付けする旨の情報を受け付けた場合、算出部３３９は、自然言語処理を行った上で、頻度データＴ５に含まれる動詞の出現回数を２倍にして出現度Ｆ４を算出してもよい。また、受付部３３１が、一律に名詞を０．５だけ重み付けする旨の情報を受け付けた場合、算出部３３９は、頻度データＴ５に含まれる名詞の出現回数を０．５倍にして出現度Ｆ４を算出してもよい。このような構成により、算出部３３９は、条件によって重みの大小を自由に変えて出現度Ｆ４を算出することができる。

　その後、ソート部３３６は、出現度Ｆ４に基づき、フレーズをソートする（Ａ１０３）。具体的には、ソート部３３６は、フレーズ群Ｆに含まれる出現度Ｆ４の大きい順に、フレーズをソートする。ソート結果Ｓ２５は、出現度Ｆ４ａに基づきソートされたフレーズ群Ｆの一例である。ソート結果Ｓ２６は、出現度Ｆ４ｂに基づきソートされたフレーズ群Ｆの一例である。これにより、頻度データＴ５に基づき算出された出現回数の多いフレーズがランキング形式で示されることとなる。なお、ソート部は、カウント部３３５によってカウントされたフレーズを出現度Ｆ４に基づきソートしてもよい。

　そして、出力部３３８は、ソート結果Ｓ２５又はソート結果Ｓ２６を出力する（Ａ１０４）。これによって第３の実施形態における情報処理は終了する。

６．その他
　本実施形態に係るシステム１に関して、以下のような態様を採用してもよい。

（１）本実施形態の態様は、プログラムであってもよい。このプログラムは、コンピュータを言語学習支援装置３として機能させる。
（２）言語学習支援装置３には、上記のプログラムが予めインストールされていてもよいし、コンピュータにこれをインストールして事後的に言語学習支援装置３として機能するように実施してもよい。
（３）本実施形態の態様は、情報処理方法であってもよい。情報処理方法は、単語抽出ステップと、カウントステップと、ソートステップとを備える。単語抽出ステップでは、文章に含まれる単語を抽出する。カウントステップでは、設定された上限値の範囲内で、単語及びフレーズの出現回数をカウントする。フレーズとは、抽出された複数の単語を、文章の登場順に並ぶ複数の単語の組み合わせとして扱う単位である。ソートステップでは、カウントされたフレーズを出現回数に基づきにソートする。

　さらに、次に記載の各態様で提供されてもよい。
　前記言語学習支援装置において、設定部をさらに備え、前記設定部は、前記フレーズに含める単語数の上限値を設定可能に構成され、前記カウント部は、設定された前記上限値以下の前記単語及び前記フレーズの出現回数をカウントするように構成される、もの。
　前記言語学習支援装置において、重複削除部をさらに備え、前記重複削除部は、複数の前記フレーズに同一の前記単語の組み合わせが含まれる場合、複数の前記フレーズのうち一部を削除することで、採用フレーズを決定するように構成され、前記ソート部は、前記採用フレーズを前記出現回数に基づきソートするように構成される、もの。
　前記言語学習支援装置において、前記重複削除部は、複数の前記フレーズのうち、１つの前記採用フレーズを除いた残りを削除するように構成される、もの。
　前記言語学習支援装置において、前記採用フレーズは、前記フレーズに含まれる単語数に基づき決定される、もの。
　前記言語学習支援装置において、前記採用フレーズは、前記フレーズに含まれる単語数が最大又は最小の前記フレーズである、もの。
　前記言語学習支援装置において、前記採用フレーズに含まれる前記単語数は、３以上２０以下である、もの。
　前記言語学習支援装置において、受付部と、算出部とをさらに備え、前記受付部は、フレーズ群と、頻度データとを受け付けるように構成され、前記フレーズ群は、前記単語又は前記フレーズを含み、前記頻度データは、前記単語又は前記フレーズの出現回数を示すデータであり、前記算出部は、前記フレーズ群と、前記頻度データとに基づき、前記フレーズ群に含まれる前記単語又は前記フレーズの出現度を算出するように構成され、前記ソート部は、カウント部によってカウントされた前記フレーズを前記出現度に基づきソートするように構成される、もの。
　プログラムであって、コンピュータを前記言語学習支援装置として機能させる、もの。
　情報処理方法であって、単語抽出ステップと、カウントステップと、ソートステップとを備え、前記単語抽出ステップでは、文章に含まれる単語を抽出し、前記カウントステップでは、設定された上限値の範囲内で、前記単語及びフレーズの出現回数をカウントし、前記フレーズとは、抽出された複数の前記単語を、前記文章の登場順に並ぶ複数の前記単語の組み合わせとして扱う単位で、前記ソートステップでは、カウントされた前記フレーズを前記出現回数に基づきソートする、方法。
　もちろん、この限りではない。

　最後に、本発明に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。当該新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。当該実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

１　　　：システム
２　　　：端末
３　　　：言語学習支援装置
３０　　：通信バス
３１　　：通信部
３２　　：記憶部
３３　　：制御部
３３１　：受付部
３３２　：設定部
３３３　：変換部
３３４　：単語抽出部
３３５　：カウント部
３３６　：ソート部
３３７　：重複削除部
３３８　：出力部
３３９　：算出部
４　　　：採用フレーズ
Ｓ　　　：ソート結果
Ｓ１０　：ソート結果
Ｓ１１　：ソート結果
Ｓ１２　：ソート結果
Ｓ１３　：ソート結果
Ｓ１４　：ソート結果
Ｓ１５　：ソート結果
Ｓ１６　：ソート結果
Ｓ１７　：ソート結果
Ｓ１８　：ソート結果
Ｓ１９　：ソート結果
Ｓ２０　：ソート結果
Ｓ２１　：ソート結果
Ｓ２２　：ソート結果
Ｓ２３　：ソート結果
Ｓ２４　：ソート結果
Ｓ２５　：ソート結果
Ｓ２６　：ソート結果
Ｔ１　　：文章データ
Ｔ５　　：頻度データ
Ｔ６　　：重み付けデータ
Ｔ１０　：中間データ
Ｔ１１　：中間データ
Ｔ１２　：中間データ
Ｔ１３　：中間データ
Ｔ１４　：中間データ
Ｔ１５　：中間データ
Ｔ１６　：中間データ
Ｔ１７　：中間データ
Ｔ１８　：中間データ
Ｆ　　　：フレーズ群
Ｆ４　　：出現度
Ｆ４ａ　：出現度
Ｆ４ｂ　：出現度

Claims

言語学習支援装置であって、
　単語抽出部と、カウント部と、ソート部とを備え、
　前記単語抽出部は、文章に含まれる単語を抽出するように構成され、
　前記カウント部は、前記単語及びフレーズの出現回数をカウントするように構成され、
　　前記フレーズとは、抽出された複数の前記単語を、前記文章の登場順に並ぶ複数の前記単語の組み合わせとして扱う単位で、
　前記ソート部は、カウントされた前記フレーズを前記出現回数に基づきソートするように構成される、
もの。
請求項１に記載の言語学習支援装置において、
　設定部をさらに備え、
　前記設定部は、前記フレーズに含める単語数の上限値を設定可能に構成され、
　前記カウント部は、設定された前記上限値以下の前記単語及び前記フレーズの出現回数をカウントするように構成される、
もの。
請求項１又は請求項２に記載の言語学習支援装置において、
　重複削除部をさらに備え、
　前記重複削除部は、複数の前記フレーズに同一の前記単語の組み合わせが含まれる場合、複数の前記フレーズのうち一部を削除することで、採用フレーズを決定するように構成され、
　前記ソート部は、前記採用フレーズを前記出現回数に基づきソートするように構成される、
もの。
請求項３に記載の言語学習支援装置において、
　前記重複削除部は、複数の前記フレーズのうち、１つの前記採用フレーズを除いた残りを削除するように構成される、
もの。
請求項４に記載の言語学習支援装置において、
　前記採用フレーズは、前記フレーズに含まれる単語数に基づき決定される、
もの。
請求項５に記載の言語学習支援装置において、
　前記採用フレーズは、前記フレーズに含まれる単語数が最大又は最小の前記フレーズである、
もの。
請求項５又は請求項６に記載の言語学習支援装置において、
　前記採用フレーズに含まれる前記単語数は、３以上２０以下である、
もの。
請求項１～請求項７の何れか１つに記載の言語学習支援装置において、
　受付部と、算出部とをさらに備え、
　前記受付部は、フレーズ群と、頻度データとを受け付けるように構成され、
　　前記フレーズ群は、前記単語又は前記フレーズを含み、
　　前記頻度データは、前記単語又は前記フレーズの出現回数を示すデータであり、
　前記算出部は、前記フレーズ群と、前記頻度データとに基づき、前記フレーズ群に含まれる前記単語又は前記フレーズの出現度を算出するように構成され、
　前記ソート部は、カウント部によってカウントされた前記フレーズを前記出現度に基づきソートするように構成される、
もの。
プログラムであって、
　コンピュータを請求項１～請求項８の何れか１つに記載の言語学習支援装置として機能させる、
もの。
情報処理方法であって、
　単語抽出ステップと、カウントステップと、ソートステップとを備え、
　前記単語抽出ステップでは、文章に含まれる単語を抽出し、
　前記カウントステップでは、設定された上限値の範囲内で、前記単語及びフレーズの出現回数をカウントし、
　　前記フレーズとは、抽出された複数の前記単語を、前記文章の登場順に並ぶ複数の前記単語の組み合わせとして扱う単位で、
　前記ソートステップでは、カウントされた前記フレーズを前記出現回数に基づきソートする、
方法。