Nothing Special   »   [go: up one dir, main page]

JP5563650B2 - 音声ファイルに関連するテキストの表示方法及びこれを実現した電子機器 - Google Patents

音声ファイルに関連するテキストの表示方法及びこれを実現した電子機器 Download PDF

Info

Publication number
JP5563650B2
JP5563650B2 JP2012272345A JP2012272345A JP5563650B2 JP 5563650 B2 JP5563650 B2 JP 5563650B2 JP 2012272345 A JP2012272345 A JP 2012272345A JP 2012272345 A JP2012272345 A JP 2012272345A JP 5563650 B2 JP5563650 B2 JP 5563650B2
Authority
JP
Japan
Prior art keywords
text
mobile terminal
voice
file
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012272345A
Other languages
English (en)
Other versions
JP2013235556A (ja
Inventor
ボン ジョン ク
イルン キム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
LG Electronics Inc
Original Assignee
LG Electronics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by LG Electronics Inc filed Critical LG Electronics Inc
Publication of JP2013235556A publication Critical patent/JP2013235556A/ja
Application granted granted Critical
Publication of JP5563650B2 publication Critical patent/JP5563650B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/685Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using automatically derived transcript of audio data, e.g. lyrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)
  • User Interface Of Digital Computer (AREA)
  • Digital Computer Display Output (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音声ファイルに関連するテキストを表示する方法及びこれを実現した電子機器に関する。
様々な分野において情報化が急速に進展するにつれて、電子機器において情報を入出力する機能及びデータを保存する機能の重要性が強調されている。このような機能を備える電子機器は、端末機などの携帯型電子機器と、画像表示機器や冷蔵庫などの据置型電子機器に分けられる。
携帯型電子機器は、多機能化するにつれて、例えば写真や動画像の撮影、音楽や動画像ファイルの再生、ゲーム、放送受信などの複雑な機能を備えたマルチメディア機器の形で実現されている。また、このような複雑な機能は、使用者の利便性のために、据置型電子機器にも適用することができる。
近年、このような複雑な機能を実現するために、ハードウェア又はソフトウェアの面で様々な新しい試みがなされている。一例として、使用者に容易かつ便利に音声録音、音声ファイルの検索及び選択を行わせるためのユーザインタフェース環境が提供されている。
現在のユーザインタフェース環境で音声録音を行う場合、電子機器は各録音ファイルのファイル名、録音日時及び録音時間のみを表示する。しかし、電子機器がこのような方式でファイル名を表示した場合、使用者はファイル名だけではどのような内容が録音されたのか全く分からない。
本発明の目的は、使用者が音声ファイルを再生しなくても音声ファイルの内容が容易に分かる電子機器を提供することにある。
本発明の他の目的は、核心キーワードからなる文字列により使用者が音声ファイルの再生を簡単にコントロールすることのできる電子機器を提供することにある。
上記目的を達成するために、本発明は、外部の音を録音して音声ファイルとして保存する録音機能部と、音に含まれる音声を音声テキスト(Speech To Text; STT)変換に基づいてテキストに変換する変換部と、テキストから核心キーワードを検出し、検出された核心キーワードを音声ファイルのファイル名の少なくとも一部として設定する制御部とを含む、電子機器を提供する。
制御部は、音声ファイルのリストの出力要求がある場合、テキストに基づいて生成された文字列をディスプレイ部に表示するようにしてもよい。文字列は、ディスプレイ部にスクロールされて表示されてもよい。文字列のスクロール表示は、文字列を画面の右から左に移動させて表示するようにしてもよい。
文字列を右から左に移動させることは、画面に1行に表示できる文字の数だけ文字列を表示し、文字列を横方向に移動させて文字列の残りの文字を表示することでもよく、文字列の最初の文字を画面の一側に表示して他側に移動させて文字列の残りの文字を連続的に表示することでもよい。
文字列は、ディスプレイ部にファイル名と共に出力されてもよい。
制御部は、表示された文字列に対する制御命令が検出されると、文字列についての詳細内容をディスプレイ部に表示するようにしてもよい。
制御部は、表示された文字列に対する制御命令が検出されると、音声テキスト変換に基づいて生成されたテキストをディスプレイ部に表示するようにしてもよい。
ファイル名は、核心キーワードが含まれる文字列からなり、制御部は、音声ファイルのリストの出力要求がある場合、ディスプレイ部に文字列をスクロールして出力するようにしてもよい。
制御部は、録音が終了すると、核心キーワードをファイル名に設定し、ファイル名の編集は、録音の終了後に音声入力により行われるようにしてもよい。制御部は、録音が終了すると、核心キーワードをディスプレイ部に出力し、核心キーワードが出力された状態で入力される新しい音声により編集されたファイル名が決定されるようにしてもよい。
制御部は、音声テキスト変換に基づいて生成されたテキストを、少なくとも一部が選択可能な状態でディスプレイ部に出力するようにしてもよい。使用者により選択されるテキストの少なくとも一部は、音声ファイルの付加情報として保存されてもよい。付加情報の出力要求がある場合、付加情報がディスプレイ部にスクロールされて出力されてもよい。
電子機器は、携帯電話、電話機能を有する機器、電子時計、放送受信装置、ホームアプライアンスのいずれか1つであってもよい。
また、上記目的を達成するために、本発明は、電子機器で音声ファイルのリストを出力する方法において、使用者の要求に応じて音声ファイルのリストを出力する動作モードに移行する段階と、リストに含まれる各音声ファイルに関連する文字列をディスプレイ部に表示する段階とを含み、文字列は、使用者の音声の音声テキスト変換に基づいて生成されたものであり、文字列は、スクロールされて表示される、音声ファイルのリスト出力方法を提供する。
文字列のスクロール表示は、文字列を画面の右から左に移動させて表示するようにしてもよい。
文字列は、ディスプレイ部に音声ファイルのファイル名と共に出力されてもよい。
音声は、音声テキスト変換に基づいてテキストに変換され、ファイル名は、テキストから検出された核心キーワードを含むようにしてもよい。
さらに、上記目的を達成するために、本発明は、マイク、ディスプレイ部、及び制御部を備える電子機器において、制御部は、マイクから入力される使用者の音声を音声ファイルとして録音する録音アプリケーションを駆動する段階と、使用者の音声から変換生成されたテキストをディスプレイ部に出力するように、録音アプリケーションの駆動に連動して音声テキスト変換の実行アプリケーションを駆動する段階と、ディスプレイ部に出力されたテキストの内容のうちタッチ入力により指定されるキーワードを音声ファイルのファイル名の少なくとも一部として設定する段階とを行う、電子機器を提供する。
制御部は、音声ファイルの録音中にタッチ入力がなければ、テキストから核心キーワードを検出し、検出された核心キーワードを音声ファイルのファイル名の少なくとも一部として設定するようにしてもよい。
ファイル名は、キーワード又は核心キーワードが含まれる文字列からなり、制御部は、音声ファイルのリストの出力要求がある場合、ディスプレイ部に文字列をスクロールして出力するようにしてもよい。
音声テキスト変換の実行アプリケーションは、録音アプリケーションとは別に備えられ、録音アプリケーションは、録音時に音声テキスト変換の実行アプリケーションの駆動を選択できるようになっていてもよい。
録音アプリケーションの駆動時に音声テキスト変換の実行が録音アプリケーションの一機能として実現されるように、音声テキスト変換の実行アプリケーションが録音アプリケーションの一部として備えられてもよい。
さらに、上記目的を達成するために、本発明は、電子機器で音声メモを再生する方法において、使用者の要求に応じて、保存された音声メモの再生に関連する動作モードに移行する段階と、動作モードで電子機器の画面の少なくとも一部の領域に音声メモの再生時点に対応するテキストを表示する段階と、音声メモの再生時点を変更させる制御命令を感知する段階と、制御命令が感知されると、表示されたテキストを変更させる再生時点に対応するように変更して出力する段階とを含む、音声メモの再生方法を提供する。
テキストは、使用者の音声の音声テキスト変換に基づいて生成されたものであり、テキストは、音声メモの再生に連動してスクロールされて表示されるようにしてもよい。
再生時点の変更は、表示されたテキストのうち特定のテキストがタッチ入力により選択されることに連動するようにしてもよい。
電子機器の画面には、音声メモの時間情報を示すプログレスバーが表示され、音声メモの再生時点は、プログレスバーのタッチ地点に対応して変更されるようにしてもよい。
さらに、上記目的を達成するために、本発明は、受信される音声信号を音声ファイルとして保存する制御部と、受信される音声信号に対する音声テキスト変換ベースのテキストを表示するディスプレイ部と、音声信号の受信中に使用者からメモや特定の時点が入力される入力部とを含み、制御部は、音声ファイルと共にテキストが含まれるテキストファイルを保存し、音声ファイル及びテキストファイルには、それぞれメモや特定の時点が記録される、電子機器を提供する。
制御部は、特定の時点を記録するために、音声信号の受信中に特定のパターンが入力された時点を感知し、特定のパターンが入力された時点を示すインジケータをディスプレイ部が表示するように制御してもよい。
音声ファイルを再生する際に、入力部は、使用者から表示されたインジケータの選択が入力され、制御部は、使用者により選択されたインジケータに対応する時点から音声ファイルを再生するようにしてもよい。
特定のパターンの入力は、特定の領域のタッチ入力又は特定のキーボタンの選択入力であってもよい。
メモは、テキストファイルに記録され、特定の時点は、音声ファイルに記録されるようにしてもよい。
本発明によれば、電子機器、例えば移動端末機は、録音される音声に対して音声テキスト変換機能又はアルゴリズムを行い、テキスト、文字列又はスクリプトを取得し、その後、核心キーワードからなる文字列やファイル名を表示することができる。これにより、使用者は音声ファイルを再生しなくても音声ファイルの内容を容易に推測することができる。
また、本明細書によれば、文字列やファイル名に対する使用者のジェスチャーがあると、テキスト全体を出力することができる。これにより、音声内容のテキスト抽出を容易に行うことができる。
さらに、本明細書によれば、核心キーワード又は核心キーワードからなる文字列により、使用者が音声ファイルの再生を簡単にコントロールすることができる。
移動端末機で本発明により実現できる代表的な動作を示す概念図である。 本明細書に開示された実施形態による移動端末機の動作制御過程を示すフローチャートである。 本明細書に開示された第1実施形態による移動端末機の第1動作制御過程を示すフローチャートである。 本明細書に開示された第1実施形態による移動端末機の第1動作制御過程を示す概念図である。 本明細書に開示された第1実施形態による移動端末機の第1動作制御過程を示す概念図である。 本明細書に開示された第1実施形態による移動端末機の第1動作制御過程を示す概念図である。 本明細書に開示された第1実施形態による移動端末機の第2動作制御過程を示すフローチャートである。 本明細書に開示された第1実施形態による移動端末機の第2動作制御過程を示す概念図である。 本明細書に開示された第1実施形態による移動端末機の第2動作制御過程を示すフローチャートである。 本明細書に開示された第1実施形態による移動端末機の第2動作制御過程を示す概念図である。 本明細書に開示された第1実施形態による移動端末機の第3動作制御過程を示すフローチャートである。 本明細書に開示された第1実施形態による移動端末機の第3動作制御過程を示す概念図である。 本明細書に開示された第1実施形態による移動端末機の第3動作制御過程を示すフローチャートである。 本明細書に開示された第1実施形態による移動端末機の第3動作制御過程を示す概念図である。 本明細書に開示された第2実施形態による移動端末機の動作制御過程を示すフローチャートである。 本明細書に開示された第2実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第2実施形態による移動端末機の動作制御過程を説明するための表である。 本明細書に開示された第2実施形態による移動端末機の動作制御過程を説明するための表である。 本明細書に開示された第2実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第2実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第2実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第2実施形態による移動端末機の動作制御過程を示すフローチャートである。 本明細書に開示された第2実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第2実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第2実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第2実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第3実施形態による移動端末機の動作制御過程を示すフローチャートである。 本明細書に開示された第3実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第3実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第3実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第3実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第3実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第3実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第3実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第3実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第3実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第4実施形態による移動端末機の動作制御過程を示すフローチャートである。 本明細書に開示された第4実施形態による移動端末機の動作制御過程を示すフローチャートである。 本明細書に開示された第4実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第4実施形態による移動端末機の動作制御過程を示すフローチャートである。 本明細書に開示された第4実施形態による移動端末機の動作制御過程を示すフローチャートである。 本明細書に開示された第4実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第4実施形態による移動端末機の動作制御過程を示すフローチャートである。 本明細書に開示された第4実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第5実施形態による移動端末機の動作制御過程を示すフローチャートである。 本明細書に開示された第5実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第5実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第6実施形態による移動端末機の動作制御過程を示すフローチャートである。 本明細書に開示された第6実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第6実施形態による移動端末機の動作制御過程を示すフローチャートである。 本明細書に開示された第6実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第6実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第6実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第6実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第7実施形態による移動端末機の動作制御過程を示すフローチャートである。 本明細書に開示された第7実施形態による移動端末機の動作制御過程を示す概念図である。 本明細書に開示された第7実施形態による移動端末機の動作制御過程を示す概念図である。 本発明の一実施形態による移動端末機の構成を示すブロック図である。 本発明の一実施形態による画像表示機器の構成を示すブロック図である。 本発明の一実施形態による電子機器が冷蔵庫である場合、冷蔵庫に含まれるディスプレイ制御部及び本体制御部を示すブロック図である。
本明細書で使用される技術用語は、単に特定の実施形態を説明するために使用されるものであり、本発明を限定するものではない。また、本明細書で使用される技術用語は、本明細書において特に断らない限り、本発明の属する技術の分野における通常の知識を有する者に一般的に理解される意味で解釈されるべきであり、非常に包括的な意味で解釈されたり、非常に狭い意味で解釈されたりしてはならない。さらに、本明細書で使用される技術用語が本発明の思想を正確に表現できない間違った技術用語である場合は、当業者が正しく理解できる技術用語で代替して理解すべきである。さらに、本発明で使用される一般的な用語は、辞書の定義に従って、又は前後の文脈によって解釈されなければならず、非常に狭い意味で解釈されてはならない。
そして、本明細書で使用される単数の表現は、特に断らない限り、複数の表現を含む。本出願において、「構成される」や「含む」などの用語は、明細書に記載された様々な構成要素又は段階の全てを必ず含むものと解釈されてはならず、そのうち、一部の構成要素又は段階を含まないこともあり、追加の構成要素又は段階をさらに含むこともあるものと解釈されるべきである。
また、本明細書で使用される構成要素の接尾辞である「モジュール」及び「部」は、明細書の作成を容易にするために付与又は混用されるものであり、それ自体が有意性や有用性を有するものではない。
さらに、本明細書で使用される第1、第2などのように序数を含む用語は様々な構成要素を説明するために使用されるが、構成要素は用語により限定されるものではない。用語は1つの構成要素を他の構成要素と区別する目的でのみ使用される。例えば、本発明の権利範囲から外れない限り、第1構成要素は第2構成要素と命名してもよく、同様に、第2構成要素は第1構成要素と命名してもよい。
以下、添付図面を参照して本発明の好ましい実施形態を詳細に説明するが、図面番号に関係なく同一又は類似の構成要素には同一の符号を付して重複する説明は省略する。また、本発明を説明するにあたって、関連する公知技術についての具体的な説明が本発明の要旨を不明にすると判断される場合は、その詳細な説明を省略する。なお、添付図面は本発明の思想を容易に理解できるようにするためのものにすぎず、添付図面により本発明の思想が制限されるように解釈されてはならないことに留意すべきである。
本明細書で説明される携帯型電子機器には、携帯電話、スマートフォン、ノートパソコン、デジタル放送端末機、PDA(Personal Digital Assistants)、PMP(Portable Multimedia Player)、ナビゲーション、スレートPC、タブレットPC、Ultrabookなどが含まれる。以下、本発明の様々な実施形態を携帯電話やスマートフォンなどの移動端末機に基づいて説明するが、移動端末機に適用される機能は、PMPなどのように通信網を使用しない携帯型電子機器や、デジタルテレビ、デスクトップコンピュータ、冷蔵庫、プロジェクタなどの据置型電子機器にも適用することができる。
図1は移動端末機で本発明により実現できる代表的な動作を示す概念図である。
移動端末機100は、使用者の要求に応じて録音アプリケーションを駆動する。このために、移動端末機100の保存部には、録音アプリケーションを含む複数のアプリケーションが保存される。図1を参照すると、録音アプリケーションの駆動により、ディスプレイ部151には、録音アプリケーションのグラフィックユーザインタフェース(GUI)が出力される。また、移動端末機100は、録音アプリケーションを用いて、外部の音を音声ファイルとして録音する。
この場合、録音アプリケーションの駆動と共に音声テキスト変換の実行アプリケーションが駆動されるようにしてもよい。他の例として、録音アプリケーションの駆動時に音声テキスト変換を実行するかの選択の入力を受けるアイコンがポップアップするようにしてもよい。また、図示していないが、音声テキスト変換により変換されたテキストが録音の進行に連動してディスプレイ部151に出力されるようにしてもよい。
図1に示すように、録音が終了すると、移動端末機100は、音声ファイル内の音声から変換生成されたテキストに基づいて音声ファイルのファイル名を付与する。例えば、音声が音声テキスト変換機能又はアルゴリズムによりテキストに変換され、変換されたテキストから核心キーワードが検出され、検出された核心キーワードが音声ファイルのファイル名として付与される。このような過程によりファイル名が付与された場合、使用者は保存された音声ファイルを再生しなくても音声ファイルの内容を容易に推測することができる。
このようにファイル名が付与される音声ファイルは録音、保存、再生などの一連のプロセスに関連するので、以下、一連のプロセスを実施形態に分けて具体的に説明する。なお、変換されたテキストを用いてファイル名を付与する過程は、一実施形態で詳細に説明する。
図2は本明細書に開示された実施形態による移動端末機の動作制御過程を示すフローチャートである。
移動端末機100は、音声メモを開始するステップ(S100)と、音声メモを行うステップ(S200)と、音声メモを終了するステップ(S300)とを行う。音声メモを行うステップ(S200)については、図3A〜図5Dを参照して本明細書に開示された第1実施形態で説明する。
また、移動端末機100は、音声メモが終了する(S300)と、ファイル名を付与するステップ(S400)と、ファイル名を修正するステップ(S500)とを行う。ファイル名を付与するステップ(S400)については、図6A〜図6Gを参照し、ファイル名を修正するステップ(S500)については、図7A〜図7Eを参照して、本明細書に開示された第2実施形態で説明する。
さらに、移動端末機100は、ファイルリストにアクセスするステップ(S600)を行う。ファイルリストにアクセスするステップ(S600)については、図8A〜図8Jを参照して本明細書に開示された第3実施形態で説明する。
さらに、移動端末機100は、ファイル内容を検索するステップ(S700)と、ファイル内容を編集するステップ(S800)とを行う。ファイル内容を編集するステップ(S800)については、図9A〜図10Bを参照して本明細書に開示された第4実施形態で説明する。ファイル内容を検索するステップ(S700)については、図11A〜図11Cを参照して本明細書に開示された第5実施形態で説明し、図12A〜図12Gを参照して本明細書に開示された第6実施形態で説明し、また、図13A〜図13Cを参照して本明細書に開示された第7実施形態で説明する。
一般に、音声録音過程は、音声録音を開始すると、アナログ音声をデジタルデータに変換してバッファに保存し、音声録音を終了すると、バッファに保存されたデジタルデータを用いて音声ファイルを生成してメモリに保存する過程からなる。しかし、場合によっては、使用者が録音中に(音声録音が終了する前に)録音される音声の制御を希望することもある。以下に説明される第1実施形態は、このように録音中に録音される音声を制御する動作に関するものであり、様々な動作例を含む。
まず、第1動作制御過程について図3A〜図3Dを参照して説明する。図3A〜図3Dは本明細書に開示された第1実施形態による移動端末機の第1動作制御過程を示す図である。
音声録音中に、前時点(例えば数秒前や数分前など)で行われた音声録音の内容を確認しなければならないことがある。このために、使用者は、現在行われている音声録音を終了して生成された音声ファイルを再生することにより、所望の内容を確認する。しかし、このように音声録音を終了して生成された音声ファイルを再生した後に再び録音を開始することは、面倒なだけでなく、非常に非効率的である。
本明細書に開示された第1実施形態の第1動作制御過程は、音声録音中に使用者が前時点の録音音声をリアルタイムで確認しながらも、音声録音を中断しないようにする方法に関する。
図3Aは移動端末機100が音声録音中に録音された内容を再生する過程を示すフローチャートであり、図3B〜図3Dは移動端末機100が音声録音中に録音された内容を再生する過程を示す概念図である。
図3Aを参照すると、メモリ160(図14参照)は、例えばマイク122(図14参照)から入力される音声信号を保存する(S1110)。制御部180(図14参照)は、入力される音声信号をデジタルに変換してメモリ160の所定領域、例えばバッファに保存してもよい。また、制御部180は、保存される音声信号の時間情報を保存してもよい。時間情報は、音声録音を開始してから該当音声信号が入力又は保存されるまでの経過時間に関する情報を含む。
移動端末機100が入力される音声信号をテキストに変換する場合、制御部180は、例えば音声テキスト変換機能又はアルゴリズムにより、入力される音声信号をテキストに変換してもよい。制御部180は、変換されたテキストをメモリ160に保存してもよい。この場合、音声テキスト変換の実行アプリケーションが録音アプリケーションと連動して駆動されるようにしてもよい。
音声信号を保存する際に、ディスプレイ部151(図14参照)は、音声信号が保存される進行状態を示す項目を表示する(S1120)。進行状態を示す項目は、プログレスバーであってもよい。プログレスバーは、全録音量のうちの現時点を示すインジケータを含む。全録音量が分からない場合、現時点を示すインジケータは、プログレスバーの中間に表示される。プログレスバーは、全録音時間(例えば5分)のうちの現在の録音時間(例えば3分)を視覚的に示す。
より具体的には、例えば、図3Bの(a)を参照すると、制御部180は、音声録音機能の実行が要求されると、例えば使用者の入力により音声録音機能が実行されると、ディスプレイ部151に音声録音画面を表示させる。音声録音画面は、機能実行状態を示すインジケータ1102と、録音進行状態を示すプログレスバー1104とを含む。機能実行状態を示すインジケータ1102は、例えば「録音中」や「再生中」のように、現在の機能実行状態を反映する。
プログレスバー1104は、録音進行状態を示すために、録音開始時点を示すインジケータ1106と、現在の録音時点を示すインジケータ1108とを含み、ディスプレイ部151は、プログレスバー1104と共に、現在の録音時点を示す時間情報1112を表示する。
次の段階として、図3A及び図3Bを参照すると、ユーザ入力部130(図14参照)は、使用者から進行状態を示す項目のうち所定部分の選択入力を受信する(S1130)。例えば、ユーザ入力部130は、音声信号の入力中に進行状態を示す項目のうち所定部分の選択入力を受信する。
このために、移動端末機100は、前時点の再生命令が受信されるか否かをモニタする。前時点の再生命令は、使用者がプログレスバー1104において現時点以前の時点に該当する特定の時点を選択する命令であってもよい。また、前時点の再生命令は、10秒前や1分前のように現時点から特定の時間だけ前の時点を選択する命令であってもよい。
このような選択命令の例として、使用者は、プログレスバー1104において現在の録音時点以前の時点のいずれか1つをタッチしてもよく、録音開始時点を示すインジケータ1106又は現在の録音時点を示すインジケータ1108を現在の録音時点以前の時点のいずれか1つにドラッグしてもよい。この場合、ディスプレイ部151は、選択された時点(再生時点)を示す他のインジケータ1110をプログレスバー1104に表示するようにしてもよい。
次の段階として、図3Aを参照すると、制御部180は、選択された部分(又は選択された文字列)に対応する音声信号を再生する(S1140)。制御部180が音声信号を再生することにより、選択された部分に対応する音声信号は、イヤホン、スピーカ、レシーバにより聴覚的に出力されたり、その音声から変換されたテキストがディスプレイ部151に出力されるようにしてもよい。また、ディスプレイ部151は、選択された部分に対応する音声信号の時間情報を表示するようにしてもよい。
例えば、図3Bの(b)のように、現在の録音時点以前の時点が選択されると、制御部180は、録音された音声を選択された時点から再生する。また、ディスプレイ部151は、録音と再生が同時に行われていることを示すように、機能実行状態を示すインジケータ1102を「録音及び再生中」のように変更する。さらに、ディスプレイ部151においては、選択された時点(再生時点)を示すインジケータ1110が、プログレスバー1104において再生時点を反映するように再生時間に応じて移動する。さらに、ディスプレイ部151は、プログレスバー1104と共に、再生時点を示す時間情報1114を表示する。
他の例として、図3Cの(a)のように、使用者により現在の録音時点以前の時点が選択されると、図3Cの(b)のように、ディスプレイ部151は、録音された音声から変換されたテキスト1118を選択された時点から表示する。
一方、制御部180は、録音された音声を選択された時点から再生しながらも、現在進行中の音声録音を中断しない。すなわち、制御部180は、現時点の音声を録音すると同時に前時点の録音された音声を再生し、メモリ160は、選択された部分に対応する音声信号が再生される間入力される音声信号を保存し続ける。よって、移動端末機100は、音声録音終了命令が受信されるか否かをモニタし、音声録音終了命令を受信すると音声録音を終了する。
さらに他の例として、図3Dを参照すると、移動端末機100は、録音される音声をリアルタイムで音声テキスト変換し、変換されたテキストをディスプレイ部151に出力する。例えば、図3Dの(a)のように、ディスプレイ部151は、録音開始から現時点までに入力された音声信号に対する音声テキスト変換ベースのテキストを表示するようにしてもよい。
ただし、本発明はこれに限定されるものではない。例えば、制御部180は、所定時間前から現時点までに入力された音声信号に対する音声テキスト変換ベースのテキストを表示させてもよく、録音開始から現時点までに入力された音声信号に対する音声テキスト変換ベースのテキストのうち特定単位(例えば段落)毎に代表文字列を表示させてもよい。また、ディスプレイ部151は、保存される音声信号に対する音声テキスト変換ベースのテキストと共に、音声信号が保存される進行状態を示す項目を表示するようにしてもよい。
この場合、図3Dの(b)のように、出力されるテキストはスクロールが可能であり、従って、使用者は録音中に所望の部分を検索することができる。また、ユーザ入力部130は、ディスプレイ部151に表示された音声テキスト変換ベースのテキストの一部の文字列又はキーワードの選択入力を受けることができるように形成される。選択された文字列又はキーワードは、ファイル名やブックマークなどの設定に用いることができ、これについては後述する。
前述した第1実施形態の第1動作制御過程によれば、使用者が音声録音中に音声録音を中断することなく前の録音内容を簡単に確認することができる。また、プログレスバー又はテキストを用いた直観的なユーザインタフェースにより、使用者が録音と再生を同時にコントロールすることができる。
図4A〜図4Dは本明細書に開示された第1実施形態による移動端末機の第2動作制御過程を示す図である。
一般に、使用者には音声録音過程で特に記憶したい部分又は強調したい部分がある。しかし、音声ファイルの内容を検索する過程は、画像ファイルの内容を検索する過程より直観的でないため(聴覚の特性上、視覚より直観的でないため)、後で該当部分を検索することは難しい。また、記憶したい部分又は強調したい部分の録音時間を予めメモしておいて後で検索するのも面倒である。
本明細書に開示された第1実施形態の第2動作制御過程は、音声録音中に使用者が記憶したい部分又は強調したい部分で瞬間的に加えることのできる慣れたパターンの入力により特定の時点を記録する方法に関する。
図4Aは移動端末機100が音声録音中に特定の時点を記録する過程を示すフローチャートであり、図4Bは図4Aの過程を示す概念図である。図4Cは移動端末機100が音声録音中に記録された特定の時点から音声データを再生する過程を示すフローチャートであり、図4Dは図4Cの過程を示す概念図である。
図4Aを参照すると、移動端末機100が音声録音を開始すると、制御部180は、入力される音声信号を変換して音声データとして保存する(S1210)。このとき、ディスプレイ部151は、録音進行状態を示すプログレスバーを表示するようにしてもよい。また、プログレスバーは、全録音量のうちの現時点を示すインジケータを含んでもよい。全録音量が分からない場合、現時点を示すインジケータは、プログレスバーの中間に表示されるようにしてもよい。
また、ディスプレイ部151は、入力される音声信号に対する音声テキスト変換ベースのテキストを表示するようにしてもよい。例えば、ディスプレイ部151は、録音開始から現時点までに入力された音声信号に対する音声テキスト変換ベースのテキストを表示するようにしてもよく、所定時間前から現時点までに入力された音声信号に対する音声テキスト変換ベースのテキストを表示するようにしてもよく、録音開始から現時点までに入力された音声信号に対する音声テキスト変換ベースのテキストのうち特定単位(例えば段落)毎に代表文字列を表示するようにしてもよい。
図4Bを参照すると、移動端末機100は、使用者の入力により音声録音機能を実行し、音声録音画面を表示する。音声録音画面は、機能実行状態を示すインジケータ1202と、録音進行状態を示すプログレスバー1204とを含む。機能実行状態を示すインジケータ1202は、例えば「録音中」のように、現在の機能実行状態を反映する。
プログレスバー1204は、録音進行状態を示すために、録音開始時点を示すインジケータ1206と、現在の録音時点を示すインジケータ1208とを含み、電子機器、例えば移動端末機100は、プログレスバー1204と共に、現在の録音時点を示す時間情報1210を表示する。
さらに図4Aを参照すると、入力部(例えば、マイク122、ユーザ入力部130、感知部140(図14参照)など)は、音声信号の入力中に所定パターンの入力を受信する(S1220)。入力部は、特定の領域又はボタンの入力を感知するタッチセンサ、キーパッド、触覚センサ、加速度センサ、ジャイロセンサ、マイクのいずれか1つにより、所定パターンの入力を受信する。
所定パターンの入力は、例えば、特定の領域のタッチ入力、特定のキーボタンへの入力(プッシュボタンへのプッシュ又はタッチキーへのタッチ)、特定の領域での触覚の変化、移動端末機の加速度の変化、移動端末機の角速度の変化、特定の音声コマンドの強さ又は高さが閾値以上の音声であってもよい。代案として、入力部は、ディスプレイ部151に表示された音声テキスト変換ベースのテキストの一部の選択入力を受信するようにしてもよい。
所定パターンの入力の例として、図4Bの(a)を参照すると、移動端末機100は、音声録音中に移動端末機100の画面1212の特定の領域がタッチされることを感知するようにしてもよい。
図示していないが、代案として、制御部180は、ディスプレイ部151に表示された音声テキスト変換ベースのテキストから選択されたテキストの一部の地点、又はテキストの一部の地点を基準とする一部の区間を音声データの録音情報に記録するようにしてもよい。移動端末機100は、録音される音声をリアルタイムで音声テキスト変換し、変換されたテキストをディスプレイ部151に出力するようにしてもよい。この場合、出力されるテキストから文字列又はキーワードを選択できるようにする。例えば、所望のキーワードにタッチ入力を加えることにより、タッチされたキーワードの地点が音声データの録音情報に記録されるようにしてもよい。
さらに図4Aを参照すると、制御部180は、音声データの録音情報に特定のパターンが入力された時点を反映する(S1230)。移動端末機100は、音声録音と共に、入力が受信された時点を保存するようにしてもよい。
また、制御部180は、音声データ及び音声データの録音情報を、1つのファイルとして生成してメモリ160に保存してもよく、それぞれ別のファイルとして生成してメモリ160に保存してもよい。音声データ及び音声データの録音情報が1つのファイルとして生成される場合、録音情報は音声ファイルのメタデータとなり、音声データは音声ファイルのボディに含まれる。音声データ及び音声データの録音情報が別のファイルとして生成される場合、音声データが保存されたファイルを再生する際に、録音情報が保存されたファイルを参照して再生する。
図4Bの(b)を参照すると、移動端末機100は、プログレスバー1204に、所定パターンが入力された時点を示すインジケータ1214を表示するようにしてもよい。また、移動端末機100は、プログレスバー1204に、所定パターンが入力された時点を示すインジケータ1214を表示する代わりに、所定パターンの入力が受信された時点が記録されたことを示すインジケータを出力するようにしてもよい。この場合、移動端末機100は、所定パターンの入力が受信された時点が記録されたことを示すインジケータを視覚的、聴覚的、又は触覚的に出力する。
移動端末機100は、音声(又は音声信号)の受信中に特定の時点以外でも使用者からメモの入力を受けることができるようにしてもよい。また、制御部180は、音声ファイルと共に音声テキスト変換ベースのテキストが含まれるテキストファイルを保存することができるが、この場合、音声ファイル及びテキストファイルにはそれぞれメモや特定の時点が記録されるようにしてもよい。他の例として、テキストファイルにはメモが記録され、音声ファイルには特定の時点が記録されるようにしてもよい。
このように、録音中に特定の時点の記録が行われた場合、録音が終了して保存された音声ファイルは、特定の時点に関する情報を使用者に示すようにする。以下、このような動作についてより具体的に説明する。
図4Cを参照すると、制御部180は、図4Aに示すステップS1210〜S1230により保存された音声データに対するアクセス要求がある場合、要求された音声データの録音情報から特定のパターンが入力された時点を取得する(S1240)。
次に、制御部180は、取得した特定のパターンが入力された時点を示すインジケータをディスプレイ部151が表示するように制御する(S1250)。このとき、ディスプレイ部151は、音声データの再生状態を示すプログレスバーにインジケータを表示する。
図4Dの(a)を参照すると、移動端末機100は、音声データ再生機能の実行が要求されると、例えば使用者の入力により音声データ再生機能が実行されると、音声データ再生機能を実行して音声データ再生画面を表示する。音声データ再生画面は、機能実行状態を示すインジケータ1202と、再生状態を示すプログレスバー1204とを含む。機能実行状態を示すインジケータ1202は、例えば「再生中」のように、現在の機能実行状態を反映する。
プログレスバー1204は、再生状態を示すために、再生開始時点を示すインジケータ1206と、少なくとも1つの所定パターンの入力が受信された時点を示すインジケータ1214〜1218と、現在の再生時点を示すインジケータ1208とを含み、移動端末機100は、プログレスバー1204と共に、全再生時間を示す時間情報1210を表示する。
さらに図4Cを参照すると、ユーザ入力部130は、使用者からディスプレイ部151に表示されたインジケータを選択する入力を受信する(S1260)。次に、制御部180は、使用者により選択されたインジケータに対応する時点又は対応する時点の文章の冒頭から音声データを再生する(S1270)。
図4Dの(b)を参照すると、移動端末機100は、プログレスバー1204において少なくとも1つの所定パターンの入力が受信された時点を示すインジケータ1214〜1218のいずれか1つのインジケータ1214を選択する入力を受信する。移動端末機100は、選択されたインジケータ1214に対応する時点から音声データを再生する。この場合、現在の再生時点を示すインジケータ1208は、選択された時点を示すインジケータとなり得る。
また、音声ファイルの録音中にメモの入力を行える実施形態により、メモ入力があった場合は、音声ファイルの再生中にメモが出力されるようにしてもよい。例えば、音声ファイルの再生中にメモが記録された地点に至ると、メモがテキストとしてディスプレイ部に出力されるようにしてもよい。また、この場合は、所定パターンの入力が受信された時点を示すインジケータ1214〜1218と共に、メモが入力された時点を示す他のインジケータ(図示せず)を表示させてもよい。
このように、本明細書に開示された第1実施形態によれば、使用者が音声録音中に特定の時点を容易に記録することができる。これにより、検索の容易性を提供することができる。
図5A〜図5Dは本明細書に開示された第1実施形態による移動端末機の第3動作制御過程を示す図である。
一般に、タッチスクリーンを備えた移動端末機100は、スタイラスや指を用いる手書き機能を提供する。ここで、手書きとは使用者が講義、講演、演説などの内容を記録する行為であり、移動端末機100などの電子機器はタッチされた地点を保存することにより手書き機能を提供する。しかし、使用者が講義、講演、演説などの内容を記録すると同時に音声を録音する場合、手書きファイルと音声録音ファイルが別に管理されるので、後でその講義、講演、演説などの内容を確認しようとする際にそれぞれのファイルを呼び出さなければならず、面倒であった。
本明細書に開示された第1実施形態の第3動作制御過程は、手書きと音声を同期化して保存することにより、後でその内容を同時に簡単に確認できるようにする方法に関する。
図5Aは移動端末機100が手書き記録中に音声録音を同期化する過程を示すフローチャートであり、図5Bは図5Aの過程を示す概念図である。
図5Aを参照すると、まず、電子機器、例えば移動端末機100は、手書き記録を開始し(S1310)、音声録音命令が受信されるか否かを確認する(S1320)。
音声録音命令が受信されると、移動端末機100は、手書き記録終了命令が受信される(S1340)まで、手書き記録に同期化して音声録音を行う(S1330)。手書き記録終了命令が受信されると、移動端末機100は、手書き記録を終了する(S1350)。
具体的な例として、図5Bを参照すると、移動端末機100は、手書き記録機能の実行が要求されると、例えば使用者の入力により手書き記録機能が実行されると、手書き記録画面を表示する。
手書き記録画面は、手書きで入力される領域1302と、音声録音メニュー1304とを含む。手書きで入力される領域1302は、使用者がスタイラスペンや指などを用いてタッチする位置を表示する。これにより、手書きで入力される領域1302に手書き内容1306が表示される。
手書きが行われている間に使用者が音声録音メニュー1304を選択すると、移動端末機100は、使用者の音声1308を手書きの進行時点に同期化して録音する。
使用者の音声1308を手書きの進行時点に同期化して録音する方法は様々である。移動端末機100は、手書きが行われる時点にリアルタイムで対応するように使用者の音声1308を録音してもよく、手書きの単位、例えば各ページに対応するように使用者の音声1308を録音してもよい。
図5Cは移動端末機100が手書き記録の再生中に手書き記録に同期化した録音音声を再生する過程を示すフローチャートであり、図5Dは図5Cの過程を示す概念図である。
図5Cを参照すると、移動端末機100は、手書き記録の再生を開始し(S1370)、録音音声再生命令が受信されるか否かを確認する(S1380)。
録音音声再生命令が受信されると、移動端末機100は、再生中の手書き記録に同期化した録音音声を再生する(S1390)。それに対して、録音音声再生命令が受信されないと、移動端末機100は、録音音声は再生せず、手書き記録のみを再生する(S1395)。
図5Dを参照すると、移動端末機100は、手書き記録再生機能の実行が要求されると、例えば使用者の入力により手書き記録再生機能が実行されると、手書き記録再生機能を実行して手書き記録再生画面を表示する。手書き記録再生画面は、手書きが再生される領域1310と、再生メニュー1312とを含む。
再生メニュー1312が選択されると、移動端末機100は、手書きが再生される領域1310に、使用者がスタイラスペンや指などを用いて記録した手書き内容1314をリアルタイムで又は手書き単位(例えばページ単位)で表示する。この場合、移動端末機100は、手書き内容1314に同期化して保存された録音音声1316、すなわち使用者が手書き内容1314を記録するときに話した音声を再生する。
このように、本明細書に開示された第1実施形態によれば、手書きと音声を同期化して保存することにより、使用者がその内容を一度に簡単に確認することができる。これにより、教育の効率性を高めることができる。
本発明の移動端末機は、変換されたテキストを用いてファイル名を付与するように構成される。以下、ファイル名の付与に関する過程を第2実施形態として詳細に説明する。
図6Aは録音された音声ファイルのファイル名を本発明の第2実施形態により音声テキスト変換ベースのテキストに基づいて自動で付与する方法を示すフローチャートである。
図6Aに示すように、本発明の第2実施形態によれば、移動端末機は、録音される音声又は録音された音声に対して音声テキスト変換機能又はアルゴリズムを行い、テキスト、文字列又はスクリプトを取得する。また、本発明の移動端末機は、使用者から音声ファイルのリストに対するアクセス要求を受信すると、テキスト、文字列又はスクリプトをディスプレイ部に表示する。具体的に説明すると次の通りである。
まず、音声録音を開始する(S2110)。音声録音を開始すると、リアルタイムで入力される音声データをバッファに保存する。バッファは、処理速度が速い媒体、例えば揮発性メモリであってもよい。また、バッファは、電子機器、例えば移動端末機の内蔵メモリであってもよい。
ここで、バッファに保存された音声データは、所定の周期で音声一時ファイルとして保存される。音声一時ファイルは、処理速度が速い媒体、例えば揮発性メモリに保存される。音声一時ファイルには、ランダムに番号が付与されてもよく、所定の規則に従って一時ファイル名が付与されてもよい。
次に、リアルタイム音声テキスト変換を行い、テキスト、文字列又はスクリプトを取得する(S2120)。音声テキスト変換は、前述したように、音声から単語(例えば、主語や述語、又は名詞や動詞)を認識し、認識した単語を配列してテキスト、文字列又はスクリプトを生成することでもよい。
音声録音が終了すると(S2130)、音声ファイルが生成される(S2140)。音声ファイルは、音声一時ファイルに基づいて生成される。例えば、音声ファイルは保存容量が大きい媒体に保存されるが、保存容量が大きい媒体は低速であり得る。よって、音声ファイルは、処理速度が速い媒体に保存された音声一時ファイルを保存容量が大きい媒体に移動させ、それに基づいて保存容量が大きい媒体に生成されるようにしてもよい。
この場合、音声ファイルと共にメタデータが生成されるようにしてもよい。メタデータは、録音日、全録音時間、GPSから得られた位置、話者の氏名や連絡先などを含んでもよい。GPSから得られた位置は座標値として得られるので、移動端末機は、座標値に基づいて地図データサービスを利用して地名を取得し、その後地名をメタデータとして保存するようにしてもよい。
話者の氏名は、話者の間で互いを呼ぶ氏名から得られる。例えば、会議中であると仮定すると、話者Aが「松本」と呼んで話しかけ、話者Bがそれに応えた場合、移動端末機100は、この対話から話者Bの氏名が「松本」であると類推することができる。また、話者Aの声と話者Bの声を記憶した状態で(例えば、声のトーンや口調などを記憶した状態で)、話者Bが「福永」と呼んで話しかけ、話者Aがそれに応えた場合、移動端末機100は、この対話から話者Aの氏名が「福永」であると類推することができる。
このように、対話から話者の氏名を取得した場合、電子機器、例えば移動端末機100は、話者の氏名をメタデータとして保存し、アドレス帳から話者の連絡先を取得してメタデータに連絡先を共に保存するようにしてもよい。
一方、音声ファイルが生成されると、移動端末機100は、生成された音声ファイルに基づいて音声テキスト変換を行い、テキストを生成する(S2150)。前述したステップS2120においてテキストが既に生成されている場合、ステップS2150は省略されてもよい。また、ステップS2120を行うことなく、ステップS2150のみを行ってもよい。
さらに、ステップS2120はリアルタイムで行われるため、状況によっては音声がリアルタイムで認識されないことがあるので、ステップS2150はその未完成部分を処理するために行われてもよい。
例えば、多数の話者が対話する状況では、ステップS2120において音声テキスト変換を行っても、多数の話者の音声をリアルタイムで認識することが難しいことがある。よって、このような状況では、ステップS2120においては、一部の話者の音声のみを認識してテキストを取得し、ステップS2150においては、残りの話者の音声を認識してテキストを取得するようにする。次いで、一部の話者の音声から得られたテキストと残りの話者の音声から得られたテキストとを組み合わせ、1つのテキストを生成する。ここで、一部の話者の音声から得られたテキストと残りの話者の音声から得られたテキストとを組み合わせる際に、各話者の音声に基づく文字列が時間順に配列されるようにしてもよい。
他の例として、多数の話者が同時に対話する状況で移動端末機100がリアルタイムで音声テキスト変換を行ってテキストを得た場合、二人の対話が混ざって認識されることがある。より具体的な例として、話者Aが「来週もう一回会議しないか?」と話すと同時に話者Bが「来週のスケジュールを決めよう。」と話した場合、移動端末機100は、「来週もう一回スケジュール会議決めようしないか?」と認識することにより、エラーが発生することがある。よって、移動端末機100は、ステップS2120においては、話者Aを認識し、話者Aの音声に対してのみ音声テキスト変換を行ってテキストを得て、ステップS2150においては、話者Bの音声に対してのみ音声テキスト変換を行ってテキストを得て、その後話者Aのテキストと話者Bのテキストとを組み合わせてもよい。
次に、移動端末機100は、テキストに基づいて、音声ファイルのファイル名を付与する(S2160)。
一般に従来技術では、ファイル名が一般的な規則に従って生成される。例えば、ファイル名は、生成順に一連番号を付けてAUDIO_001、AUDIO_002、AUDIO_003などのように生成される。また、音声ファイルのファイル名は、録音日と一連番号の組み合わせで生成されることもある。すなわち、3つのファイルのファイル名は、例えば20120112_001、20120212_001、20120312_001などのように生成される。
しかし、音声ファイルのリストに対するアクセス要求に応じて、移動端末機が従来のようなファイル名を表示した場合、使用者はファイル名だけではどのような録音が行われたのか全く分からない。
本発明においては、録音が終了すると、音声ファイル内の音声から変換生成されたテキストに基づいて音声ファイルのファイル名を付与する。例えば、制御部は、テキストから核心キーワードを検出し、検出された核心キーワードを音声ファイルのファイル名の少なくとも一部として設定する。
音声ファイルのファイル名は、変換されたテキストに基づいて自動で付与されたり、使用者の選択により付与される。以下、図6B〜図6Dを参照して自動でファイル名が付与される場合を説明し、図6E及び図6Fを参照して使用者の選択が一部反映される場合を説明し、図6Gを参照して使用者の選択によりファイル名が付与される場合を説明する。
図6Bは音声ファイルのファイル名が自動で付与される例を示す。
図6Bを参照すると、3つの音声ファイルが表示されており、この3つの音声ファイルのファイル名は異なる方法により検出された核心キーワードからなっている。
1番目の音声ファイルは、核心キーワードが特定の時点(例えば、対話の導入部)で特定の話者が話した単語の場合を示す。一般的な会議では会議開始時に司会者が会議の案件を話す。よって、対話の導入部で話者Aが「それでは、携帯電話の新製品開発会議を始めます。」と話した場合、移動端末機100は、「会議」を核心キーワードとして検出し、これを含む文字列である「携帯電話の新製品開発会議」をファイル名として付与するようにしてもよい。この場合、特定の時点は、録音開始から所定期間(例えば、録音開始後1分)の範囲であり、所定期間は、使用者により設定される。
また、核心キーワードは、録音中に特定の話者が強調して話した単語であってもよい。強調は、声の感情分析や単語の繰り返し回数などにより定義される。2番目の音声ファイルは、声の感情分析によりファイル名が付与された場合を示す。例えば、移動端末機100は、感情分析アルゴリズムを用いて、特定の話者が興奮して話したり力んで話した部分から核心キーワードを検出する。より具体的には、使用者がラジオ又はテレビで放送されるニュースのうちLTE関連報道を録音した場合、移動端末機100は、話者、すなわちニュースアンカーの声の感情を分析し、ニュースであることが分かる。また、ニュースアンカーがLTEという単語を強調して話した場合、移動端末機100は、「LTE」を核心キーワードとして検出し、ファイル名に設定される文字列として「LTE関連報道スクラップ」を抽出する。
3番目の音声ファイルは、繰り返し回数が多い単語が核心キーワードとして検出された場合を示す。この場合、特定の区間(例えば、対話の導入部、対話の最後)で繰り返し回数が多い単語が核心キーワードとなる。例えば、話者Aと話者Bが「アンテナ設計」という言葉を何回も繰り返した場合、「アンテナ設計」がファイル名として付与される。さらに、対話の導入部で「会議」という単語が検出された場合は、「アンテナ設計会議」がファイル名として付与される。このように、3つの例は互いに組み合わせ可能である。
また、キーワードは、録音される場所又は状況を認知して抽出するようにしてもよい。例えば、移動端末機100の位置が事務所や取引先の場合は、会議が多いと予想して対話の導入部でキーワードを検出し、移動端末機100の位置が家の場合は、テレビ視聴が多いと予想して感情分析により抽出された単語をキーワードとして検出するようにしてもよい。
以下、ファイル名が自動で付与される例について図6C〜図6Fを参照してより詳細に説明する。
図6Cは図6Aに示す方法により音声ファイルのファイル名が自動で付与される例を表で示すものである。
図6Cに示すように、前述したステップS2140により音声ファイルが生成されると、一時ファイル名として、一連番号に基づいて、AUDIO_001、AUDIO_002、AUDIO_003がそれぞれ付与される。あるいは、前述したステップS2240により音声ファイルが生成されると、一時ファイル名として、録音日と一連番号の組み合わせに基づいて、例えば20110403_001、20110505_001、20120404_001がそれぞれ付与される。
以下、このような状況で3つの音声ファイルにファイル名が自動で付与される例を具体的に説明する。
図6Cを参照すると、一例として、1番目の音声ファイルは、一時ファイル名AUDIO_001が付与されており、音声テキスト変換ベースのテキストから核心キーワードからなる文字列、すなわち「携帯電話の新製品開発会議」が抽出されており、日付情報は2011−04−03であり、参席者は「松本」、「福永」、「斉藤」であり、メタデータとして位置(東京都渋谷区渋谷)と各参席者の連絡先が保存されている。すると、移動端末機100は、1番目の音声ファイルのファイル名として、「携帯電話の新製品開発会議」を自動で付与する。さらに、移動端末機100は、1番目の音声ファイルのファイル名として、日付と核心キーワードからなる文字列との組み合わせを自動で付与するようにしてもよい。例えば、図示のように、「20110403携帯電話の新製品開発会議」というファイル名を付与する。
他の例として、2番目の音声ファイルは、一時ファイル名AUDIO_002が付与されており、音声テキスト変換ベースのテキストから核心キーワードからなる文字列、すなわち「LTE関連報道」が抽出されており、日付情報は2011−05−05であり、参席者は「福永」、「斉藤」であり、メタデータとして位置(東京都新宿区新宿)と各参席者の連絡先が保存されている。すると、移動端末機100は、2番目の音声ファイルのファイル名として、「LTE関連報道スクラップ」を自動で付与する。さらに、移動端末機100は、2番目の音声ファイルのファイル名として、日付と核心キーワードからなる文字列との組み合わせを自動で付与するようにしてもよい。例えば、図示のように、「20110505LTE関連報道スクラップ」というファイル名を付与する。
さらに他の例として、3番目の音声ファイルは、一時ファイル名AUDIO_003が付与されており、音声テキスト変換ベースのテキストから核心キーワードからなる文字列、すなわち「アンテナ設計会議」が抽出されており、日付情報は2012−04−04であり、参席者は「斉藤」、「松本」であり、メタデータとして位置(東京都中央区銀座)と各参席者の連絡先が保存されている。すると、移動端末機100は、3番目の音声ファイルのファイル名として、「アンテナ設計会議」を自動で付与する。さらに、移動端末機100は、3番目の音声ファイルのファイル名として、日付と核心キーワードからなる文字列との組み合わせを自動で付与するようにしてもよい。例えば、図示のように、「20120404アンテナ設計会議」というファイル名を付与する。
図6Cにおいては、日付と核心キーワードからなる文字列との組み合わせからなるファイル名で各音声ファイルを区分できるようにする例を挙げているが、同一日付で核心キーワードからなる文字列も同じファイルがある場合、移動端末機100は、参席者情報、録音開始時間情報、位置情報の少なくとも1つをさらに用いて、ファイル名を付与することもできる。
図6Dは図6Aに示す方法により音声ファイルのファイル名が自動で付与される他の例を表で示すものである。
図6Dに示すように、移動端末機100は、ファイル名を付与する際に、YYYYMMDD形式ではなく、今年、昨年、一昨年などの年度情報と月日とを組み合わせて用いてもよい。
また、移動端末機100は、ファイル名を付与する際に、地名を用いてもよい。
図6Dを参照すると、一例として、1番目の音声ファイルの場合、移動端末機100は、年度情報、地名、及び核心キーワードからなる文字列の組み合わせを用いて、1番目の音声ファイルに対して「昨年渋谷携帯電話の新製品開発会議」というファイル名を付与する。
ここで注目する点は、昨年、今年などの概念は時間の経過により変わるので、移動端末機100は、時間の経過によりファイル名を自動で更新するという点である。
例えば、現在2011年であり、2番目の音声ファイルが2011−05−05に生成された場合、移動端末機100は、2番目の音声ファイルに対して「今年新宿5月5日付けLTE関連報道スクラップ」というファイル名を付与する。
しかし、時間が経過して2012年になると、移動端末機100は、2番目の音声ファイルのファイル名を自動で更新して「昨年新宿LTE関連報道スクラップ」にする。このような自動更新は、音声録音関連機能が実行される毎に行われてもよく、アイドル時間に行われるようにスケジューリングされてもよい。また、自動更新は、月が変わるか又は年が変わる毎に一度ずつ行われるようにスケジューリングされてもよい。
一方、2番目の音声ファイルの例においては、ファイル名に月日に関する情報が含まれていない。これは、年度情報、地名、及び核心キーワードからなる文字列の組み合わせからなるファイル名だけでも十分に各音声ファイルを区分できると移動端末機100が判断したからである。しかし、各音声ファイルの区分が難しいと判断した場合、移動端末機100は、3番目の音声ファイルのように、ファイル名に月日に関する情報を付加する。
図6Eは図6Aに示す方法により音声ファイルのファイル名が自動で付与された後、使用者の確認を受ける過程を示すものである。
図6Eを参照すると、3番目の音声ファイルが生成された直後、移動端末機100は、前述したように、3番目の音声ファイルに対して「20120404アンテナ設計会議」というファイル名を自動で付与する。
このように自動で付与されたファイル名は、移動端末機100が音声テキスト変換ベースのテキストから核心キーワードとして抽出した文字列に基づいたものである。しかし、抽出された核心キーワードは常に適切であるわけではない。
よって、移動端末機100は、ファイル名を自動で付与した後、付与したファイル名が適切であるか使用者の確認を受けるための動作を行うようにしてもよい。例えば、図6Eの(a)及び(c)のように、移動端末機100は、ファイル名を自動で付与した後、「修正」ボタン及び「確認」ボタンを表示する。
この場合、使用者が図6Eの(a)のように「確認」ボタンをタッチすると、図6Eの(b)のように、音声ファイルには「アンテナ設計会議」というファイル名が確定的に付与される。それに対して、使用者が図6Eの(c)のように「修正」ボタンをタッチすると、音声ファイルのファイル名を修正できる状態に切り替えられる。このような例として、図6Eの(d)のように、他のファイル名が提案されるようにしてもよい。他のファイル名の提案のために、設定されるファイル名には優先順位が付与されてもよい。例えば、核心キーワードの検出方法のうち、繰り返し回数のカウントにより得られたものが第一順位となり、感情の分析や特定の時点の分析により得られたものが次順位となる。この場合、使用者が「修正」ボタンを選択することにより提案される他のファイル名は、次順位の分析により検出された核心キーワードからなる文字列となる。
代案として、移動端末機100は、ファイル名を付与し、ファイル名を斜体で表示するか、又はファイル名の色を薄く表示する。使用者がファイル名をタッチすると、移動端末機100は、斜体表示又は薄色表示を解除する。それに対して、使用者がファイル名を所定時間以上タッチ(例えばロングタッチ)すると、移動端末機100は、ファイル名を修正できる画面を表示する。
他の代案として、移動端末機100は、ファイル名を付与し、ファイル名を斜体で表示するか、又はファイル名の色を薄く表示すると共に、「確認」ボタンを表示する。使用者が「確認」ボタンをタッチするのではなく、文字列をタッチすると、移動端末機100は、ファイル名を修正できる画面を表示する。
図6Fは図6Aに示す方法により音声ファイルのファイル名が自動で付与されたが、同じファイル名がある例を示すものである。
移動端末機100は、ファイル名を自動で付与したが同じファイル名がある場合、他の推薦ファイル名をさらに表示するようにしてもよい。あるいは、移動端末機100は、ファイル名を自動で付与したが同じファイル名がある場合、他の核心キーワードを表示するようにしてもよい。使用者が様々な核心キーワードのいずれか1つを選択すると、移動端末機100は、選択された核心キーワードを利用して、ファイル名を更新する。
より具体的には、「アンテナ設計会議」というファイル名が既に存在するにもかかわらず、録音されて追加される音声ファイル名として「アンテナ設計会議」が付与されることがある。図6Fを参照すると、同じファイル名がある場合、移動端末機100は、案内メッセージ、例えば「同じ推薦ファイル名があります。修正しますか?」というメッセージを表示する。さらに、移動端末機100は、「修正」ボタン及び「いいえ」ボタンを表示する。
あるいは、同じファイル名がある場合、移動端末機100は、付与できるファイル名のリストを出力する。ファイル名のリストは、次順位の核心キーワードであってもよく、使用者はリストのファイル名から所望のファイル名をタッチすることにより、音声ファイルにファイル名が付与されるようにしてもよい。
図6Gは使用者が音声ファイルのファイル名を設定する場合を示すものである。
図6Gを参照すると、録音が行われている間、音声テキスト変換により変換されたテキストがディスプレイ部151に出力される。録音が行われると、変換されたテキストがリアルタイムで出力されるようにしてもよく、テキストから検出された核心キーワード又は文字列のみ出力されるようにしてもよい。
使用者は録音中にディスプレイ部151に出力されたテキストからファイル名として付与するキーワードを選択することができる。例えば、図示のように、使用者が「アンテナ設計」という文字列をドラッグして選択すると、後で「アンテナ設計」がファイル名に設定されるようにしてもよい。
このような選択入力は、複数のキーワード又は文字列に対して行われてもよい。例えば、「アンテナ設計」をドラッグして「会議」をタッチすると、「アンテナ設計」と「会議」とが組み合わせられて「アンテナ設計会議」がファイル名となる。
また、テキストが出力されている間に使用者がタッチやドラッグにより選択したキーワード又は文字列は、後でファイル名を付与するためのリストとして保存されるようにしてもよい。リストは、録音が終了して保存する際に選択可能な項目として出力されるようにしてもよい。
図6Gの実施形態は様々な駆動方法により実現することができる。例えば、駆動方法は、制御部により3つの段階を行うことで実現することができる。より具体的には、第1段階においては、マイクから入力される使用者の音声を音声ファイルとして録音する録音アプリケーションを駆動し、第2段階においては、使用者の音声から変換生成されたテキストをディスプレイ部に出力するように、録音アプリケーションの駆動に連動して音声テキスト変換の実行アプリケーションを駆動し、第3段階においては、ディスプレイ部に出力されたテキストの内容のうちタッチ入力により指定されるキーワードを音声ファイルのファイル名の少なくとも一部として設定する。
制御部は、音声ファイルの録音中にタッチ入力がなければ、テキストから核心キーワードを検出し、検出された核心キーワードを音声ファイルのファイル名の少なくとも一部として設定するようにしてもよい。この場合、ファイル名は、キーワード又は核心キーワードが含まれる文字列からなり、制御部は、音声ファイルのリストの出力要求がある場合、ディスプレイ部に文字列をスクロールして出力するようにしてもよい。
また、アプリケーションの構成方法は様々である。例えば、音声テキスト変換の実行アプリケーションは、録音アプリケーションとは別に備えられ、録音アプリケーションは、録音時に音声テキスト変換の実行アプリケーションの駆動を選択できるようになっていてもよい。他の例として、録音アプリケーションの駆動時に音声テキスト変換の実行が録音アプリケーションの一機能として実現されるように、音声テキスト変換の実行アプリケーションが録音アプリケーションの一部として備えられてもよい。
また、音声ファイルが保存される際に、音声ファイルと共に、音声テキスト変換に基づいて生成されたテキストが含まれるテキストファイルが保存されるようにしてもよい。これにより、後で音声ファイルを再生する際に、別途の音声テキスト変換過程を行うことなく、テキストファイルを用いて、再生される音声に該当するテキストを直ちに出力することができる。例えば、音声ファイルを再生する際に、テキストファイルの存在を示すポップアップウィンドウが出力され、使用者の選択によりテキストが音声ファイルの再生と連動して出力されるようにしてもよい。
図7Aは本発明の第2実施形態により自動で付与されたファイル名を後で修正する方法を示すフローチャートであり、図7B〜図7Eはファイル名を修正する例を示す概念図である。
図7Aに示すステップS2210〜S2260は、図6Aに示すステップS2110〜S2160と同様であるので、その説明を省略する。
生成された音声ファイルにファイル名が自動で付与された後、ファイル名修正要求が受信されると(S2270)、電子機器、例えば移動端末機100は、ファイル名の修正のための修正モードに移行する(S2280)。
図7Bに示すように、使用者が特定のファイル名に対してジェスチャーを行うと(例えば、特定のファイル名をショートタッチもしくはロングタッチするか、又は特定方向にドラッグすると)、移動端末機100は、特定のファイル名に対して様々な効果を与えて表示するようにしてもよい。例えば、移動端末機100は、特定のファイル名を斜体で表示するか、特定のファイル名の色を薄く表示するか、又は特定のファイル名に対してブレ効果を与えて表示する。
移動端末機100は、このように特定のファイル名に対して様々な効果を与えて表示すると共に、ファイル名を修正するための画面を表示するようにしてもよい。ファイル名を修正するための画面として、仮想キーボードが出力されるようにしてもよい。使用者が仮想キーボードを用いて特定の単語を入力すると、移動端末機100は、図7Bに示すように、キーワードの代わりに、入力された単語をファイル名として表示するようにしてもよい。
一方、図7Cに示すように、使用者が特定のファイル名に対してジェスチャーを行うと(例えば、特定のファイル名をロングタッチするか、又は特定方向にドラッグすると)、移動端末機100は、使用者が修正を希望するかを聞くために、「修正」ボタン及び「確認」ボタンを表示するようにしてもよい。使用者により「修正」ボタンが選択されると、移動端末機100は、ファイル名を修正するための画面を表示するようにしてもよい。
ファイル名を修正するための画面には、図示のように次順位の推薦キーワードが表示されるようにしてもよく、使用者が表示された次順位の推薦キーワードからいずれか1つの推薦キーワードを選択すると、移動端末機100は、選択されたキーワードを利用して、ファイル名を更新するようにしてもよい。
ファイル名の修正は、図7Dのように、音声認識により行われるようにしてもよい。この場合、図7Dの(b)のように、音声認識のための画面は、マイクマークと、音声入力を案内する案内メッセージとからなるようにしもよい。さらに、図示されていないが、音声認識のための画面には、認識された音声が表示されるようにしてもよい。
図7Dの(a)を参照すると、音声認識による編集のために音声ファイルのリストがアクセスされる際に、ディスプレイ部151の一地点に音声認識による編集に対応するアイコンが出力されるようにしてもよい。アイコンは、例えばファイル名の横に配置されるマイクマークであってもよい。
使用者によりアイコンがタッチされると、音声認識のための画面を表示し、その後使用者から音声命令が入力されると、入力された音声命令に従って、ファイル名を修正する。
例えば、入力された音声命令が「ファイル名を携帯電話のアンテナ設計に変更して。」である場合、移動端末機100は、従来のファイル名を認識された音声に従って「携帯電話のアンテナ設計」に変更する。
他の例として、入力された音声命令が「設計をシミュレーションに変更して。」である場合、移動端末機100は、従来のファイル名にあった一部の単語を新しい単語に代えて「アンテナシミュレーション会議」にする。
一方、図7Eに示すように、ファイル名を修正するための画面は、音声テキスト変換により変換されたテキストの出力ウィンドウであってもよい。
例えば、音声ファイルのリストがアクセスされる際に、図7Eのように、テキストの出力に対応するアイコンが出力されるようにしてもよい。使用者によりアイコンがタッチされると、ディスプレイ部151にテキストが出力される。ここで、出力されるテキストは、ドラッグなどによりスクロール可能である。図示のように、使用者がタッチやドラッグによりテキストの内容のうち特定のキーワード又は文字列を選択すると、ファイル名を変更するか否かの確認ウィンドウが出力され、使用者がファイル名の変更を許可すると、ファイル名が変更される。
図7Eに開示された実施形態は、ファイル名の変更だけでなく、最初のファイル名設定にも応用することができる。例えば、音声録音中に音声テキスト変換により変換されたテキストが画面に出力され、使用者がタッチやドラッグによりテキストの内容のうち特定のキーワード又は文字列を選択すると、選択されたキーワード又は文字列がファイル名として付与されるようにする。
前述したように、本発明の第2実施形態によれば、音声テキスト変換ベースのテキストから抽出されたキーワードに基づいてファイル名を自動で付与することができるだけでなく、ファイル名を簡単に変更することができる。
また、電子機器、例えば移動端末機100は、ファイルリストにアクセスする際に、ファイル名に加えて追加情報を出力するようにしてもよい。これについては、図8A〜図8Jを参照して本明細書に開示された第3実施形態で説明する。
図8Aは本発明の第3実施形態により音声ファイルに関連するテキストを表示する方法を示すフローチャートである。
図8Aに示すステップS2310〜S2350は、図6Aに示すステップS2110〜S2150と同様であるので、その説明を省略し、ステップS2360から説明する。
音声ファイルが生成された後、音声ファイルのリスト(又は音声ファイル自体)に対するアクセス要求が受信されると(S2360)、各音声ファイルに対応するテキストに基づく文字列をディスプレイ部に表示する(S2370)。
アクセス要求は、音声ファイルのリストに対する使用者の要求であってもよい。また、アクセス要求は、音声録音終了命令に応答して電子機器、例えば移動端末機100が自動的に生成してもよい。
代案として、音声録音アプリケーションが終了した状態で、再び音声録音アプリケーションを実行させる要求が行われると、移動端末機100は、音声ファイルのリストを先に表示するようにしてもよい。つまり、アクセス要求は、音声録音アプリケーションを実行させる要求であってもよい。
本発明の第3実施形態によれば、移動端末機は、音声テキスト変換に基づいて生成されたテキストから適切な文字列を抽出し、音声ファイルに対するアクセス要求に対応して抽出された文字列を表示する。ここで、文字列の抽出方法としては、前述した第2実施形態と同一又は類似の方法を用いてもよい。
抽出された文字列を1画面に全て表示できない場合、移動端末機100は、文字列を自動でスクロールして表示するようにしてもよい。例えば、移動端末機100は、文字列を画面の右側に表示して左側に移動させることにより、文字列を全て表示するようにしてもよい。すなわち、画面に1行に表示できる文字の数だけ文字列を表示し、文字列を横方向に移動させて文字列の残りの文字を順次表示するようにしてもよい。あるいは、文字列の最初の文字を画面の一側に表示して他側に移動させて文字列の残りの文字を連続的に表示するようにしてもよい。
以下、このような過程の例示を、図8B〜図8Jを参照してより詳細に説明する。
図8Bは音声ファイルを説明する文字列を表示する一例を示すものである。
図8Bを参照すると、移動端末機100の画面に3つの音声ファイルが表示されている。1番目の音声ファイルは、2012年1月12日15時30分に生成されたものであり、録音時間は20分10秒であり、ファイル名は「携帯電話の新製品開発会議」である。
2番目の音声ファイルのファイル名は「LTE関連報道スクラップ」であり、3番目の音声ファイルのファイル名は「アンテナ設計会議」である。
図示のように、ディスプレイ部151には、音声ファイルのファイル名と共に、ファイル名とは異なる文字列が表示されるようにしてもよい。文字列には、ファイル名を含む内容が含まれてもよく、ファイル名に含まれない核心キーワードを含む内容が含まれてもよい。
ファイル名に設定された文字列と他の文字列とは、検出条件を変えることによって設定されてもよい。より詳細に説明するために、「アンテナ設計会議」というファイル名が第2実施形態の3番目の音声ファイルのファイル名と同じ方法により設定される場合を例示する。
話者Aと話者Bが「アンテナ設計」の他に「来月の海外出張」という言葉と「部品供給契約」という言葉を何回も繰り返した場合、移動端末機100は、「来月の海外出張」という言葉から海外出張前の打ち合わせであることを認識し、また「契約草案の作成」という言葉から会議が契約草案の作成のためのものであることを認識する。これにより、移動端末機100は、ファイル名と共に表示する文字列として、「海外出張前の打ち合わせ:契約草案の作成」を生成する。
一方、移動端末機100が縦画面で表示する際に、縦画面に文字列(「海外出張前の打ち合わせ:契約草案の作成」)を一度に表示できない場合、文字列を画面の右側に表示して左側に移動させることにより、文字列を全て表示するようにしてもよい。
例えば、図示の3番目の音声ファイルのように、まず「海外出張前の打ち合わせ」を表示し、文字列をスクロール、すなわち左方向に移動させることにより、「契約草案の作成」を連続的に表示する。
図8Cは音声ファイルを説明する文字列を表示する他の例を示すものである。
図8Cを参照すると、音声ファイルの文字列を1画面に全て表示できない状況で、移動端末機100が文字列をスクロールする際に、使用者が特定の音声ファイルに対してジェスチャーを行うことにより、文字列のスクロール速度を調整することができる。
より詳細に説明するために、図示の2番目の音声ファイルのように、移動端末機100がまず「LTE関連報道NHKラジオ」を表示し、文字列を左側に移動させることにより、「ラジオ」の次の部分を連続的に表示する場合を例示する。
使用者が2番目の音声ファイルに対するジェスチャーとして対応する画面部分をタッチ又はドラッグすると、移動端末機100は、文字列のスクロール速度、すなわち文字列の移動速度をより速くするか又はより遅くして文字列を表示するようにしてもよい。具体的には、移動端末機100は、使用者が2番目の音声ファイルをタッチすると、スクロール速度を遅くすることにより、使用者がより正確に読めるようにしてもよい。あるいは、移動端末機100は、使用者が2番目の音声ファイルをドラッグすると、スクロール速度を速くするようにしてもよい。例えば、図8Cの(a)のようにタッチする場合より、図8Cの(b)のようにドラッグする場合にスクロール速度が速くなるようにする。
さらに他の具体的な例として、移動端末機100は、使用者が2番目の音声ファイルを右にドラッグすると、スクロール方向を反対にするようにしてもよい。
一方、使用者が2番目の音声ファイルに対するジェスチャーとして、対応する画面部分をタッチ又はドラッグするのではなく、対応する画面部分を指差すと、移動端末機100は、カメラにより使用者の指ジェスチャーを認識し、指ジェスチャーに従ってスクロール速度を遅くするようにしてもよい。また、移動端末機100は、使用者が2番目の音声ファイルに対するジェスチャーとして対応する画面部分を指差した後に指を左又は右に動かすと、スクロールをより速くするか、又はスクロール方向を反対にするようにしてもよい。
図8Dは音声ファイルを説明する文字列を表示するさらに他の例を示すものである。
図8Dを参照すると、移動端末機100の画面に3つの音声ファイルが表示された状態で、使用者が音声で音声ファイルのテキストや文字列にアクセスすることができる。具体的に説明すると次の通りである。
図示のように、移動端末機100の画面に「携帯電話の新製品開発会議」、「LTE関連報道スクラップ」、「アンテナ設計会議」という文字列が表示され、「LTE関連報道スクラップ」には、スクロール中の文字列である「報道NHKラジオ」が表示されている。本例においては、3番目の音声ファイルのように、ファイル名自体をスクロールすることもできる。図示していないが、別の例として、ファイル名は核心キーワードではなく一連番号を付けてAUDIO_001のように設定され、ファイル名と共に出力される文字列はスクロールされて表示されるようにしてもよい。
本例においては、使用者が「2番目の音声メモを要約して言って。」と言うと、移動端末機100は、その対話命令を認識し、2番目の音声ファイルに対応するテキストから抽出された核心キーワードを画面に表示したり、音声で出力することができる。出力される音声は、抽出された核心キーワードをテキスト音声(Text To Speech; TTS)変換により音声に変換したものであってもよい。あるいは、出力される音声は、音声ファイルからキーワードに関連する部分のみを抽出し、抽出された部分を組み合わせたものであってもよい。
この場合、移動端末機100は、次のプロセスで核心キーワードを画面に表示したり、音声で出力することができる。例えば、移動端末機100は、対話命令を認識すると、音声テキスト変換を行って認識された文字列、すなわち「2番目の音声メモを要約して言って。」を画面の一部分、例えば画面の下端に表示する。次に、移動端末機100は、「ご要求されましたか。」という質問をスピーカから出力するようにしてもよい。あるいは、移動端末機100は、「2番目の音声メモを言って、とご要求されましたか。」という質問をスピーカから出力するようにしてもよい。
また、代案として、使用者が「LTE関連報道について詳しく言って。」と言うと、移動端末機100は、対話命令を認識し、音声テキスト変換を行って認識された文字列「LTE関連報道の詳細内容をご希望ですか?」を音声で出力したり、画面に出力するようにしてもよい。
質問を出力した後、使用者から肯定の表現(例えば、オッケー、はい、サンキューなど)の音声が入力された場合、移動端末機100は、2番目の音声ファイルに対応するテキストから抽出された核心キーワードを画面に表示したり、音声で出力するようにしてもよい。
また、質問を出力してから所定時間以上使用者からの入力がない場合も、移動端末機100は、これを肯定とみなすようにしてもよい。
図8E及び図8Fは音声ファイルを説明する文字列を詳細に表示する他の例を示すものである。
図8Eを参照すると、移動端末機100の画面に3つの音声ファイルの文字列が表示された状態で、使用者が特定の文字列に対してジェスチャーを行うと、移動端末機100は、文字列が属する欄を大きく表示することにより、欄に文字列の詳細内容を表示することができる。具体的に説明すると次の通りである。
図示のように、移動端末機100の画面に「携帯電話の新製品開発会議」、「LTE関連報道スクラップ」、「アンテナ設計会議」という文字列が表示され、「LTE関連報道スクラップ」には、スクロール中の文字列である「報道NHKラジオ」が表示されている。
本例においては、使用者が画面で音声ファイルの文字列が属する欄を所定時間以上タッチすると、移動端末機100は、文字列が属する欄を大きく表示することができる。例えば、図示のように2番目の音声ファイルの文字列が属する欄が所定時間以上タッチされた場合、2番目の音声ファイルの欄は大きくなり、3番目の音声ファイルの欄は画面の下端に移動するか又は表示されない。
次に、移動端末機100は、大きくなった2番目の音声ファイルの欄に、2番目の音声ファイルに対応する音声テキスト変換ベースのテキストを要約して表示するようにしてもよい。その要約内容を大きくなった2番目の音声ファイルの欄に全て表示できない場合、移動端末機100は、欄の右側にスクロールバーを表示するようにしてもよい。
一方、このような方法は、使用者が画面で音声ファイルの文字列が属する欄をロングタッチする場合にのみ適用されるものではなく、他のジェスチャーの場合にも適用可能である。
例えば、使用者が画面で2番目の音声ファイルの文字列が属する欄をタッチした後に画面の下方又は上方にドラッグした場合も、移動端末機100は、2番目の音声ファイルの文字列が属する欄を大きく表示し、欄に文字列の詳細内容を表示するようにしてもよい。
図8Fを参照すると、使用者が画面で2番目の音声ファイルの文字列が属する欄を2本の指でタッチしたまま2本の指を互いに遠ざかる方向にドラッグした(ピンチアウトした)場合も、移動端末機100は、2番目の音声ファイルの文字列が属する欄を大きく表示し、欄に文字列の詳細内容を表示するようにしてもよい。
この場合、ドラッグ速度に応じて該当欄が大きくなる程度を調整することができる。例えば、欄は、図8Fの(b)のようにドラッグ速度が速い場合、図8Fの(a)のようにドラッグ速度が遅い場合に拡張される程度より大きく拡張されるようにしてもよい。また、ドラッグ速度が予め設定された速度以上の場合、他の文字列は消え、該当文字列が画面全体に出力されるようにしてもよい。
図8Gは音声ファイルを説明する文字列を詳細に表示するさらに他の例を示すものである。
図8Gに示すように、2番目の音声ファイルの文字列の詳細内容が表示された場合、移動端末機100は、文字列の詳細内容のうちの核心キーワードを太字(ボールド)又は下線(アンダーライン)付きで表示するようにしてもよい。
また、核心キーワードは、ハイライトで表示してもよく、赤字で表示してもよい。
一般に、文字列の詳細内容を表示する際に、核心キーワードを中心に単語を並べた場合、使用者は単語だけでは録音当時の状況を思い出せないことがある。よって、図8Gに示すように、移動端末機100は、文字列の詳細内容を表示する際に、核心キーワードだけでなく、核心キーワードを含む文章全体を表示し、核心キーワードを太字又は下線付きで表示することにより、使用者が録音当時の状況を正確に思い出せるようにする。このとき、使用者が太字又は下線付きで表示した核心キーワードをタッチすると、音声ファイルのうち該当部分のみを再生して音響を出力するようにしてもよい。また、部分が変更されるファイル名に設定されるようにしてもよい。
代案として、移動端末機100は、文字列の詳細内容を表示する際に、核心単語のみを並べて表示するようにしてもよい。ここで、核心単語は、リンクがあることを示す下線付きで表示されてもよい。この場合、使用者が画面で該当単語をタッチすると、移動端末機100は、核心単語を含む文章全体を表示し、音声ファイルのうち該当部分のみを再生するようにしてもよい。
他の例として、文字列の詳細内容を表示する際に、専門用語など、一般にあまり使用されない用語がある場合、用語に強調効果(例えば、太字、下線付き、ハイライト、赤字など)を与えて表示するようにしてもよい。
この場合、使用者が画面で強調効果が与えられた単語をタッチすると、移動端末機100は、単語の辞書検索結果をポップアップ画面に表示するようにしてもよい。
図8Hは音声ファイルに対応する音声テキスト変換ベースのテキストを画面全体に詳細に表示する他の例を示すものである。
使用者が2番目の音声ファイルに対してジェスチャーを行うと、例えばダブルタッチすると、図8Hに示すように、移動端末機100は、2番目の音声ファイルに対応する音声テキスト変換ベースのテキスト全文を表示するようにしてもよい。
ここで、画面にテキスト全文を表示できない場合、移動端末機100は、画面の右側にスクロールバーを表示するようにしてもよい。画面にテキスト全文を表示できない場合、移動端末機100は、画面にテキスト全文を最初から表示し、画面の右側にスクロールバーを表示するようにしてもよいが、代案として、画面にテキスト全文を核心キーワードのある部分から表示するようにしてもよい。このようにすることにより、録音当時の話者間の一般的な挨拶などの不要な部分は使用者が読まないようにすることができる。
前述したように、核心キーワードは、強調効果(例えば、太字、下線付き、ハイライト、赤字など)が与えられて表示されるようにしてもよく、使用者が強調効果が与えられた核心キーワードをタッチすると、音声ファイルの該当部分が音声で出力されるようにしてもよい。
図8Iは音声ファイルに対応する音声テキスト変換ベースのテキストを画面全体に詳細に表示した状態で使用者が音声で命令する例を示すものである。前述したように、音声テキスト変換ベースのテキスト全文を表示すると共に、移動端末機100は、使用者からの音声命令の入力を受けるための画面を下端に表示するようにしてもよい。
使用者が「LTE標準特許部分から再生して。」と言うと、移動端末機100は、その音声命令を認識し、該当部分から音声を再生する。
この場合、音声を再生する前に、音声テキスト変換を行って認識された文字列「LTE標準特許部分から再生して。」を音声で出力したり、画面に出力するようにしてもよい。あるいは、移動端末機100は、「LTE標準部分から再生しましょうか?」を音声で出力したり、画面に出力するようにしてもよい。
一方、テキスト全文の表示は、音声の再生に連動して制御されるようにしてもよい。例えば、図8Jのように、音声再生命令と共に、移動端末機100のディスプレイ部151に音声テキスト変換により変換されたテキストが出力されるようにしてもよい。この場合、ディスプレイ部151には、現在再生されている音声に対応するテキスト部分を示すインジケータが出力され、インジケータは、音声の再生に連動して移動する。
また、移動端末機100は、音声の再生時に再生速度を調節できるように構成され、インジケータは、再生速度に応じて移動速度や形態が変わるように形成される。一例として、図8Jに示すように、インジケータが特定範囲をハイライト表示するブロックである場合、ブロックは、再生速度が1倍速であれば1つの単語をハイライト表示し、再生速度が2倍速であれば複数の単語をハイライト表示するように形成されてもよい。
前述したように、本発明の第3実施形態によれば、移動端末機100は、音声ファイルのリストに対するアクセス要求を受信すると、核心キーワードからなる文字列を表示し、文字列に対する使用者のジェスチャーがあると、テキスト全体を出力することができる。また、本発明の第3実施形態によれば、核心キーワードからなる文字列により、使用者が音声ファイルの再生を簡単にコントロールすることができる。
本明細書に開示された第4実施形態は、前述した実施形態における構成又は段階の一部又は組み合わせとして実現してもよく、前述した実施形態の組み合わせとして実現してもよい。以下、本明細書に開示された第4実施形態をより明確に説明するために、重複する説明は省略する。
図9Aは本明細書に開示された第4実施形態による音声ファイル編集方法を示すフローチャートである。
図9Aを参照すると、本明細書に開示された第4実施形態による音声ファイル編集方法は、次のような段階からなるようにしてもよい。
まず、電子機器、例えば移動端末機100は、移動端末機100に保存された複数の音声ファイルのうち特定の音声ファイルを再生する(S3011)。そして、移動端末機100は、再生される特定の音声ファイルに対してリアルタイム音声テキスト変換を行う。
次に、移動端末機100は、リアルタイム音声テキスト変換に基づいて、音声ファイルに対応するテキスト(文字列又はスクリプト)を生成する(S3012)。
次に、移動端末機100は、生成されたテキスト(文字列又はスクリプト)の空白部分を検出する(S3013)。ここで、空白部分とは、テキスト(文字列又はスクリプト)に含まれる空の文字(又は空の文字列)部分を意味する。
次に、移動端末機100は、検出された空白部分に対応する音声ファイル部分を削除し、削除された音声ファイル部分を除く残りの音声ファイル部分に基づいて、新しい音声ファイルを生成する(S3014)。
図9Bを参照すると、本明細書に開示された第4実施形態による音声ファイル編集方法は、既に保存されているファイルに対しても適用することができる。既に保存されているファイルに適用される音声ファイル編集方法は次の通りである。
まず、移動端末機100は、移動端末機100に保存された複数の音声ファイルのうち特定の音声ファイルを選択する(S3021)。そして、移動端末機100は、選択された特定の音声ファイルに対して音声テキスト変換を行う。
次に、移動端末機100は、音声テキスト変換に基づいて、音声ファイルに対応するテキスト(文字列又はスクリプト)を生成し(S3022)、生成されたテキスト(文字列又はスクリプト)の空白部分を検出する(S3023)。
次に、移動端末機100は、検出された空白部分に対応する音声ファイル部分を削除し、削除された音声ファイル部分を除く残りの音声ファイル部分に基づいて、新しい音声ファイルを生成する(S3024)。
図9Cは本明細書に開示された第4実施形態による音声ファイル編集方法の一例を示す図である。
使用者は、特定の音声ファイル(A001.wmv)が空の音声区間A110を含む場合、本明細書に開示された第4実施形態による音声ファイル編集方法に基づいて、空の音声区間A110を削除し、新しい音声ファイル(A002.wmv)を生成することができる。
図9Cに開示された音声ファイル編集方法は、音声ファイル再生中のリアルタイム音声テキスト変換の場合と、音声ファイル選択後の音声テキスト変換の場合のどちらにも適用することができる。
図9Cの(a)を参照すると、移動端末機100は、移動端末機100の使用者の選択入力に基づいて、移動端末機100に保存された音声ファイルのうち音声ファイルA001.wmvを選択する。
次に、移動端末機100は、選択された音声ファイルA001.wmvを再生する。この場合、移動端末機100は、選択された音声ファイルA001.wmvに対して音声テキスト変換を行う。
次に、移動端末機100は、移動端末機100の画面の一部領域に、音声テキスト変換に基づいて生成されたテキストT110を表示する。
次に、移動端末機100は、テキストT110の空白部分E110を検出する。
この場合、移動端末機100は、検出された空白部分E110に対応する音声ファイルA001.wmvの空の音声区間A110を検出する。
図9Cの(b)を参照すると、移動端末機100は、空白部分E110に対応する音声ファイルA001.wmvの空の音声区間A110を削除し、音声ファイルA001.wmvのうち削除された音声区間A110を除く残りの部分を含む新しい音声ファイルA002.wmvを生成する。
図9Cの(b)から分かるように、この場合、新しい音声ファイルA002.wmvには、空白部分E110に対応する空の音声区間A110がない。
図9Dは本明細書に開示された第4実施形態による他の音声ファイル編集方法を示すフローチャートである。
図9Dを参照すると、本明細書に開示された第4実施形態による音声ファイル編集方法は、次のような段階からなるようにしてもよい。
まず、移動端末機100は、移動端末機100に保存された複数の音声ファイルのうち特定の音声ファイルを再生する(S3031)。そして、移動端末機100は、再生される特定の音声ファイルに対してリアルタイム音声テキスト変換を行う。
次に、移動端末機100は、リアルタイム音声テキスト変換に基づいて、音声ファイルに対応するテキスト(文字列又はスクリプト)を生成する(S3032)。
次に、移動端末機100は、生成されたテキスト(文字列又はスクリプト)の一部分を選択する(S3033)。
次に、移動端末機100は、選択されたテキストの一部分に対応する音声部分に基づいて、新しい音声ファイルを生成する(S3034)。ただし、本発明は、これに限定されるものではなく、選択されたテキストの一部分に対応する音声部分を削除し、削除された音声ファイル部分を除く残りの音声ファイル部分に基づいて、新しい音声ファイルを生成するようにしてもよい。
図9Eを参照すると、図9Dに開示された音声ファイル編集方法は、既に保存されているファイルに対しても適用することができる。
まず、移動端末機100は、移動端末機100に保存された複数の音声ファイルのうち特定の音声ファイルを選択し(S3041)、選択された特定の音声ファイルに対して音声テキスト変換を行う。なお、新しい音声ファイルを生成する残りの過程は、図9Dに開示された方法と同様に行ってもよい。
図9Fは図9D又は図9Eに開示された音声ファイル編集方法の一例を示す図である。図9Fに開示された音声ファイル編集方法は、音声ファイル再生中のリアルタイム音声テキスト変換の場合と、音声ファイル選択後の音声テキスト変換の場合のどちらにも適用することができる。
図9Fの(a)を参照すると、移動端末機100は、移動端末機100の使用者の選択入力に基づいて、移動端末機100に保存された音声ファイルのうち特定の音声ファイルB001.wmvを選択する。保存された音声ファイルは、現在録音中の音声の一時保存ファイルであってもよい。
特定の音声ファイルB001.wmvが選択されると、移動端末機100は、選択された特定の音声ファイルB001.wmvに対して音声テキスト変換を行う。選択された特定の音声ファイルB001.wmvは、再生されるか、音声テキスト変換に基づいて生成されたテキストが移動端末機100の画面の一部領域に出力される。この場合、再生とテキスト出力が共に行われるようにしてもよい。
使用者は、特定の音声ファイルB001.wmvが削除すべき音声区間(又は部分)A210を含む場合、音声ファイル編集方法に基づいて、削除すべき音声区間A210を削除し、新しい音声ファイルB002.wmvを生成することができる。
より具体的には、図示のように、移動端末機100は、移動端末機100の使用者の選択入力に基づいて、生成されたテキストのうち特定のテキストT210を選択する。
使用者の選択入力は、様々な方法で移動端末機100に対して行われる。例えば、図9Fの(a)のように、使用者は移動端末機100に対してタッチ入力を行う。次に、使用者はタッチ入力に基づいてドラッグイベントを発生させる。すなわち、移動端末機100は、ドラッグにより特定のテキストT210を選択する。ここで、特定のテキストT210は、対応する音声ファイル(B001.wmv)の特定の音声区間A210であってもよい。使用者の選択入力は、これに限定されるものではなく、その他の様々な入力方式を適用できることは、本発明の属する技術の分野における通常の知識を有する者にとって自明である。
図9Fの(b)を参照すると、移動端末機100は、特定のテキストT210に対応する音声ファイルB001.wmvの特定の音声区間A210を削除し、音声ファイルB001.wmvのうち削除された音声区間A210を除く残りの部分を含む新しい音声ファイルB002.wmvを生成する。
図9Fの(b)から分かるように、この場合、新しい音声ファイルB002.wmvには、特定の音声区間A210に対応する音声又は特定のテキストT210に対応する音声区間A210がない。
第4実施形態の変形例によれば、使用者は、音声ファイルの一部の音声区間を選択し、一部の音声区間のテキストを別に保存することができる。
また、移動端末機100は、音声ファイルB001.wmvに対応する再生音声区間インジケータ(例えば、図9Fの(a)のプログレスバー)を、移動端末機100の画面に表示するようにしてもよい。さらに、使用者は、タッチやドラッグにより、インジケータ上で特定の音声区間A210を選択することができる。
図10Aは本明細書に開示された第4実施形態による音声ファイル編集方法の変形例を示すフローチャートである。
図10Aを参照すると、音声ファイル編集方法においては、まず、電子機器、例えば移動端末機100は、移動端末機100に保存された複数の音声ファイルのうち特定の音声ファイルを選択する(S3051)。そして、移動端末機100は、選択された音声ファイルに対してリアルタイム音声テキスト変換を行う。この場合、選択された音声ファイルの再生が共に行われるようにしてもよい。
次に、移動端末機100は、リアルタイム音声テキスト変換に基づいて、音声ファイルに対応するテキスト(文字列又はスクリプト)を生成する(S3052)。
次に、使用者により生成されたテキスト(文字列又はスクリプト)の特定の区間が選択される(S3053)。次に、移動端末機100は、選択された特定の区間に優先順位を付与するか、又は選択された特定の区間に対応する新しい音声ファイルを生成する(S3054)。
図10Bは図10Aに開示された音声ファイル編集方法の一例を示す図である。図10Bに開示された音声ファイル編集方法は、音声ファイル再生中のリアルタイム音声テキスト変換の場合と、音声ファイル選択後の音声テキスト変換の場合のどちらにも適用することができる。
図10Bの(a)を参照すると、移動端末機100は、移動端末機100の使用者の選択入力に基づいて、移動端末機100に保存された音声ファイルのうち特定の音声ファイルC001.wmvを選択する。
特定の音声ファイルC001.wmvが選択されると、移動端末機100は、移動端末機100の画面の一部領域に、音声テキスト変換に基づいて生成されたテキストを表示する。この場合、移動端末機100は、選択された特定の音声ファイルC001.wmvのテキスト出力及び再生を共に行うようにしてもよい。
使用者は、特定の音声ファイルC001.wmvの音声区間のうち一部の音声区間A310(又はテキスト区間T310)に優先順位を付与したい場合、図10Aに開示された音声ファイル編集方法に基づいて、一部の音声区間A310に優先順位が付与されたファイルC002.wmvを生成することができる。例えば、図10Bの(a)のようにテキストへの連続タッチが感知されると、移動端末機100は、最初のタッチを開始地点として次のタッチを終了地点とする音声区間A310を選択する。他の例として、音声区間の選択はドラッグにより行われるようにしてもよい。
このようにして音声区間A310に優先順位が付与され、新しいファイルC002.wmvとして保存される。ただし、本発明はこれに限定されるものではなく、音声区間A310に優先順位が付与され、最初の音声ファイルC001.wmvがアップデートされるようにしてもよい。使用者により優先順位が付与されたファイルC002.wmvが選択されると、図10Bの(b)のように、優先順位が付与された音声区間A310から音声出力が行われる。
前述したように、本明細書に開示された第4実施形態によれば、音声ファイルの編集を容易に行うことができる。
以下、本明細書に開示される第5実施形態について説明する。
本明細書に開示された第5実施形態は、前述した実施形態における構成又は段階の一部又は組み合わせとして実現してもよく、前述した実施形態の組み合わせとして実現してもよい。以下、本明細書に開示された第5実施形態をより明確に説明するために、重複する説明は省略する。
本明細書に開示された第5実施形態は、電子機器、例えば移動端末機100に保存された音声ファイル(又は音声メモ、以下「音声メモ」という)のクラスタリング方法に関するものである。
クラスタリングとは、類似性などの概念に基づいてデータをいくつかのグループに分類する方法の総称である。
一般に、クラスタリングは、文献検索、パターン認識、経営科学などに幅広く応用されている。
本明細書に開示された第5実施形態においては、クラスタリング方法により使用者が移動端末機100に保存された音声メモの分類基準を選択できるようにする。移動端末機100は、選択された分類基準に基づいて音声メモを分類し、リスト化して音声メモのリストを生成し、生成された音声メモのリストを移動端末機100の画面に表示する。
また、本明細書に開示された第5実施形態は、移動端末機100が音声メモの内容を分析して関連情報を画面に表示して、移動端末機100の使用者が特定人に容易に連絡又は特定内容の伝達を行えるようにする方法に関するものである。これを音声メモ(又は音声ファイル)に基づくダイレクトアクセス方法ともいう。ここで、関連情報は、音声メモの内容に関連する場所、スケジュール、氏名、連絡先(例えば、電話番号、電子メールアドレス)のポップアップウィンドウ又はリンク情報などである。
図11Aは本明細書に開示された第5実施形態による音声メモのクラスタリング方法(又は分類方法)を示すフローチャートである。図11Aを参照すると、音声メモのクラスタリング方法(又は分類方法)は、次のような段階からなるようにしてもよい。
まず、移動端末機100は、移動端末機100に保存された音声ファイルの再生又は録音に関するUI(User Interface)画面を、移動端末機100の画面に表示する(S3071)。
次に、移動端末機100は、移動端末機100の使用者の選択入力に基づいて、UI画面で音声ファイルの分類メニューを選択する(S3072)。
次に、移動端末機100は、使用者の選択入力に基づいて、分類メニューのうち特定の分類基準を選択する(S3073)。
次に、移動端末機100は、選択された分類基準に基づいて、音声ファイルのリストを移動端末機100の画面に表示する(S3074)。
ここで、音声ファイルの再生又は録音に関するUIは、様々なUI要素を含んでもよい。すなわち、UIは、移動端末機100による音声ファイルの再生又は録音機能に関連する様々なUI要素を含んでもよい。
例えば、UI(特に、GUI)は、音声ファイルに対応する再生ボタン、再生中止ボタン、倍速再生ボタン、スロー再生ボタン、早送りボタン、巻き戻しボタン、音声ファイルの再生音声区間又は再生時点を示すインジケータ、移動端末機100の使用者の音声録音ボタン、録音中止ボタン、及び音声ファイルの音声テキスト変換結果であるテキスト表示に関連するUI要素の少なくとも1つを含む。
図11Bは本明細書に開示された第5実施形態による音声メモのクラスタリング方法の一例を示す図である。
図11Bを参照すると、移動端末機100は、移動端末機100に保存された音声メモの再生又は録音に関するUIを、移動端末機100の画面に表示するようにしてもよい。前述したように、UIは、保存された音声メモのクラスタリング(又は分類)を示すインジケータを含んでもよい。
インジケータは、クラスタリング(又は分類)の分類メニューをアクティブにするボタンU110であってもよい。
移動端末機100の使用者により分類メニューをアクティブにするボタンU110が選択されると、移動端末機100は、保存された音声メモの分類メニューP110を、移動端末機100の画面に表示するようにしてもよい。
分類メニューP110は、保存された音声メモに関する様々な分類基準に関連するUI要素を含んでもよい。
例えば、分類基準に関連するUI要素は、分類基準を選択するための選択ボタンであってもよい。また、分類基準は、図11Bのように、音声メモに関連する「主題」ボタンP111、「話者」ボタン、「場所」ボタン、又は「時間」ボタンであってもよい。
本明細書に開示された第5実施形態によれば、移動端末機100の使用者により分類ボタンのうち「主題」ボタンP111が選択されると、移動端末機100は、音声メモを「主題」別にクラスタリング(又は分類)してリスト化し、音声メモのリストL110を移動端末機100の画面に表示する。
例えば、図11Bのように音声メモが会議に関連する主題を有する場合、移動端末機100は、音声メモを会議の主題別にリスト化し、音声メモのリストL110を移動端末機100の画面に表示する。
図11Cは本明細書に開示された第5実施形態による音声メモの内容に基づくダイレクトアクセス方法の一例を示す図である。
図11Cを参照すると、移動端末機100は、移動端末機100に保存された音声メモの再生又は録音に関するUIを、移動端末機100の画面に表示するようにしてもよい。
移動端末機100は、移動端末機100の使用者のUIによる選択入力に基づいて、移動端末機100に保存された音声ファイルのうち特定の音声ファイル(D001.wmv)を選択及び再生するようにしてもよい。
この場合、移動端末機100は、特定の音声ファイル(D001.wmv)に対して音声テキスト変換を行い、音声テキスト変換に基づいて生成されたテキストを移動端末機100の画面の一部領域に表示するようにしてもよい。また、テキストが出力された状態では、前述したように、現在の再生時点を示すインジケータが出力されるようにしてもよい。
本明細書に開示された第5実施形態によれば、移動端末機100は、音声メモの内容を分析し、音声メモに関する情報を移動端末機100の画面に表示することができる。
例えば、音声メモに関する情報は、音声メモが録音された場所、音声メモに関連する人のスケジュール、音声メモに関連する人の氏名、音声メモに関連する人の連絡先、及び音声メモに関連する人の電子メールアドレスの少なくとも1つを含む。
移動端末機100は、ポップアップウィンドウI110により、音声メモに関する情報を画面に表示するようにしてもよい。
本明細書に開示された第5実施形態によれば、移動端末機100の使用者によりポップアップウィンドウI110に含まれる特定の情報が選択(例えば、画面へのタッチ入力に基づく選択)されると、移動端末機100は、選択された特定の情報に基づいて直接特定の情報に関連する人に連絡又はコンタクトできる機能を提供する。前述したように、これを音声メモに関する情報に基づくダイレクトアクセス機能ともいう。
例えば、図11Cのように、移動端末機100の使用者によりポップアップウィンドウI110に含まれる特定の情報のうち連絡先部分が選択されると、移動端末機100は、連絡先の電話番号に対する通話接続機能を実行する。
また、移動端末機100の使用者によりポップアップウィンドウI110に含まれる特定の情報のうち電子メール部分が選択されると、移動端末機100は、電子メールのアドレスに電子メールを送信できるように、電子メール送信機能を提供するアプリケーション(例えば、電子メール編集プログラム、アウトルックプログラム)を実行する。
本明細書に開示された第6実施形態は、前述した実施形態における構成又は段階の一部又は組み合わせとして実現してもよく、前述した実施形態の組み合わせとして実現してもよい。以下、本明細書に開示された第6実施形態をより明確に説明するために、重複する説明は省略する。
本明細書に開示された第6実施形態は、移動端末機100に保存された音声メモに含まれる特定の音声区間の検索機能(サーチ機能)に関するものである。検索機能は、音声メモに含まれる特定の音声区間のナビゲーション機能ともいえる。また、検索機能は、音声メモに含まれる特定の音声区間の音声スキャン機能ともいえる。
また、本明細書に開示された第6実施形態は、音声メモの音声テキスト変換結果であるテキストのうち、特定の音声区間に対応する特定のテキスト区間の検索、ナビゲーション、又は音声スキャン機能に関するものである。
よって、本明細書に開示された第6実施形態においては、音声メモの検索機能と音声メモの音声テキスト変換結果であるテキストの検索機能との間に可逆的な関係があり得る。
すなわち、音声メモの検索機能が実行される場合、音声メモに対応するテキストの検索機能も共に実行されるようにすることができる。また、音声メモに対応するテキストの検索機能が実行される場合、音声メモの検索機能も共に実行されるようにすることができる。
図12Aは本明細書に開示された第6実施形態による音声メモの検索機能実行方法を示すフローチャートである。図12Aを参照すると、音声メモの検索機能実行方法は、次のような段階からなるようにしてもよい。
まず、電子機器、例えば移動端末機100は、移動端末機100に保存された複数の音声ファイルのうち特定の音声ファイルを再生する(S3081)。
次に、移動端末機100は、再生される特定の音声ファイルに対してリアルタイム音声テキスト変換を行い、リアルタイム音声テキスト変換に基づいて、音声ファイルに対応するテキスト(文字列又はスクリプト)を生成する(S3082)。ただし、テキストを生成するステップ(S3082)は、既に音声テキスト変換によりテキストが生成されている場合や、他の方法によりテキストが生成されている場合は省略してもよい。
次に、移動端末機100は、移動端末機100の使用者の選択入力に基づいて、音声ファイルの特定の再生時点を選択する(S3083)。このために、移動端末機100は、テキスト(文字列又はスクリプト)のうち特定の再生時点に対応するテキスト部分を、移動端末機100の画面に表示する(S3084)。
図12Bは本明細書に開示された第6実施形態による音声メモの検索機能実行方法の一例を示す図である。
移動端末機100は、移動端末機100に保存された音声メモ(又は音声ファイル)の再生又は録音に関するUIを、移動端末機100の画面に表示するようにしてもよい。
図12Bを参照すると、移動端末機100は、移動端末機100の使用者の選択入力に基づいて、移動端末機100に保存された音声ファイルのうち特定の音声ファイルE001.wmvを選択及び再生する。このとき、移動端末機100は、音声に対応するテキストを移動端末機100の画面の一部領域に表示するようにしてもよい。
本明細書に開示された第6実施形態によれば、移動端末機100の使用者により特定の音声ファイルE001.wmvの音声区間のうち特定の再生時点P210が選択されると、移動端末機100は、テキストのうち特定の再生時点P210に対応する部分を検索し、移動端末機100の画面に表示する。
図12Bの(a)を参照してテキストの検索機能について具体的に説明すると次の通りである。
移動端末機100は、音声ファイルE001.wmvに対応する再生音声区間インジケータ(例えば、図9Fの(a)のプログレスバー)を、移動端末機100の画面に表示する。
また、移動端末機100は、移動端末機100の使用者のタッチ入力に基づいて、インジケータ上で特定の再生時点P210を選択する。さらに、使用者がプログレスバーを用いて検索する際に出力されるテキストとプログレスバーとは連動するようにすることができる。
このような例として、移動端末機100は、音声ファイルE001.wmvを特定の再生時点P210から再生すると共に、音声ファイルE001.wmvに対応するテキストのうち選択された特定の再生時点P210に対応する特定のテキストT410を、移動端末機100の画面に表示する。
より具体的には、電子機器の制御部は、使用者の要求に応じて、保存された音声メモ(音声ファイル)の再生に関連する動作モードに移行し、動作モードで電子機器の画面の少なくとも一部の領域に音声メモの再生時点に対応するテキストを表示し、音声メモの再生時点を変更させる制御命令を感知し、表示されたテキストを変更させる再生時点に対応するように変更して出力する。
電子機器の画面には、音声メモの時間情報を示すプログレスバーが表示され、音声メモの再生時点は、プログレスバーのタッチ地点に対応して変更される。この場合、テキストは、使用者の音声から音声テキスト変換に基づいて生成されたものであり、テキストは、音声メモの再生に連動してスクロールされて表示されるようにしてもよい。
他の例として、図12Bの(b)を参照すると、移動端末機100の使用者の制御命令の入力により別の検索ウィンドウがポップアップするようにしてもよい。検索ウィンドウは、図12Bの(b)のように、検索する単語を入力できるように設けられてもよく、図12Bの(a)のように、プログレスバーが検索バーとして出力されるようにしてもよい。前者の場合、使用者は単語を入力して検索を行い、検索結果の出力は入力された単語が用いられた区間を使用者に選択させることができるように行ってもよい。後者の場合、使用者はプログレスバーの特定の地点をタッチして検索を行い、前述した例のように、タッチ時に画面には特定の地点に対応するテキスト(又はテキストを含む文章)が出力されるようにしてもよい。
図12Cは本明細書に開示された第6実施形態による音声メモの検索機能実行方法を示すフローチャートである。
図12Cを参照すると、本明細書に開示された第6実施形態による音声メモ(又は音声ファイル)の検索機能実行方法は、次のような段階からなるようにしてもよい。
図12Cに開示された音声メモの検索機能実行方法のステップS3091及びS3092は、図12Aに開示された音声メモの検索機能実行方法のステップS3081及びS3082と同様に行われてもよい。
図示のように、移動端末機100は、ステップS3092を行った後、移動端末機100の使用者の選択入力に基づいて、テキスト(文字列又はスクリプト)のうち特定の部分を選択し(S3093)、テキストの特定の部分に対応する音声ファイル部分を再生する(S3084)。
ただし、本発明はこれに限定されるものではない。例えば、音声テキスト変換の実行後に音声ファイルが保存される際には、新しいテキストファイルも音声ファイルと共に保存されるようにしてもよい。これにより、後で音声ファイルを再生する際に、音声テキスト変換過程を行うことなく、テキストファイルを用いて、再生される音声に対応するテキストを直ちに出力することができる。このような動作のために、テキストの特定の部分に対応する時間と、音声ファイルのうちテキストの特定の部分に対応する部分の時間とを同期化してもよい。
図12Dは本明細書に開示された第6実施形態による音声メモの検索機能実行方法の一例を示す図である。
移動端末機100は、移動端末機100に保存された音声メモ(又は音声ファイル)の再生又は録音に関するUIを、移動端末機100の画面に表示するようにしてもよい。
図12Dの(a)を参照すると、移動端末機100は、移動端末機100の使用者の選択入力に基づいて、移動端末機100に保存された音声ファイルのうち特定の音声ファイルF001.wmvを選択及び再生する。また、移動端末機100は、移動端末機100の画面の一部領域に、音声テキスト変換に基づいて生成されたテキストT510を表示する。
移動端末機100は、使用者の選択入力に基づいて、生成されたテキストT510のうち特定のテキストT520を選択する。
特定のテキストT520の選択は、使用者のタッチ入力及びタッチ入力に基づいて発生するドラッグイベントに基づいて行われるようにしてもよい。移動端末機100は、ドラッグイベントに基づいて特定のテキストT520を選択することができる。
図12Dの(b)を参照すると、特定のテキストT520が選択されると、移動端末機100は、音声ファイルF001.wmvの再生時点を、現在の再生時点P310から特定のテキストT520に対応する特定の再生時点P320に変更する。
このとき、移動端末機100は、音声ファイルF001.wmvの再生時点を変更すると共に、特定の再生時点P320に対応するテキストT530を移動端末機100の画面の上端に表示するようにしてもよい。
他の例として、図12Eを参照すると、移動端末機100は、音声再生中に移動端末機100の使用者によりプログレスバーの特定の地点がタッチされると、その特定の地点に対応する特定の時点のテキストをインジケータと共に出力する。その後、使用者によりテキスト又はインジケータがタッチされると、移動端末機100は、その部分に対応するように音声ファイルG001.wmvの再生時点を変更すると共に、再生時点に対応するテキストを移動端末機100の画面の一部領域に表示する。
図12Fは本明細書に開示された第6実施形態による音声スキャン方法の一例を示す図である。
図12Fに開示された第6実施形態においては、移動端末機100が移動端末機100に保存された音声ファイルの再生と共に、音声ファイルの音声テキスト変換に基づいて生成されたテキストのうち音声ファイルの再生時点に対応する特定のテキスト部分に対して特定の効果を与えて移動端末機100の画面に表示することに関するものである。
例えば、特定の効果は、特定のテキスト部分を画面の右から左に移動させる効果であってもよい。また、特定のテキストの移動は、水が流れるような効果を与えて表示することもできる。
また、特定の効果は、特定のテキスト部分をハイライト表示する効果であってもよい。この場合、ハイライト表示効果は、特定のテキスト部分を強調する(例えば、他のテキスト部分より相対的に濃い字又は大きい字にする)効果であってもよい。
さらに、図12Fに開示された第6実施形態による音声スキャン方法においては、移動端末機100に保存された音声ファイルの再生中に、移動端末機100の使用者の選択入力により音声ファイルの再生時点が変更された場合、変更された再生時点に対応するテキスト部分に変更して表示する機能を含んでもよい。
図12Fの(a)を参照すると、移動端末機100は、音声ファイルの第1再生時点P410を再生している。
この場合、移動端末機100は、第1再生時点P410に対応するテキストT610(「イ・デホ選手は30日…」)を移動端末機100の画面に表示する。
図12Fの(b)を参照すると、移動端末機100の使用者により音声ファイルの再生時点が第2再生時点P420に変更されると、移動端末機100は、音声ファイルの再生時点の変更と共に、第2再生時点P420に対応するテキストT620(「同点ソロホームランを…」)を移動端末機100の画面に表示する。
図12Gは本明細書に開示された第6実施形態による音声ファイルの言語情報変更方法の一例を示す図である。
図12Gを参照すると、移動端末機100は、特定の国の言語の音声を他の国の言語の音声に変更して音声録音を行うことができる。
例えば、移動端末機100による音声録音機能の実行中に、移動端末機100の使用者が「私は少年です。」と日本語で話した場合、移動端末機100は、日本語の音声をそのまま録音することもでき、日本語の音声を翻訳して英語の音声(例えば、「I AM A BOY.」)を録音することもできる。
この場合、移動端末機100は、英語の音声を保存すると共に、英語の音声をスピーカなどの音声出力装置から出力することができる。
また、移動端末機100は、英語の音声に対して音声テキスト変換を行い、英語の音声に対応するテキストを生成することができる。
さらに、移動端末機100は、英語の音声に対応するテキストを移動端末機100の画面に表示することができる。
本明細書に開示された第7実施形態は、前述した実施形態における構成又は段階の一部又は組み合わせとして実現してもよく、前述した実施形態の組み合わせとして実現してもよい。以下、本明細書に開示された第7実施形態をより明確に説明するために、重複する説明は省略する。
本明細書に開示された第7実施形態は、電子機器、例えば移動端末機100に保存された音声メモ(又は音声ファイル)の自動再生機能に関するものであり、移動端末機100の使用者の身体の一部分(例えば、使用者の耳)が移動端末機100に近接すると音声メモ(又は音声ファイル)の自動再生機能が活性化されることに関するものである。
図13Aは本明細書に開示された第7実施形態による音声ファイルの自動再生方法を示すフローチャートであり、図13Bは本明細書に開示された第7実施形態による音声ファイルの自動再生方法の一例を示す図である。
図13Aを参照すると、本明細書に開示された第7実施形態による音声ファイルの自動再生方法は、次のような段階からなるようにしてもよい。
まず、移動端末機100は、移動端末機100に保存された複数の音声ファイルのうち特定の音声ファイルを選択する(S3111)。その後、移動端末機100の使用者の身体の一部分が移動端末機100に近接すると、移動端末機100は、特定の音声ファイルを再生する(S3112)。
図13Bを参照すると、移動端末機100は、移動端末機100に保存された音声ファイルのリストを移動端末機100の画面に表示する。
この場合、移動端末機100の使用者は、音声ファイルのリストのうち特定の音声ファイルC001.wmvを選択することができる。特定の音声ファイルの選択は、使用者によるタッチ入力に基づいて行われるようにしてもよい。
図13Cを参照すると、使用者の身体の一部分(例えば、使用者の耳)が移動端末機100に近接すると、移動端末機100は、特定の音声ファイルC001.wmvを自動で再生する。
以上、音声ファイルに関連する全プロセスを実施形態に分けて具体的に説明した。以下、上記機能を実現する移動端末機のハードウェア構成について説明し、さらに、上記機能を適用できる電子機器のうち画像表示器及び冷蔵庫のハードウェア構成について説明する。
図14は上記機能を実現する移動端末機の構成を示すブロック図である。
移動端末機100は、無線通信部110、A/V(Audio/Video)入力部120、ユーザ入力部130、感知部140、出力部150、メモリ(又は保存部)160、インタフェース部170、制御部180、電源供給部190などを含む。図14に示す全ての構成要素が必須構成要素であるわけではなく、本発明による移動端末機は、図示の構成要素よりも多い構成要素で実現してもよく、それより少ない構成要素で実現してもよい。
以下、構成要素について順次説明する。
無線通信部110は、移動端末機100と無線通信システム間の無線通信、又は移動端末機100と移動端末機100の位置するネットワーク間の無線通信を可能にする少なくとも1つのモジュールを含む。例えば、無線通信部110は、放送受信モジュール111、移動通信モジュール112、無線インターネットモジュール113、近距離通信モジュール114、位置情報モジュール115などを含む。
放送受信モジュール111は、放送チャネルを介して、外部の放送管理サーバから放送信号及び/若しくは放送関連情報を受信する。
放送チャネルは、衛星チャネル及び地上波チャネルを含む。放送管理サーバは、放送信号及び/若しくは放送関連情報を生成して送信するサーバ、又は既に生成されて提供された放送信号及び/若しくは放送関連情報を送信するサーバを含む。
放送信号は、テレビ放送信号、ラジオ放送信号、データ放送信号を含むだけでなく、テレビ放送信号又はラジオ放送信号にデータ放送信号が結合した形態の放送信号も含む。
放送関連情報は、放送チャネル、放送番組、又は放送サービスプロバイダに関する情報を含む。放送関連情報は、移動通信網を介して提供することもでき、この場合、移動通信モジュール112により受信することができる。
放送関連情報は様々な形態で存在する。例えば、DMB(Digital Multimedia Broadcasting)のEPG(Electronic Program Guide)、又はDVB−H(Digital Video Broadcast-Handheld)のESG(Electronic Service Guide)などの形態で存在する。
放送受信モジュール111は、例えばDMB−T(Digital Multimedia Broadcasting-Terrestrial)、DMB−S(Digital Multimedia Broadcasting-Satellite)、MediaFLO(Media Forward Link Only)、DVB−H、ISDB−T(Integrated Services Digital Broadcast-Terrestrial)などのデジタル放送システムを利用してデジタル放送信号を受信することができる。もちろん、放送受信モジュール111は、前述したデジタル放送システムだけでなく、他の放送システムに適合するように構成してもよい。
放送受信モジュール111により受信された放送信号及び/若しくは放送関連情報は、メモリ160に保存することができる。
移動通信モジュール112は、移動通信網上で基地局、外部の端末、サーバの少なくとも1つと無線信号を送受信する。無線信号は、音声呼信号、テレビ電話呼信号、又はSMS/MMSメッセージの送受信による様々な形態のデータを含む。
無線インターネットモジュール113は、無線インターネットの接続のためのモジュールであり、移動端末機100に内蔵されるか又は外付けされる。無線インターネット技術としては、WLAN(Wireless LAN)、Wi−Fi(Wireless Fidelity)ダイレクト、DLNA(Digital Living Network Alliance)、Wibro(Wireless Broadband)、WiMAX(Worldwide Interoperability for Microwave Access)、HSDPA(High Speed Downlink Packet Access)などを用いることができる。
近距離通信モジュール114は近距離通信のためのモジュールである。近距離通信技術としては、ブルートゥース(BluetoothTM)、RFID(Radio Frequency Identification)、IrDA(Infrared Data Association)、UWB(Ultra Wideband)、ZigBee、NFC(Near Field Communication)などを用いることができる。
位置情報モジュール115は、移動端末機100の位置を取得するためのモジュールであり、代表的な例としては、GPS(Global Position System)モジュールやWi−Fiモジュールがある。
A/V入力部120は、オーディオ信号又はビデオ信号の入力のためのものであり、カメラ121やマイク122などを含む。カメラ121は、テレビ電話モード又は撮影モードでイメージセンサにより得られる静止画像又は動画像などの画像フレームを処理する。
そして、カメラ121で処理された画像フレームは、ディスプレイ部151に表示することができる。また、カメラ121で処理された画像フレームは、メモリ160に保存したり、無線通信部110により外部に伝送することもできる。カメラ121は、使用環境に応じて2つ以上備えてもよい。
マイク122は、通話モード、録音モード、又は音声認識モードなどで、マイク122に入力された外部の音響信号を電気的な音声データに処理する。そして、マイク122で処理された音声データは、通話モードの場合、移動通信モジュール112により移動通信基地局に送信可能な形態に変換して出力することができる。マイク122には、外部の音響信号が入力される過程で発生するノイズを除去するための様々なノイズ除去アルゴリズムが実現される。
さらに、A/V入力部120は、音声録音に用いることもできる。音声録音機能の実現のために、A/V入力部120は、録音機能部123及び変換部124と連動する。
録音機能部123は、外部の音を録音して音声ファイルとして保存する機能を果たし、変換部124は、音に含まれる音声を音声テキスト変換に基づいてテキストに変換する機能を果たす。制御部180は、テキストから核心キーワードを検出し、検出された核心キーワードを音声ファイルのファイル名の少なくとも一部として設定する。これにより、音声ファイルのファイル名を容易に設定することができる。
ユーザ入力部130は、使用者により端末機の動作制御のための入力データを発生する。ユーザ入力部130は、キーパッド、ドームスイッチ、タッチパッド(静圧/静電)、ジョグホイール、ジョグスイッチなどで構成してもよい。
感知部140は、移動端末機100の開閉状態、移動端末機100の位置、移動端末機100の方位又は加速/減速、使用者の接触の有無などの移動端末機100の現在の状態を感知し、移動端末機100の動作を制御するための感知信号を発生する。例えば、移動端末機100がスライドタイプの場合、移動端末機100の開閉状態を感知することができる。また、電源供給部190から電源が供給されるか否か、インタフェース部170に外部機器が結合されたか否かなどを感知することもできる。なお、感知部140は近接センサ141を含んでもよい。
出力部150は、視覚、聴覚、又は触覚などに関連する出力を発生するためのものであり、ディスプレイ部151、音響出力モジュール152、アラーム部153、ハプティックモジュール154などを含む。
ディスプレイ部151は、移動端末機100で処理される情報を表示(出力)する。例えば、移動端末機100が通話モードの場合は、通話に関するUI若しくはGUIを表示する。また、移動端末機100がテレビ電話モード又は撮影モードの場合は、撮影及び/若しくは受信した画像、又はUI、GUIを表示する。
ディスプレイ部151は、液晶ディスプレイ(Liquid Crystal Display; LCD)、薄膜トランジスタ液晶ディスプレイ(Thin Film Transistor-Liquid Crystal Display; TFT-LCD)、有機発光ダイオード(Organic Light-Emitting Diode; OLED)、フレキシブルディスプレイ、3次元ディスプレイの少なくとも1つを含む。
これらのディスプレイの一部は、そのディスプレイから外部が見えるように、透明型又は光透過型に構成してもよい。これは透明ディスプレイとも呼ばれ、透明ディスプレイの代表的な例としてはTOLED(Transparent OLED)などがある。ディスプレイ部151の後方構造も光透過型構造に構成してもよい。このような構造により、使用者は端末機本体のディスプレイ部151が占める領域から端末機本体の後方に位置するものを見ることができる。
移動端末機100の実現形態に応じて、ディスプレイ部151を2つ以上備えてもよい。例えば、移動端末機100には、複数のディスプレイ部を1つの面に離隔して又は一体に配置してもよく、異なる面にそれぞれ配置してもよい。
ディスプレイ部151とタッチ動作を感知するセンサ(以下、「タッチセンサ」という)がレイヤ構造をなす場合(以下、「タッチスクリーン」という)、ディスプレイ部151は、出力装置の他に入力装置として使用することもできる。タッチセンサは、例えばタッチフィルム、タッチシート、タッチパッドなどの形態を有する。
タッチセンサは、ディスプレイ部151の特定部位に加わった圧力又はディスプレイ部151の特定部位に発生する静電容量などの変化を電気的な入力信号に変換するように構成してもよい。タッチセンサは、タッチされる位置及び面積だけでなく、タッチ時の圧力までも検出できるように構成してもよい。
タッチセンサへのタッチ入力がある場合、それに対応する信号がタッチ制御装置に送られる。タッチ制御装置は、その信号を処理して対応するデータを制御部180に送る。これにより、制御部180は、ディスプレイ部151のどの領域がタッチされたかなどが分かる。
タッチスクリーンにより覆われる移動端末機100の内部領域又はタッチスクリーンの近くには、近接センサ141を配置してもよい。近接センサとは、電磁界の力又は赤外線を利用して、所定の検出面に近づく物体又は近傍に存在する物体の有無を機械的な接触なしに検出できるセンサをいう。近接センサは、接触式センサより寿命が長く、その活用度も高い。
近接センサとしては、透過型光電センサ、直接反射型光電センサ、回帰反射型光電センサ、高周波発振型近接センサ、静電容量型近接センサ、磁気近接センサ、赤外線近接センサなどがある。静電式タッチスクリーンは、ポインタの近接による電界の変化からポインタの近接を検出するように構成される。この場合、タッチスクリーン(タッチセンサ)は近接センサにも分類される。
以下、説明の便宜上、ポインタをタッチスクリーン上に接触させるのではなく近接させてポインタがタッチスクリーン上に位置することを認識させることを「近接タッチ(proximity touch)」といい、ポインタをタッチスクリーン上に実際に接触させることを「接触タッチ(contact touch)」という。ポインタにより近接タッチされるタッチスクリーン上の位置とは、ポインタが近接タッチされる際にポインタがタッチスクリーンに対して垂直に対応する位置を意味する。
近接センサ141は、近接タッチ動作及び近接タッチパターン(例えば、近接タッチ距離、近接タッチ方向、近接タッチ速度、近接タッチ時間、近接タッチ位置、近接タッチ移動状態など)を感知する。感知された近接タッチ動作及び近接タッチパターンに関する情報は、タッチスクリーン上に出力することができる。
音響出力モジュール152は、呼受信モード、通話モード、録音モード、音声認識モード、又は放送受信モードなどで、無線通信部110から受信するか、又はメモリ160に保存されたオーディオデータを出力する。音響出力モジュール152は、移動端末機100で実行される機能(例えば、呼信号受信音、メッセージ受信音など)に関連する音響信号も出力する。このような音響出力モジュール152は、レシーバ、スピーカ、ブザーなどを含む。
アラーム部153は、移動端末機100のイベント発生を通知するための信号を出力する。移動端末機100で発生するイベントとしては、呼信号受信、メッセージ受信、キー信号入力、タッチ入力などがある。アラーム部153は、ビデオ信号やオーディオ信号以外に、他の形態、例えば振動でイベント発生を通知するための信号を出力することもできる。ビデオ信号又はオーディオ信号は、ディスプレイ部151又は音響出力モジュール152により出力することもできるので、ディスプレイ部151及び音響出力モジュール152はアラーム部153の一部にも分類される。
ハプティックモジュール154は、使用者が感じることのできる様々な触覚効果を発生する。ハプティックモジュール154が発生する触覚効果の代表的な例としては振動がある。ハプティックモジュール154が発生する振動の強度やパターンなどは制御可能である。例えば、異なる振動を合成して出力することもでき、順次出力することもできる。
ハプティックモジュール154は、振動の他にも、皮膚接触面に対して垂直運動するピン配列、噴射口又は吸入口を用いた空気の噴射力又は吸入力、皮膚表面に対する擦れ、電極の接触、静電気力などの刺激による効果や、吸熱又は発熱が可能な素子を用いた冷温感の再現による効果など、様々な触覚効果を発生することができる。
ハプティックモジュール154は、直接的な接触により触覚効果を伝えることができるだけでなく、使用者が指や腕などの筋感覚により触覚効果を感じるように実現することもできる。ハプティックモジュール154は、移動端末機100の構成態様に応じて2つ以上備えてもよい。
メモリ160は、制御部180の動作のためのプログラムを保存することもでき、入出力されるデータ(例えば、電話帳、メッセージ、静止画像、動画像など)を一時保存することもできる。また、メモリ160は、タッチスクリーンのタッチ入力時にタッチスクリーンに出力される様々なパターンの振動及び音響に関するデータを保存することもできる。
さらに、メモリ160は、特定の機能を実行するアプリケーションを保存することもできる。さらに、メモリ160は、録音により生成された音声ファイルを保存することもできる。
メモリ160は、フラッシュメモリタイプ、ハードディスクタイプ、マルチメディアカードマイクロタイプ、カードタイプのメモリ(例えば、SD又はXDメモリなど)、RAM(Random Access Memory)、SRAM(Static Random Access Memory)、ROM(Read-Only Memory)、EEPROM(Electrically Erasable Programmable Read-Only Memory)、PROM(Programmable Read-Only Memory)、磁気メモリ、磁気ディスク、光ディスクの少なくとも1つのタイプの記憶媒体を含む。移動端末機100は、インターネット上でメモリ160の保存機能を実行するウェブストレージに関連して動作することもできる。
インタフェース部170は、移動端末機100に接続される全ての外部機器との通路の役割を果たす。インタフェース部170は、外部機器からデータを受信するか、供給された電源を移動端末機100内部の各構成要素に送るか、又は移動端末機100内部のデータを外部機器に送信する。インタフェース部170は、例えば有無線ヘッドセットポート、外部充電器ポート、有無線データポート、メモリカードポート、識別モジュールが備えられた装置を接続するポート、オーディオI/O(Input/Output)ポート、ビデオI/Oポート、イヤホンポートなどを含む。
識別モジュールは、移動端末機100の使用権限を認証するための各種情報を保存したチップであり、ユーザ識別モジュール(User Identity Module; UIM)、加入者識別モジュール(Subscriber Identity Module; SIM)、汎用加入者識別モジュール(Universal Subscriber Identity Module; USIM)などを含む。識別モジュールが備えられた装置(以下、識別装置という)は、スマートカード形式で製造してもよい。よって、識別装置は、ポートを介して移動端末機100に接続することができる。
インタフェース部170は、移動端末機100が外部のクレードルに接続された場合、クレードルからの電源が移動端末機100に供給される通路となり、使用者によりクレードルから入力される各種命令信号が移動端末機100に伝達される通路となる。クレードルから入力される各種命令信号又は電源は、移動端末機100がクレードルに正しく取り付けられたことを認知するための信号としても機能する。
通常、制御部180は、移動端末機100の全般的な動作を制御する。例えば、音声通話、データ通信、テレビ電話などに関連する制御及び処理を行う。また、制御部180は、本明細書に開示された第1〜第7実施形態の動作を行う。
さらに、制御部180は、マルチメディアを再生するためのマルチメディアモジュール181を備えてもよい。マルチメディアモジュール181は、制御部180内に実現してもよく、制御部180とは別に実現してもよい。
さらに、制御部180は、タッチスクリーン上で行われる手書き入力及び手描き入力をそれぞれ文字及び画像として認識するパターン認識処理を行う。電源供給部190は、制御部180の制御下で、供給された外部の電源、内部の電源を各構成要素に必要に応じて供給する。
ここに説明される様々な実施形態は、例えばソフトウェア、ハードウェア、又はこれらの組み合わせにより、コンピュータ又はこれと類似の装置で読み取りが可能な記録媒体内で実現することができる。
ハードウェア的な実現においては、ここに説明される実施形態は、ASICs(Application Specific Integrated Circuits)、DSPs(Digital Signal Processors)、DSPDs(Digital Signal Processing Devices)、PLDs(Programmable Logic Devices)、FPGAs(Field Programmable Gate Arrays)、プロセッサ、制御装置、マイクロコントローラ、マイクロプロセッサ、その他の機能実行のための電気的なユニットの少なくとも1つを用いて実現してもよい。一部の場合、これらの実施形態は制御部180により実現してもよい。
ソフトウェア的な実現においては、ここに説明される手順や機能などの実施形態は、別のソフトウェアモジュールで実現してもよい。各ソフトウェアモジュールは、ここに説明される1つ以上の機能又は動作を行うようにしてもよい。ソフトウェアコードは、適切なプログラム言語で記述されたソフトウェアアプリケーションにより実現してもよい。また、ソフトウェアコードは、メモリ160に保存し、制御部180により実行してもよい。
一方、前述した本発明の実施形態による移動端末機100の機能は、後述する画像表示機器において実現することもできる。以下、本発明の実施形態による移動端末機100の動作制御機能を備えた画像表示機器について図15を参照して説明する。
図15は本発明の一実施形態による画像表示機器の構成を示すブロック図である。
図15を参照すると、本発明の一実施形態による画像表示機器200は、放送受信部205、外部装置インタフェース部235、保存部240、使用者入力インタフェース部250、制御部270、ディスプレイ部280、音声出力部285、及び電源供給部290を含んでもよい。
放送受信部205は、チューナ210、復調部220、及びネットワークインタフェース部230を含んでもよい。放送受信部205は、チューナ210及び復調部220と、ネットワークインタフェース部230のいずれか一方を備えてもよい。
チューナ210は、アンテナから受信されるRF放送信号のうち、使用者により選択されたチャネル又は既に保存されている全てのチャネルに対応するRF放送信号を選択する。また、チューナ210は、選択されたRF放送信号をIF(Intermediate Frequency)信号(中間周波数信号)又はベースバンドの画像もしくは音声信号に変換する。
例えば、選択されたRF放送信号がデジタル放送信号であれば、デジタルIF(DIF)信号に変換し、選択されたRF放送信号がアナログ放送信号であれば、アナログベースバンドの画像もしくは音声(CVBS/SIF)信号に変換する。すなわち、チューナ210は、デジタル放送信号又はアナログ放送信号を処理することができる。チューナ210から出力されるアナログベースバンドの画像もしくは音声(CVBS/SIF)信号は、制御部270に直接入力されるようにしてもよい。
また、チューナ210は、ATSC(Advanced Television System Committee)方式によるシングルキャリアのRF放送信号、又はDVB(Digital Video Broadcasting)方式によるマルチキャリアのRF放送信号を受信する。
一方、チューナ210は、アンテナから受信されるRF放送信号のうち、チャネル記憶機能により保存されている全ての放送チャネルのRF放送信号を順次選択し、これをIF信号又はベースバンドの画像もしくは音声信号に変換する。復調部220は、チューナ210により変換されたデジタルIF信号を受信して復調動作を行う。
例えば、チューナ210から出力されるデジタルIF信号がATSC方式の場合、復調部220は、8−VSB(8-Vestigial Side Band)復調を行う。また、復調部220は、チャネル復号化を行うようにしてもよい。このために、復調部220は、トレリスデコーダ(Trellis Decoder)、デインターリーバ、リードソロモンデコーダ(Reed Solomon Decoder)などを備え、トレリス復号化、デインターリーブ、及びソロモン復号化を行う。
例えば、チューナ210から出力されるデジタルIF信号がDVB方式の場合、復調部220は、COFDM(Coded Orthogonal Frequency Division Modulation)復調を行う。また、復調部220は、チャネル復号化を行うようにしてもよい。このために、復調部220は、コンボリューションデコーダ(convolution decoder)、デインターリーバ、リードソロモンデコーダなどを備え、コンボリューション復号化、デインターリーブ、及びソロモン復号化を行う。
復調部220は、復調及びチャネル復号化を行った後、ストリーム信号(TS)を出力するようにしてもよい。ここで、ストリーム信号は、画像信号、音声信号、又はデータ信号が多重化された信号であってもよい。例えば、ストリーム信号は、MPEG−2規格の画像信号、ドルビーAC−3規格の音声信号などが多重化されたMPEG−2 TS(Transport Stream)であってもよい。具体的には、MPEG−2 TSは、4バイトのヘッダと184バイトのペイロードとを含んでもよい。
一方、復調部220は、ATSC方式用とDVB方式用とを別に備えてもよい。すなわち、復調部220は、ATSC復調部とDVB復調部とから構成してもよい。
復調部220から出力されるストリーム信号は、制御部270に入力されるようにしてもよい。制御部270は、逆多重化、画像/音声信号処理などを行い、その後、画像をディスプレイ部280に出力し、音声を音声出力部285に出力する。外部装置インタフェース部235は、画像表示機器200と外部装置とを接続する役割を果たす。
外部装置インタフェース部235は、DVD(Digital Versatile Disk)、ブルーレイ(Blu ray)、ゲーム機器、カメラ、カムコーダ、コンピュータ、ノートパソコンなどの外部装置と有線/無線で接続することができる。外部装置インタフェース部235は、接続された外部装置により外部から入力される画像、音声、又はデータ信号を制御部270に送る。また、外部装置インタフェース部235は、制御部270で処理された画像、音声、又はデータ信号を接続された外部装置に出力する。このために、外部装置インタフェース部235は、A/V入出力部(図示せず)又は無線通信部(図示せず)を含んでもよい。
A/V入出力部は、外部装置の画像及び音声信号を画像表示機器200に入力できるように、USB端子、CVBS(Composite Video, Blanking, and Sync)端子、コンポーネント端子、Sビデオ端子(アナログ)、DVI(Digital Visual Interface)端子、HDMI(High Definition Multimedia Interface)端子、RGB端子、D−SUB端子などを含んでもよい。
無線通信部は、他の電子機器と近距離無線通信を行うことができる。画像表示機器200は、ブルートゥース、RFID、IrDA、UWB、ZigBee、DLNAなどの通信規格に準拠して、他の電子機器とネットワーク接続することができる。
また、外部装置インタフェース部235は、A/V入出力部の各種端子の少なくとも1つを介して様々なセットトップボックスに接続して、セットトップボックスと入出力動作を行うこともできる。
一方、外部装置インタフェース部235は、隣接する外部装置内のアプリケーションもしくはアプリケーションリストを受信し、制御部270又は保存部240に送ることができる。
ネットワークインタフェース部230は、画像表示機器200をインターネットなどの有線/無線ネットワークに接続するためのインタフェースを提供する。ネットワークインタフェース部230は、有線ネットワークとの接続のために、イーサネット端子などを備え、無線ネットワークとの接続のために、WLAN、Wi−Fi、Wibro、WiMAX、HSDPAなどの通信規格を用いるようにしてもよい。
ネットワークインタフェース部230は、ネットワークを介して、所定のウェブページにアクセスすることができる。すなわち、ネットワークインタフェース部230は、ネットワークを介して所定のウェブページにアクセスし、該当サーバとデータを送受信することができる。また、ネットワークインタフェース部230は、コンテンツプロバイダ又はネットワーク運営者が提供するコンテンツ又はデータを受信することができる。すなわち、ネットワークインタフェース部230は、ネットワークを介してコンテンツプロバイダ又はネットワーク運営者から提供される映画、広告、ゲーム、VOD、放送信号などのコンテンツ及びそれに関する情報を受信することができる。さらに、ネットワークインタフェース部230は、ネットワーク運営者が提供するファームウェアのアップデート情報及びアップデートファイルを受信することができる。さらに、ネットワークインタフェース部230は、インターネットもしくはコンテンツプロバイダ又はネットワーク運営者にデータを送信することができる。
さらに、ネットワークインタフェース部230は、ネットワークを介して、公衆に公開されたアプリケーションのうち所望のアプリケーションを選択して受信することができる。
保存部240は、制御部270内の各信号処理及び制御のためのプログラムを保存することもでき、信号処理された画像、音声、又はデータ信号を保存することもできる。
また、保存部240は、外部装置インタフェース部235又はネットワークインタフェース部230から入力される画像、音声、又はデータ信号の一時保存のための機能を果たす。さらに、保存部240は、チャネル記憶機能により、所定の放送チャネルに関する情報を保存することもできる。
さらに、保存部240は、外部装置インタフェース部235又はネットワークインタフェース部230から入力されるアプリケーションもしくはアプリケーションリストを保存することもできる。
保存部240は、フラッシュメモリタイプ、ハードディスクタイプ、マルチメディアカードマイクロタイプ、カードタイプのメモリ(例えば、SD又はXDメモリなど)、RAM、ROM(EEPROMなど)の少なくとも1つのタイプの記憶媒体を含む。画像表示機器200は、保存部240に保存されているコンテンツファイル(動画像ファイル、静止画像ファイル、音楽ファイル、文書ファイル、アプリケーションファイルなど)を再生して使用者に提供することができる。
図15は保存部240が制御部270とは別に備えられた実施形態を示すが、本発明の範囲はこれに限定されない。保存部240は、制御部270内に含まれるようにしてもよい。
使用者入力インタフェース部250は、使用者が入力した信号を制御部270に伝達したり、制御部270からの信号を使用者に伝達する。
例えば、使用者入力インタフェース部250は、RF通信や赤外線(IR)通信などの様々な通信方式で、遠隔制御装置400から電源のオン/オフ、チャネルの選択、画面の設定などの使用者の入力信号又は制御信号を受信して処理したり、制御部270からの制御信号を処理して遠隔制御装置400に送信する。
また、使用者入力インタフェース部250は、電源キー、チャネルキー、ボリュームキー、設定値などのローカルキー(図示せず)により入力される使用者の入力信号又は制御信号を制御部270に伝達する。
さらに、使用者入力インタフェース部250は、使用者のジェスチャーを感知する感知部(図示せず)から入力される使用者の入力信号又は制御信号を制御部270に伝達したり、制御部270からの信号を感知部に伝達する。ここで、感知部は、タッチセンサ、音声センサ、位置センサ、動作センサの少なくとも1つを備えてもよい。
制御部270は、チューナ210、復調部220、又は外部装置インタフェース部235を介して入力されるストリーム信号を逆多重化したり、逆多重化された信号を処理し、画像又は音声を出力するための信号を生成及び出力する。
制御部270で画像処理された画像信号は、ディスプレイ部280に入力し、画像信号に対応する画像として表示することができる。また、制御部270で画像処理された画像信号は、外部装置インタフェース部235を介して外部出力装置に入力することもできる。
制御部270で処理された音声信号は、音声出力部285から音として出力することができる。また、制御部270で処理された音声信号は、外部装置インタフェース部235を介して外部出力装置に入力することもできる。
図示していないが、制御部270は、逆多重化部、画像処理部などを含んでもよい。
制御部270は、画像表示機器200の全般的な動作を制御する。例えば、制御部270は、チューナ210を制御して、使用者が選択したチャネル又は既に保存されているチャネルに対応するRF放送を選択(チューニング)させる。
また、制御部270は、使用者入力インタフェース部250を介して入力された使用者命令又は内部プログラムにより、画像表示機器200を制御する。特に、ネットワークに接続して、使用者が希望するアプリケーションもしくはアプリケーションリストを画像表示機器200内にダウンロードできるようにする。
例えば、制御部270は、チューナ210を制御して、使用者入力インタフェース部250を介して受信した所定のチャネル選択命令により選択したチャネルの信号が入力されるようにする。また、制御部270は、選択したチャネルの画像、音声、又はデータ信号を処理する。さらに、制御部270は、使用者が選択したチャネル情報などが、処理した画像もしくは音声信号と共に、ディスプレイ部280又は音声出力部285から出力されるようにする。
他の例として、制御部270は、使用者入力インタフェース部250を介して受信した外部装置の画像再生命令により、外部装置インタフェース部235を介して入力される外部装置(例えば、カメラ又はカムコーダ)からの画像もしくは音声信号がディスプレイ部280又は音声出力部285から出力されるようにする。
一方、制御部270は、画像を表示するようにディスプレイ部280を制御する。例えば、制御部270は、チューナ210から入力される放送画像、外部装置インタフェース部235を介して入力される外部入力画像、ネットワークインタフェース部230を介して入力される画像、又は保存部240に保存されている画像をディスプレイ部280に表示するように制御する。ここで、ディスプレイ部280に表示される画像は、静止画像又は動画像でもよく、2D画像又は3D画像でもよい。
また、制御部270は、アプリケーション一覧表示において、画像表示機器200内のアプリケーションもしくはアプリケーションリスト、又は外部ネットワークからダウンロード可能なアプリケーションもしくはアプリケーションリストを表示するように制御する。
さらに、制御部270は、様々なユーザインタフェースと共に、外部ネットワークからダウンロードされるアプリケーションをインストールして駆動するように制御する。さらに、制御部270は、使用者の選択により、実行されるアプリケーションに関連する画像がディスプレイ部280に表示されるように制御する。
一方、画像表示機器200は、チャネル信号又は外部入力信号に対応するサムネイル画像を生成するチャネルブラウジング処理部(図示せず)をさらに含んでもよい。チャネルブラウジング処理部は、復調部220から出力されたストリーム信号又は外部装置インタフェース部235から出力されたストリーム信号などが入力され、入力されたストリーム信号から画像を抽出してサムネイル画像を生成する。生成されたサムネイル画像は、そのまま制御部270に入力されるようにしてもよく、符号化して制御部270に入力されるようにしてもよい。また、生成されたサムネイル画像は、ストリーム形式に符号化して制御部270に入力されるようにしてもよい。この場合、制御部270は、入力されたサムネイル画像を用いて複数のサムネイル画像を含むサムネイルリストをディスプレイ部280に表示するようにする。サムネイルリストのサムネイル画像は、順次アップデートされるようにしてもよく、同時にアップデートされるようにしてもよい。これにより、使用者は複数の放送チャネルの内容を容易に把握することができる。
ディスプレイ部280は、制御部270で処理された画像信号、データ信号、OSD信号、又は外部装置インタフェース部235を介して受信される画像信号、データ信号などをそれぞれRGB信号に変換して駆動信号を生成する。
ディスプレイ部280は、PDP、LCD、OLED、フレキシブルディスプレイ、3次元ディスプレイなどを含む。
また、ディスプレイ部280は、タッチスクリーンで構成することにより、出力装置としてだけでなく、入力装置として使用できるようにしてもよい。
音声出力部285は、制御部270で音声処理された信号、例えば、ステレオ信号、3.1チャネル信号、又は5.1チャネル信号が入力され、入力された信号を音声として出力する。音声出力部285は、様々なタイプのスピーカで実現してもよい。
一方、画像表示機器200は、使用者を撮影する撮影部(図示せず)をさらに含んでもよい。撮影部は、1つのカメラで実現してもよく、複数のカメラで実現してもよい。撮影部で撮影された画像情報は制御部270に入力される。
一方、画像表示機器200は、使用者のジェスチャーを感知するために、前述したようにタッチセンサ、音声センサ、位置センサ、動作センサの少なくとも1つを備える感知部(図示せず)をさらに含んでもよい。感知部で感知された信号は、使用者入力インタフェース部250を介して制御部270に伝達されるようにしてもよい。
制御部270は、撮影部で撮影された画像、及び感知部で感知された信号のそれぞれ又は組み合わせにより、使用者のジェスチャーを感知する。
電源供給部290は、画像表示機器200の全般にわたって電源を供給する。特に、電源供給部290は、システムオンチップ(System On Chip; SOC)の形で実現できる制御部270、画像表示のためのディスプレイ部280、及び音声出力のための音声出力部285に電源を供給する。
このために、電源供給部290は、交流電源を直流電源に変換するコンバータ(図示せず)を備えてもよい。一方、例えばディスプレイ部280が複数のバックライトランプを備える液晶パネルで実現される場合、電源供給部290は、輝度可変又は調光(dimming)駆動のために、PWM動作が可能なインバータ(図示せず)をさらに備えてもよい。
遠隔制御装置400は、使用者の入力を使用者入力インタフェース部250に送信する。このために、遠隔制御装置400は、ブルートゥース、RF通信、赤外線(IR)通信、UWB、ZigBee方式などを用いる。
また、遠隔制御装置400は、使用者入力インタフェース部250から送信された画像、音声、又はデータ信号などを受信し、これを遠隔制御装置400に表示したり、音声又は振動を発生するようにしてもよい。
前述した画像表示機器200は、固定型であって、ATSC方式(8−VSB方式)のデジタル放送、DVB−T方式(COFDM方式)のデジタル放送、ISDB−T方式(BST−OFDM方式)のデジタル放送などの少なくとも1つのデジタル放送を受信できるデジタル放送受信機であってもよい。
なお、図15のブロック図に示す画像表示機器200は、本発明の一実施形態にすぎず、実際に実現すべき画像表示機器の仕様に応じて、画像表示機器200の各構成要素を統合、追加、又は省略してもよい。すなわち、必要に応じて、2つ以上の構成要素をまとめて1つの構成要素にしてもよく、1つの構成要素を細分化して2つ以上の構成要素にしてもよい。また、各ブロックで実行される機能は、本発明の実施形態を説明するためのものであり、その具体的な装置や動作が本発明の権利範囲を制限するものではない。
また、本発明による画像表示機器は、図15のブロック図に示す画像表示機器200とは異なり、ディスプレイ部280及び音声出力部285を備えず、無線通信でディスプレイ部280及び音声出力部285とデータを送受信するワイヤレスタイプにしてもよい。
さらに、本発明による画像表示機器は、図15のブロック図に示す画像表示機器200とは異なり、チューナ210及び復調部220を備えず、ネットワークインタフェース部230又は外部装置インタフェース部235を介して画像コンテンツを受信して再生するようにしてもよい。
さらに、本発明による画像表示機器は、外部の音を録音して音声ファイルとして保存する録音機能部(図示せず)と、音に含まれる音声を音声テキスト変換に基づいてテキストに変換する変換部(図示せず)とを含んでもよい。この場合、制御部270は、テキストから核心キーワードを検出し、検出された核心キーワードを音声ファイルのファイル名の少なくとも一部として設定するようにしてもよい。また、制御部270は、本明細書に開示された第1〜第7実施形態の動作を行うようにしてもよい。
他方、前述した本発明の実施形態による移動端末機100の機能は、後述する冷蔵庫において実現することもできる。以下、本発明の実施形態による移動端末機100の動作制御機能を備えた冷蔵庫について図16を参照して説明する。
図16は本発明の一実施形態による電子機器が冷蔵庫である場合、冷蔵庫に含まれるディスプレイ制御部及び本体制御部を示すブロック図である。
図16を参照すると、本発明の一実施形態による冷蔵庫のディスプレイ制御部330には、ディスプレイ部310、通信部331、入力部320、ディスプレイメモリ部333、音声認識部335、及び音声出力部339が接続される。ディスプレイ制御部330は、ディスプレイ部310、通信部331、入力部320、ディスプレイメモリ部333、音声認識部335、及び音声出力部339の動作を制御する。
通信部331は、放送局又は基地局から画像データやDMBデータを受信し、ディスプレイ部310又は/及び音声出力部339から出力されるようにする。また、通信部331は、ディスプレイ制御部330の制御により、ネットワークを介してサーバ又は外部端末機に接続されてデータを送受信する。例えば、通信部331は、ディスプレイ制御部330からテキストクエリを受信してサーバ又は外部端末機に送信し、サーバ又は外部端末機は、検索エンジンによるテキストクエリの検索結果を通信部331に送信する。また、通信部331は、サーバ又は外部端末機から受信したテキストクエリの検索結果をディスプレイ制御部330に送ることにより、テキストクエリの検索結果がディスプレイ部310又は/及び音声出力部339から出力されるようにする。
音声認識部335は、使用者の音声を入力するための音声入力部336と、音声入力部336に入力された使用者の音声を音声周波数に変換するコンバータ337とを含んでもよい。コンバータ337は、使用者の音声周波数をデジタル信号に変換し、ディスプレイ制御部330に送る。ディスプレイ制御部330は、コンバータ337から送られたデジタル信号をディスプレイメモリ部333に保存する。
ディスプレイメモリ部333には、冷蔵庫に貯蔵されている食品の名称に対応して音声出力部339から出力される音声情報が予め保存される。食品の名称に関する音声情報は、冷蔵庫の製作時にディスプレイメモリ部333に予め保存されるようにしてもよい。
ディスプレイ制御部330には、本体制御部340が接続される。本体制御部340には、本体メモリ部341が接続されてもよい。本体メモリ部341には、冷蔵庫の機能に関するデータが予め保存される。
本発明の一実施形態による冷蔵庫は、外部の音を録音して音声ファイルとして保存する録音機能部(図示せず)、音に含まれる音声を音声テキスト変換に基づいてテキストに変換する変換部(図示せず)などをさらに含む。本体制御部340又はディスプレイ制御部330は、テキストから核心キーワードを検出し、検出された核心キーワードを音声ファイルのファイル名の少なくとも一部として設定する。あるいは、本発明の一実施形態による冷蔵庫は、本明細書に開示された第1〜第7実施形態の動作を行う制御部を別途備えてもよい。
本明細書に開示された一実施形態によれば、前述した方法は、プログラム記録媒体にプロセッサ可読コードとして実現することができる。プロセッサ可読媒体としては、ROM、RAM、CD−ROM、磁気テープ、フロッピーディスク、光データ記憶装置などがあり、搬送波(例えば、インターネットを介した送信)の形で実現してもよい。
本発明による移動端末機、画像表示機器、及び冷蔵庫は、上記実施形態の構成と方法に限定されるものではなく、各実施形態の全部又は一部を選択的に組み合わせて構成することで様々に変形することができる。
以上、本明細書に開示された実施形態を添付図面を参照して説明した。ここで、本明細書及び特許請求の範囲に使用された用語や単語は、通常の意味又は辞書的な意味に限定して解釈されてはならず、本発明の技術的思想に符合する意味と概念で解釈されるべきである。
よって、本明細書に開示された実施形態及び図面に示す構成は、本発明の一実施形態にすぎず、本発明の技術的思想の全てを代弁するものではないので、本出願時点においてこれらを代替できる様々な均等物と変形例があり得ることを理解すべきである。
100 移動端末機
123 録音機能部
124 変換部
151 ディスプレイ部
180 制御部
200 画像表示機器
205 放送受信部
235 外部装置インタフェース部
240 保存部
250 使用者入力インタフェース部
270 制御部
280 ディスプレイ部
285 音声出力部
290 電源供給部
310 ディスプレイ部
320 入力部
330 ディスプレイ制御部
331 通信部
333 ディスプレイメモリ部
335 音声認識部
339 音声出力部
340 本体制御部
341 本体メモリ部

Claims (18)

  1. 外部の音を録音して音声ファイルとして保存する録音機能部と、
    前記音に含まれる音声を音声テキスト(Speech To Text; STT)変換に基づいてテキストに変換する変換部と、
    前記変換されたテキストから複数の核心キーワードを検出し、前記検出された複数の核心キーワードの少なくとも1つを前記音声ファイルのファイル名の少なくとも一部として設定し、前記変換されたテキストの少なくとも一部を前記設定されたファイル名と共に出力される文字列として設定する制御部とを含み
    前記制御部は、前記音声ファイルのリストの出力要求がある場合、前記音声ファイルのファイル名および前記設定された文字列を含む前記音声ファイルのリストを出力し、前記音声ファイルのリストが出力された状態で前記文字列がタッチされた場合、前記変換されたテキストのうち前記タッチされた文字列についての詳細内容に対応するテキストを出力することを特徴とする電子機器。
  2. 前記制御部は、前記音声ファイルのリストの出力要求がある場合、前記変換されたテキストに基づいて生成された前記文字列をディスプレイ部に共に表示することを特徴とする請求項1に記載の電子機器。
  3. 前記文字列は、前記ディスプレイ部にスクロールされて表示されることを特徴とする請求項2に記載の電子機器。
  4. 前記文字列のスクロール表示は、前記文字列を画面の右から左に移動させて表示することを特徴とする請求項3に記載の電子機器。
  5. 前記文字列を右から左に移動させることは、
    前記画面に1行に表示できる文字の数だけ前記文字列を表示し、前記文字列を横方向に移動させて前記文字列の残りの文字を表示することであるか、又は、
    前記文字列の最初の文字を前記画面の一側に表示して他側に移動させて前記文字列の残りの文字を連続的に表示することであることを特徴とする請求項4に記載の電子機器。
  6. 前記制御部は、前記表示された文字列に対する制御命令が検出されると、前記音声テキスト変換に基づいて生成されたテキストを前記ディスプレイ部に表示することを特徴とする請求項2に記載の電子機器。
  7. 前記ファイル名は、前記核心キーワードが含まれる文字列からなり、
    前記制御部は、前記音声ファイルのリストの出力要求がある場合、ディスプレイ部に前記文字列をスクロールして出力することを特徴とする請求項1に記載の電子機器。
  8. 前記制御部は、前記録音が終了すると、前記核心キーワードを前記ファイル名に設定し、前記ファイル名の編集は、前記録音の終了後に音声入力により行われることを特徴とする請求項1に記載の電子機器。
  9. 前記制御部は、前記録音が終了すると、前記核心キーワードをディスプレイ部に出力し、
    前記核心キーワードが出力された状態で入力される新しい音声により前記編集されたファイル名が決定されることを特徴とする請求項に記載の電子機器。
  10. 前記制御部は、前記音声テキスト変換に基づいて生成されたテキストを、少なくとも一部が選択可能な状態でディスプレイ部に出力することを特徴とする請求項1に記載の電子機器。
  11. 使用者により選択される前記テキストの少なくとも一部は、前記音声ファイルの付加情報として保存されることを特徴とする請求項10に記載の電子機器。
  12. 前記付加情報の出力要求がある場合、前記付加情報が前記ディスプレイ部にスクロールされて出力されることを特徴とする請求項11に記載の電子機器。
  13. 前記電子機器は、携帯電話、電話機能を有する機器、電子時計、放送受信装置、ホームアプライアンスのいずれか1つであることを特徴とする請求項1に記載の電子機器。
  14. 電子機器で音声ファイルのリストを出力する方法において、
    使用者の要求に応じて音声ファイルのリストを出力する動作モードに移行する段階と、
    前記リストに含まれる各音声ファイルのファイル名および前記各音声ファイルに関連する文字列をディスプレイ部に表示する段階とを含み、
    前記ファイル名及び前記文字列は、使用者の音声の音声テキスト(Speech To Text; STT)変換に基づいて生成されたものであり、
    前記ファイル名は、前記音声テキスト変換により取得されたテキストから検出された複数の核心キーワードの少なくとも1つを含み、
    前記文字列は、前記テキストの少なくとも一部を含み、前記文字列がタッチされると、前記テキストのうち前記タッチされた文字列についての詳細内容に対応するテキストが出力されることを特徴とする音声ファイルのリスト出力方法。
  15. 前記文字列は、スクロールされて表示され、
    前記文字列のスクロール表示は、前記文字列を画面の右から左に移動させて表示することを特徴とする請求項14に記載の音声ファイルのリスト出力方法。
  16. 前記音声は、音声テキスト変換に基づいてテキストに変換されことを特徴とする請求項14に記載の音声ファイルのリスト出力方法。
  17. 前記詳細内容は、前記変換されたテキストの全体又は一部であることを特徴とする請求項1に記載の電子機器
  18. 前記制御部は、前記タッチに基づいて、前記詳細内容と共に前記録音された音のうち前記詳細内容に対応する音声を出力することを特徴とする請求項1に記載の電子機器。
JP2012272345A 2012-05-07 2012-12-13 音声ファイルに関連するテキストの表示方法及びこれを実現した電子機器 Expired - Fee Related JP5563650B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2012-0048324 2012-05-07
KR1020120048324A KR101977072B1 (ko) 2012-05-07 2012-05-07 음성 파일과 관련된 텍스트의 표시 방법 및 이를 구현한 전자기기

Publications (2)

Publication Number Publication Date
JP2013235556A JP2013235556A (ja) 2013-11-21
JP5563650B2 true JP5563650B2 (ja) 2014-07-30

Family

ID=47713759

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012272345A Expired - Fee Related JP5563650B2 (ja) 2012-05-07 2012-12-13 音声ファイルに関連するテキストの表示方法及びこれを実現した電子機器

Country Status (6)

Country Link
US (1) US20130297308A1 (ja)
EP (1) EP2662766A1 (ja)
JP (1) JP5563650B2 (ja)
KR (1) KR101977072B1 (ja)
CN (1) CN103390016B (ja)
WO (1) WO2013168860A1 (ja)

Families Citing this family (122)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US20130205213A1 (en) * 2012-02-06 2013-08-08 edX Inc. Caption-based navigation for a video player
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9965162B2 (en) * 2012-11-29 2018-05-08 Facebook, Inc. Scrolling across boundaries in a structured document
US9679564B2 (en) * 2012-12-12 2017-06-13 Nuance Communications, Inc. Human transcriptionist directed posterior audio source separation
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
KR102065045B1 (ko) * 2013-03-15 2020-01-10 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US20140298364A1 (en) * 2013-03-26 2014-10-02 Rawllin International Inc. Recommendations for media content based on emotion
KR102149266B1 (ko) * 2013-05-21 2020-08-28 삼성전자 주식회사 전자 기기의 오디오 데이터의 관리 방법 및 장치
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
KR102092058B1 (ko) * 2013-07-01 2020-03-23 삼성전자 주식회사 인터페이스 제공 방법 및 장치
CN103399865B (zh) * 2013-07-05 2018-04-10 华为技术有限公司 一种生成多媒体文件的方法和装置
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
TWI502487B (zh) * 2013-10-24 2015-10-01 Hooloop Corp 語音管理方法,及其相關裝置與電腦程式產品
US9851896B2 (en) * 2013-12-17 2017-12-26 Google Inc. Edge swiping gesture for home navigation
US10528249B2 (en) * 2014-05-23 2020-01-07 Samsung Electronics Co., Ltd. Method and device for reproducing partial handwritten content
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
KR102223728B1 (ko) 2014-06-20 2021-03-05 엘지전자 주식회사 이동단말기 및 그 제어방법
TWI556154B (zh) * 2014-06-25 2016-11-01 禾瑞亞科技股份有限公司 觸控資訊時間的記錄方法、裝置、系統及其電腦可讀取媒體
KR102340251B1 (ko) * 2014-06-27 2021-12-16 삼성전자주식회사 데이터 관리 방법 및 그 방법을 처리하는 전자 장치
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
KR20160005899A (ko) 2014-07-08 2016-01-18 엘지전자 주식회사 디지털 이미지 처리 장치, 시스템 및 제어 방법
KR102252665B1 (ko) * 2014-09-01 2021-05-17 삼성전자주식회사 오디오 파일 재생 방법 및 장치
US10275207B2 (en) * 2014-09-01 2019-04-30 Samsung Electronics Co., Ltd. Method and apparatus for playing audio files
US10409547B2 (en) 2014-10-15 2019-09-10 Lg Electronics Inc. Apparatus for recording audio information and method for controlling same
CA2869245A1 (en) 2014-10-27 2016-04-27 MYLE Electronics Corp. Mobile thought catcher system
KR102300415B1 (ko) * 2014-11-17 2021-09-13 주식회사 엘지유플러스 이동통신단말기의 음성메모에 기초한 이벤트실행 시스템, 그 단말기 제어서버 및 이동통신단말기 제어방법, 이동통신단말기 및 어플리케이션 실행방법
JP6060989B2 (ja) 2015-02-25 2017-01-18 カシオ計算機株式会社 音声録音装置、音声録音方法、及びプログラム
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
JP6552868B2 (ja) * 2015-04-27 2019-07-31 株式会社東芝 音声コミュニケーション支援装置、音声コミュニケーション支援方法およびプログラム
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
CN106257439B (zh) * 2015-06-19 2020-01-14 Tcl集团股份有限公司 多媒体播放器中的多媒体文件存储方法和装置
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
CN105516472A (zh) * 2015-11-30 2016-04-20 联想(北京)有限公司 一种信息处理方法及电子设备
US10223066B2 (en) * 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
KR102494584B1 (ko) * 2016-08-18 2023-02-02 삼성전자주식회사 디스플레이 장치 및 그 컨텐츠 디스플레이 방법
KR101705228B1 (ko) * 2016-08-22 2017-02-09 백승빈 전자문서생성장치 및 그 동작 방법
CN106412705A (zh) * 2016-09-13 2017-02-15 努比亚技术有限公司 一种调节文件进度的方法及终端
US11170757B2 (en) * 2016-09-30 2021-11-09 T-Mobile Usa, Inc. Systems and methods for improved call handling
CN106446887A (zh) * 2016-11-07 2017-02-22 罗杰仁 一种将图片转换为语音的方法及装置
WO2018105373A1 (ja) * 2016-12-05 2018-06-14 ソニー株式会社 情報処理装置、情報処理方法、および情報処理システム
US11189289B2 (en) * 2016-12-05 2021-11-30 Sony Corporation Information processing device, information processing method, and information processing system
US11238854B2 (en) 2016-12-14 2022-02-01 Google Llc Facilitating creation and playback of user-recorded audio
CN106649807A (zh) * 2016-12-29 2017-05-10 维沃移动通信有限公司 一种音频文件处理方法及移动终端
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770429A1 (en) 2017-05-12 2018-12-14 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770411A1 (en) 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
CN107331394B (zh) * 2017-05-26 2020-11-13 暨南大学 基于移动互联网与手机app的语音资料采集系统
US9824691B1 (en) * 2017-06-02 2017-11-21 Sorenson Ip Holdings, Llc Automated population of electronic records
US10719222B2 (en) * 2017-10-23 2020-07-21 Google Llc Method and system for generating transcripts of patient-healthcare provider conversations
JP6943158B2 (ja) * 2017-11-28 2021-09-29 トヨタ自動車株式会社 応答文生成装置、方法及びプログラム並びに音声対話システム
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
WO2020023070A1 (en) * 2018-07-24 2020-01-30 Google Llc Text-to-speech interface featuring visual content supplemental to audio playback of text documents
JP6666393B2 (ja) * 2018-07-30 2020-03-13 株式会社北陸テクノソリューションズ 通話支援システム
US11500655B2 (en) 2018-08-22 2022-11-15 Microstrategy Incorporated Inline and contextual delivery of database content
CN109151225A (zh) * 2018-09-04 2019-01-04 北京小鱼在家科技有限公司 通话处理方法、装置和通话设备
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
JP7119939B2 (ja) * 2018-11-19 2022-08-17 トヨタ自動車株式会社 情報処理装置、情報処理方法およびプログラム
JP2020095689A (ja) * 2018-11-29 2020-06-18 株式会社リコー 表示端末、共用システム、表示制御方法およびプログラム
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
JP7347124B2 (ja) * 2019-10-30 2023-09-20 株式会社リコー プログラム、情報処理方法、情報処理装置および通信システム
US11880410B2 (en) * 2020-02-03 2024-01-23 Microstrategy Incorporated Systems and methods for proactive information discovery with multiple senses
JP7400548B2 (ja) * 2020-03-03 2023-12-19 富士フイルムビジネスイノベーション株式会社 情報処理装置、画像処理装置、情報処理システム、及びプログラム
US11183193B1 (en) 2020-05-11 2021-11-23 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
KR102377038B1 (ko) * 2020-06-16 2022-03-23 주식회사 마인즈랩 화자가 표지된 텍스트 생성 방법
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11662895B2 (en) * 2020-08-14 2023-05-30 Apple Inc. Audio media playback user interface
KR20220125523A (ko) * 2021-03-05 2022-09-14 삼성전자주식회사 전자 장치 및 전자 장치에서 레코딩과 음성 입력을 처리하는 방법
US11991421B2 (en) 2021-03-05 2024-05-21 Samsung Electronics Co., Ltd. Electronic device and method for processing voice input and recording in the same
KR102715945B1 (ko) * 2021-04-07 2024-10-10 네이버 주식회사 음성 녹음 후의 정보에 기초하여 생성된 음성 기록을 제공하는 방법 및 시스템
CN117998005A (zh) * 2022-11-04 2024-05-07 荣耀终端有限公司 信息处理方法和电子设备
JP7471026B1 (ja) 2023-06-06 2024-04-19 SmartNote株式会社 情報処理装置及び情報処理プログラム

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6353809B2 (en) * 1997-06-06 2002-03-05 Olympus Optical, Ltd. Speech recognition with text generation from portions of voice data preselected by manual-input commands
US7203721B1 (en) * 1999-10-08 2007-04-10 At Road, Inc. Portable browser device with voice recognition and feedback capability
JP2003219327A (ja) * 2001-09-28 2003-07-31 Canon Inc 画像管理装置、画像管理方法、制御プログラム、情報処理システム、画像データ管理方法、アダプタ、及びサーバ
AU2002367241A1 (en) * 2001-12-08 2003-07-15 Korea Media Co., Ltd. Portable cd player displaying caption data and audio cd having caption index data and system for providing caption data
US20040252679A1 (en) * 2002-02-26 2004-12-16 Tim Williams Stored voice message control extensions
JP4017887B2 (ja) * 2002-02-28 2007-12-05 富士通株式会社 音声認識システムおよび音声ファイル記録システム
DE60315947T2 (de) * 2003-03-27 2008-05-21 Sony Deutschland Gmbh Verfahren zur Sprachmodellierung
KR20050106246A (ko) * 2004-05-04 2005-11-09 엘지전자 주식회사 엠펙 플레이어에 있어서 데이터 검색 방법
US7559033B2 (en) * 2005-07-21 2009-07-07 International Business Machines Corporation Method and system for improving selection capability for user interface
WO2007013308A1 (ja) * 2005-07-28 2007-02-01 Matsushita Electric Industrial Co., Ltd. 番組録画装置、番組管理サーバ、番組管理方法、番組管理プログラム及び番組管理プログラムを記録したコンピュータ読み取り可能な記録媒体
CN101395561B (zh) * 2006-03-03 2011-05-18 日本电气株式会社 便携终端机以及输入接受方法
US20070236583A1 (en) * 2006-04-07 2007-10-11 Siemens Communications, Inc. Automated creation of filenames for digital image files using speech-to-text conversion
KR100856407B1 (ko) * 2006-07-06 2008-09-04 삼성전자주식회사 메타 데이터를 생성하는 데이터 기록 및 재생 장치 및 방법
US7844215B2 (en) * 2006-08-08 2010-11-30 Accenture Global Services Gmbh Mobile audio content delivery system
US8644463B2 (en) * 2007-01-10 2014-02-04 Tvg, Llc System and method for delivery of voicemails to handheld devices
US20080300872A1 (en) * 2007-05-31 2008-12-04 Microsoft Corporation Scalable summaries of audio or visual content
JP2009043353A (ja) * 2007-08-09 2009-02-26 Pioneer Electronic Corp タイトル付与装置、タイトル付与方法、タイトル付与プログラム、および記録媒体
US9274698B2 (en) * 2007-10-26 2016-03-01 Blackberry Limited Electronic device and method of controlling same
US20090125848A1 (en) * 2007-11-14 2009-05-14 Susann Marie Keohane Touch surface-sensitive edit system
US8140335B2 (en) * 2007-12-11 2012-03-20 Voicebox Technologies, Inc. System and method for providing a natural language voice user interface in an integrated voice navigation services environment
US8650507B2 (en) * 2008-03-04 2014-02-11 Apple Inc. Selecting of text using gestures
KR101466027B1 (ko) * 2008-04-30 2014-11-28 엘지전자 주식회사 이동 단말기 및 그 통화내용 관리 방법
US20090326939A1 (en) * 2008-06-25 2009-12-31 Embarq Holdings Company, Llc System and method for transcribing and displaying speech during a telephone call
US8180644B2 (en) * 2008-08-28 2012-05-15 Qualcomm Incorporated Method and apparatus for scrolling text display of voice call or message during video display session
US8239201B2 (en) * 2008-09-13 2012-08-07 At&T Intellectual Property I, L.P. System and method for audibly presenting selected text
KR101504212B1 (ko) * 2008-11-19 2015-03-24 엘지전자 주식회사 단말기 및 그 제어 방법
US8515497B2 (en) * 2009-04-27 2013-08-20 Kyocera Corporation Voice file name generation for captured images
US20100324709A1 (en) * 2009-06-22 2010-12-23 Tree Of Life Publishing E-book reader with voice annotation
CN101930446A (zh) * 2009-06-26 2010-12-29 鸿富锦精密工业(深圳)有限公司 电子装置及在嵌入式电子装置中播放音乐的方法
EP2275953B1 (en) * 2009-06-30 2018-10-24 LG Electronics Inc. Mobile terminal
JP2012014293A (ja) * 2010-06-29 2012-01-19 Toshiba Corp 情報検索装置および情報検索方法
US9128939B2 (en) * 2010-11-16 2015-09-08 Blackberry Limited Automatic file naming on a mobile device
US20120216113A1 (en) * 2011-02-18 2012-08-23 Google Inc. Touch gestures for text-entry operations
WO2012162895A1 (en) * 2011-06-03 2012-12-06 Google Inc. Gestures for selecting text
CN102314314B (zh) * 2011-08-29 2015-08-26 上海量明科技发展有限公司 文档阅读时光标转换的方法及系统
KR101457116B1 (ko) * 2011-11-07 2014-11-04 삼성전자주식회사 음성 인식 및 모션 인식을 이용한 전자 장치 및 그의 제어 방법
KR101921203B1 (ko) * 2012-03-02 2018-11-22 삼성전자 주식회사 녹음 기능이 연동된 메모 기능 운용 방법 및 장치

Also Published As

Publication number Publication date
KR20130124863A (ko) 2013-11-15
EP2662766A1 (en) 2013-11-13
JP2013235556A (ja) 2013-11-21
US20130297308A1 (en) 2013-11-07
WO2013168860A1 (en) 2013-11-14
CN103390016B (zh) 2018-03-06
CN103390016A (zh) 2013-11-13
KR101977072B1 (ko) 2019-05-10

Similar Documents

Publication Publication Date Title
JP5563650B2 (ja) 音声ファイルに関連するテキストの表示方法及びこれを実現した電子機器
US9514749B2 (en) Method and electronic device for easy search during voice record
KR101897774B1 (ko) 녹음된 음성의 탐색을 용이하게 하는 방법 및 이를 구현한 전자기기
US10782856B2 (en) Method and device for displaying application function information, and terminal device
TWI720062B (zh) 語音輸入方法、裝置和終端設備
US20190235707A1 (en) Content Presentation and Interaction Across Multiple Displays
US9576569B2 (en) Playback control apparatus, playback control method, and medium for playing a program including segments generated using speech synthesis
US11836180B2 (en) System and management of semantic indicators during document presentations
WO2016192509A1 (zh) 一种信息处理方法和装置
CN109474843B (zh) 语音操控终端的方法、客户端、服务器
JP2021530147A (ja) 背景音楽を選択して動画を撮影する方法、装置、端末機及び媒体
KR102039553B1 (ko) 사용자 디바이스에서 입력 문자를 이용한 지능형 서비스 제공 방법 및 장치
US20110039598A1 (en) Methods and devices for adding sound annotation to picture and for highlighting on photos and mobile terminal including the devices
US20140164371A1 (en) Extraction of media portions in association with correlated input
CN110147467A (zh) 一种文本描述的生成方法、装置、移动终端及存储介质
CN103914502A (zh) 使用情形识别的智能搜索服务的方法及其终端
CN104252464A (zh) 信息处理方法和装置
US20150052211A1 (en) Message based conversation function execution method and electronic device supporting the same
US9066135B2 (en) System and method for generating a second screen experience using video subtitle data
KR101880310B1 (ko) 대화 스레드내에서 대화 정보 표시 기능을 가지는 단말기 및 그 제어 방법
US20140297285A1 (en) Automatic page content reading-aloud method and device thereof
CN112837668B (zh) 一种语音处理方法、装置和用于处理语音的装置
US20240126500A1 (en) Device and method for creating a sharable clip of a podcast
JP2022051500A (ja) 関連情報提供方法及びシステム
CN106504780A (zh) 一种实现音频信息处理的方法及装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140513

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140612

R150 Certificate of patent or registration of utility model

Ref document number: 5563650

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees