JPH11510977A - Method and apparatus for extracting information using audio interface - Google Patents
Method and apparatus for extracting information using audio interfaceInfo
- Publication number
- JPH11510977A JPH11510977A JP9538046A JP53804697A JPH11510977A JP H11510977 A JPH11510977 A JP H11510977A JP 9538046 A JP9538046 A JP 9538046A JP 53804697 A JP53804697 A JP 53804697A JP H11510977 A JPH11510977 A JP H11510977A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- document
- server
- interface device
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 238000012545 processing Methods 0.000 claims abstract description 130
- 238000004891 communication Methods 0.000 claims abstract description 64
- 230000005236 sound signal Effects 0.000 claims description 33
- 238000013519 translation Methods 0.000 claims description 27
- 238000004590 computer program Methods 0.000 claims description 22
- 230000004044 response Effects 0.000 claims description 12
- 238000012546 transfer Methods 0.000 claims description 11
- 230000005540 biological transmission Effects 0.000 claims description 5
- 238000003032 molecular docking Methods 0.000 claims 2
- 230000006870 function Effects 0.000 description 56
- 230000008569 process Effects 0.000 description 23
- 238000010586 diagram Methods 0.000 description 14
- 238000005516 engineering process Methods 0.000 description 14
- 230000008901 benefit Effects 0.000 description 6
- 238000013515 script Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000238366 Cephalopoda Species 0.000 description 1
- 241000257303 Hymenoptera Species 0.000 description 1
- 241000220010 Rhode Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009189 diving Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- WDQKVWDSAIJUTF-GPENDAJRSA-N via protocol Chemical compound ClCCNP1(=O)OCCCN1CCCl.O([C@H]1C[C@@](O)(CC=2C(O)=C3C(=O)C=4C=CC=C(C=4C(=O)C3=C(O)C=21)OC)C(=O)CO)[C@H]1C[C@H](N)[C@H](O)[C@H](C)O1.C([C@H](C[C@]1(C(=O)OC)C=2C(=C3C([C@]45[C@H]([C@@]([C@H](OC(C)=O)[C@]6(CC)C=CCN([C@H]56)CC4)(O)C(=O)OC)N3C=O)=CC=2)OC)C[C@@](C2)(O)CC)N2CCC2=C1NC1=CC=CC=C21 WDQKVWDSAIJUTF-GPENDAJRSA-N 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/027—Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/60—Medium conversion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2207/00—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place
- H04M2207/40—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place terminals with audio html browser
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M7/00—Arrangements for interconnection between switching centres
- H04M7/006—Networks other than PSTN/ISDN providing telephone service, e.g. Voice over Internet Protocol (VoIP), including next generation networks with a packet-switched transport layer
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Telephonic Communication Services (AREA)
- Computer And Data Communications (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
(57)【要約】 オーディオインターフェイス装置を用いてドキュメントサーバから情報を取り出すための方法および装置。ある有利な実施の形態では、通信ネットワークが、オーディオ処理ノードとオーディオインタープリタノードとを備えたオーディオブラウジングノードを含んでいる。オーディオインターフェイス装置とオーディオブラウジングノードとの間にはオーディオチャネルが確立される。オーディオブラウジングノードとドキュメントサーバとの間にはドキュメント供給プロトコルチャネルが確立される。ドキュメントサーバは、ドキュメント供給プロトコルチャネルを介してオーディオブラウジングノードにドキュメントを提供する。オーディオブラウジングノードは、ドキュメントをオーディオデータに翻訳し、さらにそのオーディオデータをオーディオチャネルを介してオーディオインターフェイスへ与える。オーディオインターフェイス装置は、オーディオチャネルを介してオーディオブラウジングノードへオーディオユーザ入力を与える。オーディオブラウジングノードは、そのオーディオユーザ入力を、ドキュメントサーバに与えられるのに適したユーザデータに翻訳し、さらにそのユーザデータをドキュメント供給プロトコルチャネルを介してドキュメントサーバに提供する。 (57) Abstract: A method and apparatus for retrieving information from a document server using an audio interface device. In one advantageous embodiment, a communication network includes an audio browsing node with an audio processing node and an audio interpreter node. An audio channel is established between the audio interface device and the audio browsing node. A document serving protocol channel is established between the audio browsing node and the document server. The document server provides the document to the audio browsing node via a document serving protocol channel. The audio browsing node translates the document into audio data and provides the audio data to an audio interface via an audio channel. The audio interface device provides audio user input to the audio browsing node via an audio channel. The audio browsing node translates the audio user input into user data suitable for being provided to the document server, and provides the user data to the document server via a document serving protocol channel.
Description
【発明の詳細な説明】 オーディオインターフェイスを用いた情報の取り出し方法および装置 発明の分野 本発明は情報の取り出し一般に関する。より詳細には、本発明は、オーディオ ユーザインターフェイスを用いたネットワークからの情報取り出しに関する。 発明の背景 通信ネットワーク上に存在する情報量は膨大であるとともに急速に増加してい る。このようなネットワークで最も一般的なものは、世界中のコンピュータがリ ンクされたネットワークであるインターネット(Internet)である。インターネ ットの普及度の高さの大部分は、インターネットのワールドワイドウェブ(WW W)部分に帰することができるであろう。WWWとは、サーバコンピュータとク ライアントコンピュータとの間の情報が通常ハイパーテキスト転送プロトコル( HTTP)を用いてやり取りされる、インターネットの一部分である。サーバは 情報を記憶しており、クライアントからの要求に応答してクライアントに情報を 供給(すなわち、送信)する。クライアントは、情報を要求し且つ表示するため の、しばしばブラウザといわれるコンピュータソフトウェアプログラムを実行す る。WWWブラウザの例としては、ネットスケープ社(Netscape Communication s lnc.)のネットスケープ・ナビゲータ(Netscape Navigator)、およびマイク ロソフト社(Microsoft Corp.)のインターネット・エクスプローラ(Internet Explorer)がある。 サーバおよびこれに記憶された情報は、URL(Uniform Resource Locators )によって識別される。URLは、バーナーズ-リー(Berners-Lee,T.)らの”U niform Resource Locators”(RFC1738,Network Working Group,1994)に詳細 に説明されている。それは参考文献として本明細書に組み入れられる。例えば、 http://www.hostname.com/document1.html(注1)というURLは、”document 1.html”というドキュメントがホストサーバ”www.hostname.com”にあることを 示 している。つまり、クライアントによるホストサーバへの情報の要求は、通常U RLを含んでいる。サーバからクライアントへ渡される情報は、通常ドキュメン トといわれる。かかるドキュメントは、HTML(Hypertext Markup Language )のようなドキュメント言語により記述されるのが一般的である。クライアント からの要求を受けると、サーバはHTMLドキュメントをクライアントに送信す る。HTMLドキュメントは、コンピュータのディスプレイ画面でユーザに情報 を表示するためにブラウザに用いられる情報を含んでいる。HTMLドキュメン トは、テキスト、論理構造コマンド、ハイパーテキストリンク、およびユーザ入 力コマンドを含んでいてよい。ユーザがディスプレイからハイパーテキストリン クを(例えばマウスをクリックすることにより)選択したときには、ブラウザは サーバに別のドキュメントを要求する。 現在のWWWブラウザは、テキストおよびグラフィカルなユーザインターフェ イスに基づいている。つまり、ドキュメントはコンピュータの画面上にイメージ として示される。かかるイメージは例えばテキスト、グラフィック、ハイパーテ キストリンク、およびユーザ入力用ダイアローグボックスを含むものである。ユ ーザのWWWとのすべての対話処理(インターアクション)は、グラフィカルユ ーザインターフェイスを通して行われる。オーディオデータはユーザのコンピュ ータで受信し且つ再生できるが(例えば、”.wav”または”.au”ファイル)、 オーディオデータを受信することはWWWのグラフィカルインターフェイスにと っては副次的なことに過ぎない。つまり、オーディオデータはユーザの要求の結 果として送信されてもよいが、ユーザがオーディオインターフェイスを用いてW WWと対話処理する手段は存在していない。 (注1) ここで例にあげたURLは説明のためだけに用いたものである。いか なる特定のURLを用いることも本発明の実例として以外に何ら意味を持つもの ではない。また、実際のURLを意味するものではない。 発明の要約 本発明は、オーディオインターフェイス装置(例えば、電話)を用いてドキュ メントサーバから情報を取り出すための方法および装置を提供する。また、ドキ ュメント供給プロトコルに従って動作するドキュメントサーバからドキュメント を取り出すインタープリタが提供される。このインタープリタは、ドキュメント を、オーディオユーザインターフェイスに与えられるオーディオデータに翻訳( interpret)する。また、インタープリタは、オーディオインターフェイス装置 からのオーディオユーザ入力を受信する。また、インタープリタは、そのオーデ ィオユーザ入力を、ドキュメント供給プロトコルに従ってドキュメントサーバに 送信されるのに適したユーザデータに翻訳するとともに、このユーザデータをド キュメントサーバに提供する。多くの実施の形態では、インタープリタは、オー ディオユーザインターフェイス内或いはドキュメントサーバ内に位置しているこ とがあり、またはオーディオユーザインターフェイスとドキュメントサーバとの 間の通信チャネル内に配置されていることがある。 ある実施の形態によると、本発明のオーディオブラウジング(browsing)機能 を実行するための通信ネットワークノードは、長距離電話ネットワークのような 通信ネットワーク内にノードとして含まれている。オーディオインターフェイス 装置とノードとの間に、オーディオチャネルが確立される。また、ノードとドキ ュメントサーバとの間には、ドキュメント供給プロトコルチャネルが確立される 。ノードは、ドキュメント供給プロトコルに従ってドキュメントサーバに供給さ れたドキュメントを受信し、さらにそのドキュメントをオーディオユーザインタ ーフェイスに適したオーディオデータに翻訳する。そして、ノードは、オーディ オチャネルを介してオーディオインターフェイス装置に、そのオーディオデータ を送信する。また、ノードは、オーディオインターフェイス装置からオーディオ ユーザ入力(例えば、DTMFトーン音または音声)を受信し、そのオーディオ ユーザ入力をドキュメントサーバに適したユーザデータに翻訳する。さらに、ノ ードは、ドキュメント供給プロトコルに従ってそのユーザデータをドキュメント サーバに送信する。 ある実施の形態では、ドキュメントサーバは、ハイパーテキスト転送プロトコ ルを介してクライアントと通信するワールドワイドウェブのドキュメントサーバ である。本発明の利点は、ユーザが、オーディオインターフェイス装置を介して ワールドワイドウェブのドキュメントサーバとのオーディオブラウジングセッシ ョンを行うことができることである。ワールドワイドウェブのドキュメントサー バは、このブラウジングセッションを通常のやり方で扱うことができ、その特定 のブラウジングセッションが通常のグラフィカルブラウザを実行するクライアン トにより開始させられたかまたはオーディオインターフェイス装置により開始さ せられたかを知っている必要がない。必要な翻訳機能は通信ネットワークノード で実行され、これらの機能は、オーディオ翻訳装置を用いるユーザおよびハイパ ーテキスト転送プロトコルに従って動作するワールドワイドウェブのドキュメン トサーバのいずれにも分からないように行われる。 本発明のこれらおよび他の利点は、以下の詳細な説明および添付図面を参照す ることにより当業者にとって明らかとなるであろう。 図面の簡単な説明 図1は、本発明を実行するのに適した通信システムを示す図である。 図2は、オーディオ処理ノードの構成部分のブロック図である。 図3は、オーディオインタープリタノードの構成部分のブロック図である。 図4は、ドキュメントサーバのブロック図である。 図5は、オーディオHTMLドキュメントの一例を示す図である。 図6は、HTMLドキュメントの一例を示す図である。 図7は、オーディオブラウジング機能がユーザインターフェイス装置で実行さ れる一実施の形態のブロック図である。 図8は、図7のユーザインターフェイス装置の構成部分のブロック図である。 図9は、オーディオブラウジング機能がオーディオブラウジングドキュメント サーバで実行される一実施の形態のブロック図である。 図10は、図9のオーディオブラウジングドキュメントサーバの構成部分のブ ロック図である。 図11は、オーディオ翻訳機能がオーディオインタープリタドキュメントサー バで実行される一実施の形態のブロック図である。 図12は、図11のオーディオインタープリタドキュメントサーバの構成部分 のブロック図である。 詳細な説明 図1は、本発明を実行するのに適した通信システム100を示す図である。例 えば電話110のようなオーディオインターフェイス装置が、ローカル交換キャ リア(LEC)120に接続されている。オーディオインターフェイス装置とし ては電話以外のものを用いることもできる。例えば、オーディオインターフェイ ス装置は、電話通信機能のあるマルチメディアコンピュータであってもよい。本 発明によると、電話110のユーザは、例えばドキュメントサーバ160のよう なドキュメントサーバから提供される情報に関連した電話番号に電話を掛ける。 図1に示した典型的な実施の形態においては、ドキュメントサーバ160は通信 ネットワーク162の一部である。有利な実施の形態では、通信ネットワーク1 62はインターネット(Internet)である。ドキュメントサーバ160のような ドキュメントサーバを介してアクセスできる情報に関連した電話番号は、それが オーディオブラウジング補助部(adjunct)150のような特別な通信ネットワ ークノードにルート指定されるように設定される。図1に示した実施の形態では 、オーディオブラウジング補助部150は、長距離電話ネットワークである通信 ネットワーク102の中にあるノードである。よって、その通話呼び出しはLE C120にルート指定され、LEC120がその通話呼び出しをさらに中継線1 25を介して長距離キャリアスイッチ130へルート指定する。長距離ネットワ ーク102は、通話呼び出しのルート指定を行うためにスイッチ130と同様の 他のスイッチを有することが一般的である。しかしながら、簡単のために図1に はスイッチが1つだけ描かれている。通信ネットワーク102内のスイッチ13 0は”インテリジェント”スイッチであり、様々な機能を実行するためにプログ ラムされることがある処理ユニット131を含んでいる(または処理ユニット1 31に接続されている)。このように通信ネットワークスイッチ内に処理ユニッ トを用いることおよびそれをプログラムすることは、この技術分野では周知であ る。スイッチ130で通話呼び出しを受信すると、その通話呼び出しはオーディ オブラウジング補助部150へルート指定される。これにより、電話110とオ ーデ ィオブラウジング補助部150との間にオーディオチャネルが確立される。通信 ネットワークを通しての通話のルート指定(ルーティング)はこの技術分野では 周知であり、ここではこれ以上説明しない。 ある実施の形態では、本発明によるオーディオブラウジングサービスは、通信 ネットワーク102のサービスプロバイダによって提供されるオーディオブラウ ジングサービスの加入者となったユーザだけに提供される。かかる実施の形態で は、スイッチ130に接続されたデータベース140が、加入者のリストを含ん でいる。スイッチ130は、通話呼び出しが加入者からサーバへされたかどうか を判定するためにデータベース140を参照する。これを実現するための1つの 方法は、データベース140内に呼び出し電話番号(ANI)のリストを記憶し ておくことである。周知の方法では、LEC120がスイッチ130に電話11 0のANIを提供する。そして、スイッチ130は、そのANIがデータベース 140に記憶されたオーディオブラウジングサービスの加入者リストに含まれて いるかどうかを判定するためにデータベース140を参照する。もしそのANI がリストにあれば、スイッチ130は、本発明に従い通話呼び出しをオーディオ ブラウジング補助部150にルート指定する。もしそのANIがオーディオブラ ウジングサービスの加入者でなければ、適切なメッセージが電話110に送られ る。 オーディオブラウジング補助部150は、ともに後で詳述する、オーディオ処 理ノード152とオーディオインタープリタノード154とを含んでいる。オー ディオブラウジング補助部150は、本発明に従ってオーディオブラウジング機 能を提供する。 電話110からの通話呼び出しを受信すると、オーディオブラウジング補助部 150は、リンク164を介して、呼び出した電話番号に関連したドキュメント サーバ160との通信チャネルを確立する。電話番号とドキュメントサーバとの 関連は、後で詳述する。WWWについての実施の形態では、リンク164はTC P/IPに対するソケット接続であり、その確立はこの技術分野では周知である 。TCP/IPのさらなる情報については、参考文献として組み入れられる、コ マー・ダグラス(Comer,Douglas)の”Internetworking with TCP/IP:Princip l es,Protocols,and Architecture”(Englewood Cliffs,NJ,Prentice Hall, 1988)を参照されたい。オーディオブラウジング補助部150およびドキュメン トサーバ160は、ドキュメント供給プロトコルを用いて互いに交信する。ここ で、ドキュメント供給プロトコルとは、クライアントとサーバとの間の情報の転 送についての通信プロトコルである。かかるプロトコルによると、クライアント はサーバに要求を送ることによりサーバに情報を要求し、サーバは要求された情 報を含むドキュメントをクライアントに送ることにより要求に応える。よって、 ドキュメント供給プロトコルチャネルは、オーディオブラウジング補助部150 とドキュメントサーバ160との間にリンク164を介して確立される。有利で あるWWWについての実施の形態では、ドキュメント供給プロトコルは、ハイパ ーテキスト転送プロトコル(HTTP)である。このプロトコルはWWW通信の 技術では周知であり、参考文献として組み入れられる、バーナーズ−リー(Bern ers-Lee,T)およびコノリー(Connolly,D)の”Hypertext Transfer Protocol(H TTP)Working Draft of the Internet Engineering Task Force”(1993)に詳述 されている。 従って、オーディオブラウジング補助部150は、HTTPプロトコルを用い てドキュメントサーバ160と通信する。よって、ドキュメントサーバ160に 関する限り、それは通常のグラフィカルブラウザを実行する通常のWWWクライ アントのいずれかと通信しているように振る舞う。つまり、ドキュメントサーバ 160は、リンク164から受け取った要求に応答してオーディオブラウジング 補助部150にドキュメントを供給する。ここでドキュメントとは情報の集合で ある。ドキュメントはサーバ160で予め決められた静的ドキュメントであって もよく、このときには、そのドキュメントへの全ての要求に対して同じ情報が与 えられる結果となる。或いは、ドキュメントは、要求に応答して供給される情報 が要求がされた時点で動的に生成されるような動的なものであってもよい。一般 には動的ドキュメントは、情報への要求に応答してサーバ160によって実行さ れるプログラムであるスクリプトによって生成される。例えば、URLはあるス クリプトと関連するものであってよい。サーバ160がURLを含む要求を受信 したとき、サーバ160はスクリプトを実行して動的ドキュメントを生成し、情 報を要求したクライアントにその動的に生成されたドキュメントを供給する。ド キュメントを動的に生成するためにスクリプトを用いることはこの技術分野では 周知である。 サーバ160によって供給されたドキュメントは、テキスト、論理構造コマン ド、ハイパーテキストリンク、およびユーザ入力コマンドを含んでいる。こうい ったドキュメントの1つの特徴は、ドキュメントに含まれる情報の物理構造(す なわち、通常のグラフィックブラウザを実行してクライアント側で表示したとき の情報の物理レイアウト)が定義されていないことである。その代わりとして、 ドキュメントは、物理レイアウトを定義するためにブラウザにおいて翻訳される 論理構造コマンドを含んでいる。例えば、このような論理構造コマンドは、強調 コマンドや新しいパラグラフコマンドなどを含んでいる。このようなコマンドの シンタックス構造は、参考文献として組み入れられるゴールドファーブ・チャー ルズ(Goldfarb,Charles)の”The SGML Handbook”(Clarendon Press,1990 )に記載されているSGML(Standard Generalized Markup Language)のよう な、より一般的な目的のドキュメント構造言語の規定に適合していてよい。本発 明のWWWについての実施の形態では、これらドキュメントは、ハイパーテキス トマークアップ言語(HTML)のドキュメントである。HTMLは、WWWサ ーバによって供給されるドキュメントを定義するために用いられるSGMLに基 づいた周知の言語である。HTMLについては、参考文献として組み入れられる 、バーナーズ−リー(Berners-Lee,T)およびコノリー(Connolly,D)の”Hyp ertext Markup Language(HTML)Working Draft of the Internet Engineering Task Force”(1993)に詳述されている。 HTMLドキュメントが通常のブラウザを実行するクライアントによって受信 されたときに、ブラウザはHTMLドキュメントをイメージに翻訳し且つそのイ メージをコンピュータディスプレイ画面に表示する。しかしながら、本発明の原 理によると、ドキュメントサーバ160からドキュメントを受信すると、オーデ ィオブラウジング補助部150はそのドキュメントをオーディオデータに変換す る。かかる変換の詳細は後で詳しく説明する。そして、オーディオデータは、ス イッチ130およびLEC120を介して電話110に送られる。つまり、この 方法によると、電話110のユーザは、オーディオインターフェイスを介してド キュメントサーバ160の情報にアクセスすることが可能である。 さらに、ユーザは、電話110からオーディオブラウジング補助部150にオ ーディオユーザ入力を送ることも可能である。オーディオユーザ入力は、例えば 音声信号またはDTMFトーン音であってよい。オーディオブラウジング補助部 150は、オーディオユーザ入力を、HTTPプロトコルに従ってリンク164 を介してドキュメントサーバ160に送信するのに適したユーザデータまたは命 令に変換する。ユーザデータまたは命令は、さらにドキュメント供給プロトコル チャネルを介してドキュメントサーバ160に送られる。これにより、ユーザと ドキュメントサーバとはオーディオユーザインターフェイスを介して互いに対話 処理することとなる。 このやり方では、ユーザはオーディオインターフェイスを介してWWWドキュ メントサーバとブラウジングセッションを行うことができる。ドキュメントサー バは、かかるブラウジングセッションを通常のやり方で扱うことができ、特定の ブラウジングセッションが通常のグラフィカルブラウザを実行するクライアント により開始させられたかまたは電話のようなオーディオインターフェイスにより 開始させられたかを知っている必要がない。ネットワーク102内のオーディオ ブラウジング補助部150は、ドキュメントサーバ160から供給されたドキュ メントを、電話110に送るのに適したオーディオデータに翻訳する。さらに、 オーディオブラウジング補助部150は、電話110で受け取ったオーディオユ ーザ入力を、ドキュメントサーバ160で受信されるのに適したユーザデータに 翻訳する。 次に、ブラウジングセッションに関する利点のある実施の形態について、より 詳細に説明する。ここで、電話110側にいるユーザが、ドキュメントサーバ1 60を介してアクセス可能な情報と関連付けられそれゆえオーディオブラウジン グ補助部150にルート指定されるように設定された番号(123)456−7 890(注2)にダイアルすると仮定する。通話呼び出しはLEC120にルー ト指定され、LEC120はその電話番号を長距離ネットワーク102、特にス イッチ130にルート指定されたものとして認識する。通話呼び出しを受信する と、スイッチ130は次にその通話呼び出しをリンク132を介してオーディオ ブラウジング補助部150にルート指定する。これにより、電話110とオーデ ィオブラウジング補助部150との間のオーディオチャネルが確立される。 オーディオ処理ノード152の詳細が図2に示されている。オーディオ処理ノ ード152は、電話ネットワークインターフェイスモジュール210と、DTM Fデコーダ/ジェネレータ212と、音声認識モジュール214と、テキスト− 音声モジュール216と、オーディオ再生/録音モジュール218とを備えてお り、図2に示すように、これらのそれぞれがオーディオバス220および制御/ データバス222に接続されている。さらに、オーディオ処理ノード152は、 中央処理装置224と、メモリ装置228と、パケットネットワークインターフ ェイス230とを備えており、これらのそれぞれは制御/データバス222に接 続されている。オーディオ処理ノード152の全体としての機能は、中央処理装 置224によって制御される。中央処理装置224は、メモリ装置228に記憶 されて実行されるコンピュータプログラム命令232の制御によって動作する。 メモリ装置228は機械的に読みだし可能な装置であればどのようなものでもよ い。例えば、メモリ装置228は、ランダムアクセスメモリ(RAM)、リード オンリーメモリ(ROM)、プログラム可能なリードオンリーメモリ(PROM )、消去可能PROM(EPROM)、電気的消去可能PROM(EEPROM )、磁気記憶媒体(すなわち、磁気ディスク)、または光学的記憶媒体(すなわ ち、CD−ROM)であってよい。さらに、オーディオ処理ノード152は、中 央処理装置224によるアクセスが可能で且つコンピュータプログラム命令23 2とデータ234とを共に記憶することができる機械的に読みだし可能な装置の 様々な組合せを含んでいてよい。 電話ネットワークインターフェイスモジュール210は、オーディオ処理ノー ド152と電話ネットワークスイッチ130との間の低レベルの対話処理を扱う 。ある実施の形態においては、モジュール210は、1または複数のアナログチ ップ/リングループスタート電話回線終端子からなる。モジュール210により 、中央処理装置224は制御データバス222を介してリンク132を制御する ことができる。制御機能としては、オンフック/オフフック、呼び出し検出、お よ び遠端オンフック検出を含む。別の実施の形態では、モジュール210は、T1 /DS1、E1、またはPR1のような1または複数のチャネル化ディジタルイ ンターフェイスを含んでいる。信号は帯域内または帯域外であってよい。DTM Fデコーダ/ジェネレータ212は、DTMFトーン信号のディジタルデータへ の変換、およびディジタルデータからのDTMFトーン音の生成を扱う。音声認 識モジュール214は、ユーザの電話110で発生してオーディオバス220か ら受け取った音声信号を認識する。このような音声信号は音声認識モジュール2 14によって処理され、ディジタルデータに変換される。テキスト−音声モジュ ール216は、ドキュメントサーバ160から受け取ったドキュメントのテキス トを、電話110側のユーザに送信されるオーディオ音声信号に変換する。オー ディオ再生/録音モジュール218はドキュメントサーバ160から受け取った オーディオデータを電話110側で再生するとともに、ユーザの声のようなオー ディオデータを録音するために用いられる。各モジュール210、212、21 4、216、218は、図2では別々の機能のモジュールとして示されているこ とを付記しておく。各モジュール212、214、216、218の機能は、周 知の信号処理技術を用いて、ハードウェア、ソフトウェアまたはハードウェアと ソフトウェアの組合せとして実現されてもよい。モジュール210の機能は、周 知の信号処理技術を用いて、ハードウェア、またはハードウェアとソフトウェア の組合せとして実現されてもよい。各モジュールの機能は、実例に関連して後で さらに詳述される。パケットネットワークインターフェイス230は、オーディ オ処理ノード152とオーディオインタープリタノード154との間の通信のた めに用いられる。 オーディオブラウジング補助部150は、オーディオ処理ノード152に接続 されたオーディオインタープリタノード154をも含んでいる。オーディオイン タープリタノード154は、図3にその詳細が示されている。オーディオインタ ープリタノード154は、中央処理装置302と、メモリ304と、制御/デー タバス310によって接続された2つのパケットネットワークインターフェイス 306、308とを含んでいる。オーディオインタープリタノード154の全体 としての機能は、中央処理装置302によって制御される。中央処理装置302 は、メモリ装置304に記憶されて実行されるコンピュータプログラム命令31 2の制御によって動作する。 メモリ装置304は機械的に読みだし可能な装置であればどのようなものでも よい。例えば、メモリ装置304は、ランダムアクセスメモリ(RAM)、リー ドオンリーメモリ(ROM)、プログラム可能なリードオンリーメモリ(PRO M)、消去可能PROM(EPROM)、電気的消去可能PROM(EEPRO M)、磁気記憶媒体(すなわち、磁気ディスク)、または光学的記憶媒体(すな わち、CD−ROM)であってよい。さらに、オーディオインタープリタノード 154は、中央処理装置302によるアクセスが可能で且つコンピュータプログ ラム命令312とデータ314とを共に記憶することができる機械的に読みだし 可能な装置の様々な組合せを含んでいてよい。 中央処理装置が実行するソフトウェア命令を用いて、オーディオ処理ノード1 52およびオーディオインタープリタノード154のような装置を制御すること は、この技術分野では周知であり、ここではさらに詳しい説明はしない。 実例に戻ると、電話110から電話番号(123)456−7890への通話 呼び出しはオーディオブラウジング補助部150、特にオーディオ処理ノード1 52へルート指定されている。中央処理装置224は、電話ネットワークインタ ーフェイスモジュール210により呼び出し中の回線を検出する。通話呼び出し を検出すると、中央処理装置は、ダイアルされた番号(DN)と関連したURL を決定するために参照を行う。ダイアルされた電話番号(DN)はこの技術分野 では周知のやり方でローカル交換キャリア120からスイッチ130へ与えられ 、さらにDNはスイッチ130からオーディオブラウジング補助部150に与え られる。メモリ228内には、DNに関連したURLのリストがデータ234と して記憶されている。本例ではDN(123)456−7890がURL http: //www.att.com/〜phone/greeting と関連付けられていると仮定する。 別の実施の形態では、様々なDNと関連付けられたURLのリストは、オーデ ィオブラウジング補助部150にローカルにあるのではなく、データベース14 0のようなネットワークデータベースに記憶されている。かかる実施の形態では 、オーディオ処理ノード152の中央処理装置224が、ネットワークスイッチ 1 30に対してデータベース140の参照を要求する信号を送る。スイッチはデー タベース140からURLを要求し、結果として得たURLをオーディオ処理ノ ード152に送り戻す。オーディオ処理ノード152とスイッチ130とデータ ベース140との間の通信は、この技術分野では周知である例えばSS7のよう な帯域外信号システムを経由してもよいことを付記しておく。このような構成の 利点は、複数のオーディオブラウジング補助部がネットワーク102内に存在し てもよく、そしてそれぞれが1つのデータベース140を共有してもよいことで ある。これにより、URLと関連するDNとを更新する必要があるデータベース 140は1つだけとなる。 DNに関連したURLを受け取った後、オーディオ処理ノード152の中央処 理装置224は、(URLを含む)メッセージをオーディオインタープリタノー ド154に送り、オーディオインタープリタノード154にオーディオ翻訳/ブ ラウジングセッションを始めるように命令する。かかるメッセージは、中央処理 装置224から制御/データバス222を経てパケットネットワークインターフ ェイス230へ送られる。さらにこのメッセージは、オーディオ処理ノード15 2のパケットネットワークインターフェイス230から接続153を介してオー ディオインタープリタノード154のパケットネットワークインターフェイス3 06へ送られる。ある有利な実施の形態では、オーディオ処理ノード152およ びオーディオインタープリタノード154は並置され、これにより一体としてオ ーディオブラウジング補助部150を形成する。別の実施の形態では、オーディ オ処理ノード152およびオーディオインタープリタノード154は地理的に分 離されてもよい。このような代替的ないくつかの実施の形態については後述する 。接続153は、この技術分野では周知のパケットデータネットワーク接続(例 えば、イーサネットに対するTCP/IP接続)であってよい。 実例に戻ると、オーディオインタープリタノード154は、パケットネットワ ークインターフェイス306を介して、新たなオーディオ翻訳/ブラウジングセ ッションを始めるようにというメッセージを受け取る。中央処理装置302は、 複数のユーザについての複数のオーディオ翻訳/ブラウジングセッションを同時 に制御することが可能である。プロセッサによるこのような複数処理の実行は周 知であり、各セッションを制御するソフトウェア処理の例示を一般に伴っている 。オーディオ翻訳/ブラウジングセッションの開始に当たり、オーディオインタ ープリタノード154は、URL http://www.att.com/〜phone/greeting につ いてのHTTP要求を接続164を介してドキュメントサーバ160へ送る。本 例では、ドキュメントサーバ160がホスト名 www.att.com と関連していると 仮定している。 ドキュメントサーバ160の詳細が図4に示されている。ドキュメントサーバ 160は、メモリ404に接続された中央処理装置402を含むコンピュータで ある。ドキュメントサーバ160の機能は、メモリ404に記憶されたコンピュ ータプログラム命令416を実行する中央処理装置402によって制御される。 動作に当たり、ドキュメントサーバ160は、接続164およびパケットネット ワークインターフェイス440を介してオーディオインタープリタノード154 からのドキュメントの要求を受け取る。中央処理装置402はその要求を翻訳し メモリ404から要求された情報を取り出す。かかる要求は、HTMLドキュメ ント408、オーディオHTMLドキュメント410、オーディオファイル41 2、またはグラフィックファイル414に対するものであってよい。HTMLド キュメント408は周知のものであり、通常のWWWグラフィカルブラウザに用 いられる通常のHTML命令を含んでいる。オーディオHTMLドキュメントは HTMLドキュメントに類似しているが、本発明に従ったオーディオインタープ リタノード154での翻訳のための特有の付加命令を有している。本発明のオー ディオブラウジング面について特有のかかる命令を、ここではオーディオHTM L命令という。オーディオHTMLドキュメントおよびオーディオHTML命令 についての詳細は後で詳しく説明する。オーディオファイル412はオーディオ 情報を含むフアイルである。グラフィックファイル414はグラフィカル(図表 )情報を含むフアイルである。この技術分野で周知な方法によると、URLは特 定のドキュメントサーバにある特定のドキュメントを同定する。メモリ404は 、動的に生成されるHTMLドキュメントおよびオーディオHTMLドキュメン トについてのスクリプト418をも含んでいてよい。本例に戻ると、URL htt p://www.att.com/〜phone/greeting についてのHTTP要求は、オーディオイ ン タープリタノード154から接続164を介してドキュメントサーバ160によ って受信される。 ドキュメントサーバはこのURLを翻訳し、中央処理装置402の制御のもと でメモリ404からオーディオHTMLページを取り出す。そして、中央処理装 置402は、このオーディオHTMLドキュメントを、パケットネットワークイ ンターフェイス440およびリンク164を介してオーディオインタープリタノ ード154に送る。 URL http://www.att.com/〜phone/greeting についての要求に応答して送 られ、さらにオーディオインタープリタノード154に受信されるオーディオH TMLドキュメント500が、図5に示されている。オーディオインタープリタ ノード154は以下のようにドキュメント500の翻訳を始める。ある実施の形 態では、ページのタイトルを含む、ドキュメント500のライン502〜506 の<HEAD>部分は音声には変換されず、オーディオインタープリタノード1 54に無視される。別の実施の形態では、<TITLE>部分は後述するテキス ト−音声を用いて翻訳されてもよい。 ドキュメント500の<BODY>部分のライン508にあるテキスト”He llo!”は、パケットネットワークインターフェイス306およびリンク15 3を介してオーディオインタープリタノード154からオーディオ処理ノード1 52へ送られる。テキスト”Hello!”について、オーディオインタープリ タノード154は、そのテキストはテキスト−音声モジュール216で処理され るべきものであるとの命令をオーディオ処理ノード152に送る。オーディオ処 理ノード152はパケットネットワークインターフェイス230を介して当該テ キストおよび命令を受け取り、そして当該テキストは制御/データバス222を 介してテキスト−音声モジュール216に与えられる。テキスト−音声モジュー ル216は、”Hello”(注3)を再生するオーディオ信号を生成し、オー ディオバス220を介してこの信号を電話ネットワークインターフェイスモジュ ール210へ送る。さらに、電話ネットワークインターフェイスモジュール21 0はこのオーディオ信号を電話110に送る。テキスト−音声変換は周知であっ て、テキスト−音声モジュール214には通常のテキスト−音声技術が用いられ てよいことを付記しておく。例えば、テキストが音声に変換される際、テキスト 内の記号”!”は大きな音量での再生と翻訳されてもよい。 ドキュメント500のライン510はフォーム命令であり、オーディオインタ ープリタノード154はこの命令についてはオーディオ処理ノード152に対し て何も送らない。オーディオインタープリタノード154はユーザからの将来の 応答を期待することを示すものとしてライン510を翻訳し、そしてこの応答は 、http://machine:8888/hastings-bin/getscript.sh.によって同定されるスク リプトへのアーギュメント(argument)として与えられる。ライン512はオー ディオHTML命令である。オーディオインタープリタノード154は、メモリ 404の記憶領域412内にある、www-spr.ih.att.com/〜hastings/annc/greet ing.mu8 で同定されるオーディオファイルについてのhttp要求をサーバ16 0へ送ることによりライン512を翻訳する。ドキュメントサーバ160はメモ リ404からオーディオファイルを取り出し、それをリンク164を介してオー ディオインタープリタノード154へ送る。オーディオファイルを受け取ると、 オーディオインタープリタノード154はそのファイルを、そのファイルがオー ディオ再生/録音モジュール218により再生されるべきものであることを示す 命令とともにオーディオ処理ノード152へ送る。これらファイルおよび命令を 受け取ると、オーディオ処理ノード152は、このオーディオファイルをオーデ ィオ再生/録音モジュール218へルート指定する。オーディオ再生/録音モジ ュール218は、オーディオバス220を介して電話ネットワークインターフェ イスモジュール210に送られるオーディオ信号を生成する。そして、電話ネッ トワークインターフェイスモジュール210はそのオーディオ信号を電話110 へ送る。この結果、電話110側にいるユーザは、電話110のスピーカで、オ ーディオファイル www-spr.ih.att.com/〜hastings/annc/greeting.mu8 の内容 を聞くことになる。 ライン514〜516はオーディオHTML命令である。オーディオインター プリタノード154はライン514をオーディオ処理ノード152に送らない。 ライン514は、ユーザからの応答が可変ネーム”collectvar”と関連したドキ ュメントサーバ160に送られることを示している。この命令は、ユーザが情報 を促されそして情報を与えるプロンプト−コレクト(collect)シーケンスの開 始を示すものである。この命令に続いて、プロンプト命令516および一組の選 択命令518〜522がある。オーディオインタープリタノード154はライン 512と同様なやり方でライン516を処理し、この結果、電話110側にいる ユーザは http://www-spr.ih.att.com/〜hastings/annc/choices.mu8 で同定さ れるファイルからの音を聞くことになる。この音はいくつかの基準に基づいて選 択をするようにユーザに尋ねるものであり、オーディオインタープリタノード1 54は電話110側のユーザからの応答を待つ。また、処理ライン516の結果 、中央処理装置302はオーディオ処理ノード152へ、電話ネットワークイン ターフェイスモジュール210がオーディオ入力を受け取る準備をするようにす るメッセージを送る。 そして、ユーザは電話110からのオーディオユーザ入力で応答する。オーデ ィオユーザ入力は、ユーザが電話110のキーパッド上のキーを押すことによっ て生成されるDTMFトーン形式であってよい。例えば、もしユーザが電話11 0のキーパッドの”2”を押すと、オーディオ処理ノード152は電話ネットワ ークインターフェイスモジュール210を介して”2”と関連したDTMFトー ン音を受け取る。かかるオーディオ信号は中央処理装置224によってDTMF トーン音として認識され、この信号をオーディオバス220を介してDTMFデ コーダ/ジェネレータ212に送るために命令が電話ネットワークインターフェ イスモジュール210に送られる。中央処理装置224は、DTMFトーン音を ディジタルデータに変換しさらにそのディジタルデータをパケットネットワーク インターフェイス230からオーディオインタープリタノード154へ送信する ように、DTMFデコーダ/ジェネレータ212に命令する。この信号が受信さ れると、オーディオインタープリタノード154は、ユーザの応答が”2”、つ まりオーディオHTMLドキュメント500のライン520に示された値”Ji m”の選択であることを認識する。つまり、オーディオインタープリタノード1 54は可変”collectvar”と関連した値”Jim”を、ドキュメント500のラ イン510で同定されるスクリプト http://machine:8888/hastings-bin/getscr ipt.sh.に送る。もしユーザの応答がリストされていないものを選択して入力す るものであれば、つまり本例で”1”から”3”以外の応答があれば、或いは所 定時間内にユーザが応答しなかったならば、オーディオインタープリタノード1 54は、「選択を受領できません。もう一度やり直してください」(イタリック 体)という音声信号を生成するようにテキスト−音声モジュール216に命令し 、そしてその信号が電話110側のユーザに送られる。 代替的には、オーディオユーザ入力は音声信号であってもよい。つまり、ユー ザが電話110のキーパッドの番号2を押す代わりに、ユーザは電話110のマ イクに「2」という語を話すのである。この音声信号は、電話ネットワークイン ターフェイスモジュール210を介してオーディオ処理ノード152に受信され る。そしてオーディオ信号は中央処理装置224によって音声信号であると認識 され、かかる信号をオーディオバス220を介して音声認識モジュール214に 送るために電話ネットワークインターフェイスモジュール210に命令が与えら れる。中央処理装置224は、音声信号をディジタルデータに変換しさらにこの ディジタルデータをオーディオインタープリタノード154に送信するためにパ ケットネットワークインターフェイス230へ与えるように、音声認識モジュー ル214に命令する。そしてオーディオインタープリタノード154は、ディジ タルデータを受け取ると、DTMFオーディオユーザ入力に関して説明したよう にこのデータを処理する。なお、音声認識モジュール214はこの技術分野では 周知の通常の音声認識技術にしたがって動作するものであることを付記しておく 。 HTMLドキュメントにはしばしばハイパーテキストリンクが存在する。これ が通常のグラフィカルブラウザを実行するコンピュータの画面に表示されるとき 、ハイパーテキストリンクはグラフィカルに示される(例えば、下線つきで)。 もしユーザが、例えばリンクをマウスでクリックすることにより、グラフィカル にリンクを選択した場合、ブラウザはリンクに示されたドキュメントについての 要求を生成し、その要求をドキュメントサーバに送る。ここで、図6に示された HTMLドキュメント600について考察する。ライン604、605は、ハイ パーテキストリンクの通常のHTML記述を詳細に示している。もしこのページ が通常のグラフィカルブラウザで処理されたならば、ディスプレイは以下のよう に見える。 This page gives you a choice of links to follow to other World W ide Web pages. Please click on one of the links below. (このページでは他のWWWのページへのリンクを選択できます。以下 のリンクのどれか1つをクリックして下さい) click here for information on cars (自動車の情報についてはここをクリック) click here for information on trucks (トラックの情報についてはここをクリック) そして、ユーザは、マウスのようなグラフィカルポインティングデバイスを用い てリンクの1つを選択する。もしユーザが click here for information on car s を選択すると、ブラウザはURL http://www.abc.com/cars.html で同定され るドキュメントについての要求を生成する。もしユーザが click here for info rmation on trucks を選択すると、ブラウザはURL http://www.abc.com/truc ks.html で同定されるドキュメントについての要求を生成する。 次に、本発明に従ったHTMLハイパーテキストリンクの処理について、図6 を参照して説明する。ここで、ドキュメントサーバ160が図6に示されたHT MLドキュメント600をオーディオインタープリタノード154に提供するこ とを仮定する。ライン602、603はテキスト−音声モジュール216によっ てオーディオ信号に変換され、上述のようにユーザの電話110に与えられる。 つまり、ユーザは、「このページでは他のWWWのページへのリンクを選択でき ます。以下のリンクのどれか1つをクリックして下さい」という音声を聞く。ラ イン604では、ライン604がハイパーテキストリンクであるとオーディオイ ンタープリタノード154が認識する。オーディオインタープリタノード154 はオーディオ処理ノード152に対して、電話110へのトーン音をDTMFデ コーダ/ジェネレータ212が生成するようにする命令を送る。或いは、このト ーン音は、オーディオインタープリタノード154が、オーディオ再生/録音モ ジュール218にトーン音を含むオーディオファイルを再生させるようにする命 令を、オーディオ処理ノード152に送ることによっても生成される。ハイパー テキストリンクの始まりをユーザに知らせるために、この特有のトーン音が用い られる。そして、オーディオインタープリタノード154は、テキストがテキス ト−音声モジュール216で処理されることを示す命令とともに、ハイパーテキ ストリンクのテキスト(click here for information on cars)をオーディオ処 理ノード152に与える。この結果、「自動車の情報についてはここをクリック 」という音声信号が電話110に与えられる。そして、オーディオインタープリ タノード154は、電話110へのトーン音をDTMFデコーダ/ジェネレータ 212が生成するようにする命令をオーディオ処理ノード152に送る。ハイパ ーテキストリンクの終了をユーザに知らせるために、この特有のトーン音が用い られる。ハイパーテキストリンクの始まりおよび終了をユーザに知らせるために 用いられるトーン音は同じトーン音でもよいし異なるトーン音でもよい。終了ト ーン音に引き続いて休止が置かれる。トーン音を用いる代わりに、ハイパーテキ ストリンクの始まりおよび終了が、「リンク開始[ハイパーテキスト]リンク終 了」のような音声信号で識別されてもよい。 もしユーザがリンクをたどることを希望する場合、ユーザは休止期間にユーザ オーディオ入力を供給する。例えば、ユーザがリンク”click here for informa tion on cars ”をたどることを望むものとする。ユーザは、リンクについて生成 された音声信号に引き続く休止期間内にオーディオ入力を入力する。オーディオ 入力は、例えば、電話110のキーパッド上のキーを押すことで生成されるDT MFトーン音であってよい。DTMFトーン音はオーディオ処理ノード152に 受信され、さらにDTMFデコーダ/ジェネレータ212によって処理される。 DTMFトーン音を表すデータは、制御/データバス222、パケットネットワ ークインターフェイス230、およびリンク153を介してオーディオインター プリタノード154に与えられる。オーディオインタープリタノード154は、 この信号を受け取ると、選択されたリンクに続く休止期間内に信号が受け取られ たことを認識し、そして、オーディオインタープリタノード154は、選択され たリンクに関連したURL http://www.abc.com/cars.html で同定されるWWW ドキュメントについての要求を生成する。或いは、ハイパーテキストリンクを選 択するためのオーディオユーザ入力は、音声信号であってもよい。 リンクの別のタイプとして、ハイパーテキストアンカーリンク(anchor link )がある。アンカーリンクは、1つのHTMLドキュメント内の特定の場所にユ ーザがジャンプできるようにするものである。通常のグラフィカルブラウザでは 、ユーザがアンカーリンクを選択したとき、ブラウザはリンクで指示されたドキ ュメントの一部を表示する。本発明のオーディオブラウジング技術によると、ユ ーザがアンカーリンクを選択したとき、オーディオインタープリタノード154 はリンクで指定された個所のドキュメントを翻訳し始める。例えば、ドキュメン ト600のライン620は、このドキュメントのライン625の部分へのハイパ ーテキストアンカーを含んでいる。このハイパーテキストリンクは、上述のよう に、新たなHTMLドキュメントを同定するハイパーテキストリンクと同様にユ ーザに識別される。ハイパーテキストアンカーリンクは、例えば、リンクがアン カーリンクであることを示す異なるオーディオトーン音または生成された音声信 号によって区別されるものであってよい。もしユーザがライン620でアンカー リンクを選択すると、オーディオインタープリタノード154はライン625の テキストにスキップし、そこのHTMLドキュメント600を翻訳し始める。 図1に関連して説明した有利な実施の形態は、オーディオ処理ノード152と オーディオインタープリタノード154とを含むオーディオブラウジング補助部 150が、長距離通信ネットワーク102内に位置する通信ネットワークノード 内に具体化されるようにしたものである。このようにすることで、本発明による オーディオブラウジング機能を、電話ネットワーク102サービス提供者が電話 ネットワーク加入者に提供することができるようになる。かかる構成では、ユー ザの構内設備またはドキュメントサーバに付加的なハードウェアが必要になるこ とがない。全てのオーディオブラウジング機能が電話ネットワーク102内の構 成要素によって提供される。しかしながら、このほかの構成とすることも可能で あり、かかる代替的な構成はここでの開示により当業者が容易に実施できるもの である。 かかる代替的構成の1つが図7に示されており、オーディオブラウジング補助 部の機能が図示のユーザインターフェイス装置700において実行される。この 実施の形態では、オーディオ処理ノード152の機能およびオーディオインター プリタノード154の機能は、ユーザインターフェイス装置700内に1つにま とめられている。ユーザインターフェイス装置700は、通信リンク702を介 してドキュメントサーバ160と通信する。リンク702は図1に関して説明し たリンク164と同様である。つまり、リンク702はTCP/IPに対するソ ケット接続であってよく、その確立はこの技術分野では周知である。ユーザイン ターフェイス装置700の詳細が図8に示されている。ユーザインターフェイス 装置700は、ユーザ入力を受け付けるためのキーパッド/キーボード802お よびマイク804と、オーディオ出力をユーザに提供するためのスピーカ806 とを備えている。また、ユーザインターフェイス装置700は、制御/データバ ス824に接続されたキーパッド/キーボードインターフェイスモジュール81 6をも備えている。さらに、ユーザインターフェイス装置700は、コーデック (codec)810と 音声認識モジュール818と、テキスト−音声モジュール 820と、オーディオ再生/録音モジュール822とを備えており、図8に示す ように、それぞれがオーディオバス808と制御/データバス824とに接続さ れている。コーデック810は、アナログ−ディジタルコンバータ812とディ ジタル−アナログコンバータ814とを含んでおり、これら両方は制御/データ バス824を介して中央処理装置826によって制御される。アナログ−ディジ タルコンバータ812は、マイク804からのアナログオーディオユーザ入力を ディジタルオーディオ信号に変換し、そのディジタルオーディオ信号をオーディ オバス808に与える。ディジタル−アナログコンバータ814は、オーディオ バス808からのディジタル信号を、スピーカ806から送出されるアナログオ ーディオ信号に変換する。キーパッド/キーボードインターフェイスモジュール 816は、キーパッド/キーボード802からの入力を受け取り、その入力を制 御/データバス824に与える。音声認識モジュール818、テキスト−音声モ ジュール820、およびオーディオ再生/録音モジュール822は、図2に関連 して説明したモジュール214、216および218とそれぞれ同じ機能を実行 し、これらと同様に構成されている。さらに、ユーザインターフェイス装置70 0は、リンク702を介してインターネットのようなパケットネットワークに接 続するためのパケットネットワークインターフェイス834を含んでいる。さら に、ユーザインターフェイス装置700は、それぞれ制御/データバス824に 接続された、中央処理装置826およびメモリ装置828を含んでいる。ユーザ インターフェイス装置700の全体としての機能は、中央処理装置826によっ て制御される。中央処理装置826は、メモリ装置828に記憶されて実行され るコンピュータプログラム命令830の制御のもとで動作する。メモリ装置82 8はデータ832をも含んでいる。 ユーザインターフェイス装置700は、図1の実施の形態と関連して説明した オーディオ処理ノード152およびオーディオインタープリタノード154の機 能を実行する。これらの機能は、コンピュータプログラム命令830を実行する 中央処理装置826によって実行される。つまり、コンピュータプログラム命令 830は、(1)オーディオ処理ノード152の機能を実行するコンピュータプ ログラム命令232、および(2)オーディオインタープリタノード154の機 能を実行するコンピュータプログラム命令312、と同じまたは類似のプログラ ム命令を含むものである。オーディオ処理ノード152およびオーディオインタ ープリタノード154の機能は前に詳しく説明したので、ここではこれ以上詳細 には述べない。中央処理装置826は、複数の処理を同時に実行することができ 、これにより、オーディオ処理ノード152およびオーディオインタープリタノ ード154の機能を実行する。このマルチ処理機能が図8に描かれており、そこ では中央処理装置826がオーディオ翻訳/ブラウジング処理836とオーディ オプロセス処理838とを行うものとして示されている。 動作において、ユーザインターフェイス装置700のユーザは、キーパッド/ キーボード802またはマイク804を用いてURLを要求する。もしキーパッ ド/キーボード802がURLの要求に用いられたならば、キーパッド/キーボ ードインターフェイスモジュール816が要求されたURLを制御/データバス 824を介して中央処理装置826に与える。もしマイク804がURLの要求 に用いられたならば、ユーザの声はマイク804で受信され、アナログ−ディジ タルコンバータ812でディジタル化され、オーディオバス808を介して音声 認識モジュール818に与えられる。そして、音声認識モジュール818は、要 求されたURLを制御/データバス824を介して中央処理装置826に与える 。 中央処理装置826は、URLを受信すると、オーディオ翻訳/ブラウジング 処理836で例示されたオーディオブラウジング/翻訳セッションを開始する。 オーディオ翻訳/ブラウジング処理836は、図1の実施の形態に関連して説明 したのと類似のやり方で、パケットネットワークインターフェイス834を介し てドキュメントサーバ160にHTTP要求を送る。ドキュメントサーバ160 からドキュメントを受け取ると、オーディオ翻訳/ブラウジング処理836は、 本発明のオーディオブラウジング技術に従ってドキュメントを翻訳する。このド キュメントの翻訳によって生じた音は、オーディオプロセス処理838の制御に よりスピーカ806からユーザに与えられる。同様に、ユーザインターフェイス 装置700のユーザは、マイク804を介してユーザインターフェイス装置にオ ーディオユーザ入力を与えることができる。 オーディオ翻訳/ブラウジング処理836およびオーディオプロセス処理83 8はともにユーザインターフェイス装置700内にあるから、2つの処理の間の 全ての通信は中央処理装置826を通して処理間通信によって行われ、処理83 6、838とユーザインターフェイス装置700の他の要素との間の全ての通信 は制御/データバス824を介して行われる。 図7および図8は、パケットネットワーク162内のドキュメントサーバ16 0と直接通信しているユーザインターフェイス装置700を示している。或いは 、ユーザインターフェイス装置700は標準的な電話接続を介してドキュメント サーバ160と通信するようにされていてもよい。かかる構成において、パケッ トネットワークインターフェイス834の代わりに、制御/データバス824を 介して中央処理装置826に制御される電話インターフェイス回路を用いてもよ い。ユーザインターフェイス装置700は、電話ネットワークを介してドキュメ ントサーバへ電話をする。ドキュメントサーバ160は、電話ネットワークイン ターフェイスモジュール210(図2)と類似のハードウェアを用いてユーザイ ンターフェイス装置700からの通話呼び出しを着信する。或いは、ドキュメン トサーバ160へのパケットネットワーク接続を提供する終端点(termination poin t)により、電話ネットワーク内で通話呼び出しが着信され得る。 図9に示す別の構成では、オーディオブラウジング補助部150の機能(オー ディオ処理ノード152およびオーディオインタープリタノード154の機能を 含んでいる)並びにドキュメントサーバ160の機能が、オーディオブラウジン グドキュメントサーバ900内で実行される。図9に描かれているように、通話 呼び出しは電話110から、LEC120、スイッチ130、別のLEC902 を経てオーディオブラウジングドキュメントサーバ900へルート指定される。 つまり、この実施の形態では、通常の電話110から電話ネットワークを介して オーディオブラウジングドキュメントサーバ900に到達することができる。さ らに、オーディオブラウジングドキュメントサーバ900は、リンク904を介 してインターネットにも接続されている。オーディオブラウジングドキュメント サーバ900の詳細が図10に示されている。オーディオブラウジングドキュメ ントサーバ900は、電話ネットワークインターフェイスモジュール1010と 、DTMFデコーダ/ジェネレータ1012と、音声認識モジュール1014と 、テキスト−音声モジュール1016と、オーディオ再生/録音モジュール10 18とを備えており、図10に示すように、これらのそれぞれはオーディオバス 1002および制御/データバス1004に接続されている。これらモジュール 1010、1012、1014、1016、および1018は、図2に関連して 説明したモジュール210、212、214、216、および218とそれぞれ 同じ機能を実行するものであり、これらと同様に構成されている。さらに、オー ディオブラウジングドキュメントサーバ900は、リンク904を介してインタ ーネットのようなパケットネットワークに接続するためのパケットネットワーク インターフェイス1044を含んでいる。パケットネットワークインターフェイ ス1044は、図2に関連して説明したパケットネットワークインターフェイス 230と同様なものである。また、オーディオブラウジングドキュメントサーバ 900は、中央処理装置1020とメモリ装置1030とを含んでおり、これら 両方は制御/データバス1004に接続されている。オーディオブラウジングド キュメントサーバ900の全体としての機能は、中央処理装置1020によって 制御される。中央処理装置1020は、メモリ装置1030に記憶されて実行さ れ るコンピュータプログラム命令1032の制御のもとで動作する。メモリ装置1 030は、データ1034、HTMLドキュメント1036、オーディオHTM Lドキュメント1038、オーディオファイル1040、およびグラフィックフ ァイル1042をも含んでいる。 オーディオブラウジングドキュメントサーバ900は、図1の実施の形態に関 連して説明した、オーディオ処理ノード152と、オーディオインタープリタノ ード154と、ドキュメントサーバ160との機能を実行する。これらの機能は 、コンピュータプログラム命令1032を実行する中央処理装置1020によっ て行われる。つまり、コンピュータプログラム命令1032は、(1)オーディ オ処理ノード152の機能を実行するコンピュータプログラム命令232、(2 )オーディオインタープリタノード154の機能を実行するコンピュータプログ ラム命令312、および(3)ドキュメントサーバ160の機能を実行するコン ピュータプログラム命令416、と同じまたは類似のプログラム命令を含むもの である。オーディオ処理ノード152、オーディオインタープリタノード154 、およびドキュメントサーバ160の機能は前に詳しく説明したので、ここでは これ以上詳細には述べない。中央処理装置1020は、複数の処理を同時に実行 することができ、これにより、オーディオ処理ノード152、オーディオインタ ープリタノード154およびドキュメントサーバ160の機能を実行する。この マルチ処理機能が図10に描かれており、そこでは中央処理装置1020がオー ディオ翻訳/ブラウジング処理1022とドキュメント供給処理1024とオー ディオプロセス処理1026とを行うものとして示されている。 動作において、電話110からオーディオブラウジングドキュメントサーバ9 00を介してアクセス可能な情報に関連した電話番号への通話呼び出しは、LE C120、スイッチ130、およびLEC902を介してオーディオブラウジン グドキュメントサーバ900にルート指定される。なお、複数の電話番号がオー ディオブラウジングドキュメントサーバ900を介してアクセス可能な種々の情 報に関連付けられていてよく、その各電話番号がオーディオブラウジングドキュ メントサーバ900にルート指定されることを付記しておく。呼び出しのあった 回線は、オーディオプロセス処理1026の制御のもとで電話ネットワークイン ターフェイスモジュール1010を介して検出される。通話呼び出しが検出され ると、中央処理装置1020は、ダイアルされた番号(DN)と関連したURL を決定するために参照を行う。DNは、この技術分野で周知の方法によりLEC 902からオーディオブラウジングドキュメントサーバ900に与えられる。D Nとその関連URLのリストはメモリ1030内にデータ1034として記憶さ れている。DNと関連したURLを受け取ると、中央処理装置1020は、オー ディオ翻訳/ブラウジング処理1022で例示されたオーディオブラウジング/ 翻訳セッションを開始する。オーディオ翻訳/ブラウジング処理1022は、中 央処理装置1020に共存するドキュメント供給処理1024にHTTP要求を 送る。ドキュメント供給処理1024は、図1に示した実施の形態のドキュメン トサーバ160と関連して説明したドキュメントサーバ機能を実行する。これら ドキュメントサーバ機能は、メモリ1030に記憶された、HTMLドキュメン ト1036、オーディオHTMLドキュメント1038、オーディオファイル1 040、およびグラフィックファイル1042によってサポートされる。これに より、中央処理装置1020は、URLと関連したドキュメントをメモリ103 0から取り出すこととなる。そして、オーディオ翻訳/ブラウジング処理102 2は、本発明のオーディオブラウジング技術に従ってドキュメントを翻訳する。 このドキュメントの翻訳で生じた音は、オーディオプロセス処理1026の制御 によりユーザに与えられる。同様に、電話110のユーザは、図1の実施の形態 と関連して説明したのと同様なやり方で、オーディオブラウジングドキュメント サーバ900にオーディオユーザ入力を与えることができる。 オーディオ翻訳/ブラウジング処理1022、ドキュメント供給処理1024 およびオーディオプロセス処理1026はともにオーディオブラウジングドキュ メントサーバ900内にあるから、処理1022、1024、1026間の全て の通信は中央処理装置1020を通して処理間通信によって行われ、処理102 2、1024、1026とオーディオブラウジングドキュメントサーバ900の 他の要素との間の全ての通信は制御/データバス1004を介して行われる。本 実施の形態の1つの利益は、HTMLドキュメントおよび他のデータが処理(例 えば、翻訳)のために潜在的に不確かな広域ネットワークを通過する必要がない という点で効率がよいことである。 図1に示した実施の形態では、オーディオ処理ノード152およびオーディオ インタープリタノード154は並置されていた。しかしながら、オーディオ処理 ノード152およびオーディオインタープリタノード154の機能は、図11に 示すように地理的に分離されてもよい。かかる実施の形態では、オーディオ処理 ノード152が通信ネットワーク102内に含まれており、オーディオインター プリタドキュメントサーバ1100がパケットネットワーク162内に含まれて いる。オーディオ処理ノード152の機能は、図1に関連して説明したのと同様 である。ドキュメントサーバ160のようなドキュメントサーバの機能とオーデ ィオインタープリタノード154の機能とを実行するオーディオインタープリタ ドキュメントサーバ1100の詳細が、図12に示されている。オーディオイン タープリタドキュメントサーバ1100は、リンク153および制御/データバ ス1204に接続されたパケットネットワークインターフェイス1202を含ん でいる。また、オーディオインタープリタドキュメントサーバ1100は、中央 処理装置1206とメモリ装置1212とを含んでおり、これら両方が制御/デ ータバス1204に接続されている。オーディオインタープリタドキュメントサ ーバ1100の全体としての機能は、中央処理装置1206によって制御される 。中央処理装置1206は、メモリ装置1212に記憶されて実行されるコンピ ュータプログラム命令1214の制御のもとで動作する。メモリ装置1212は 、データ1216、HTMLドキュメント1218、オーディオHTMLドキュ メント1220、オーディオファイル1222、およびグラフイックファイル1 224をも含んでいる。 オーディオインタープリタドキュメントサーバ1100は、図1の実施の形態 に関連して説明した、オーディオインタープリタノード154とドキュメントサ ーバ160との機能を実行する。これらの機能は、コンピュータプログラム命令 1214を実行する中央処理装置1206によって行われる。つまり、コンピュ ータプログラム命令1214は、(1)オーディオインタープリタノード154 の機能を実行するコンピュータプログラム命令312、および(2)ドキュメン トサーバ160の機能を実行するコンピュータプログラム命令416、と同じま たは類似のプログラム命令を含むものである。オーディオインタープリタノード 154およびドキュメントサーバ160の機能は前に詳しく説明したので、ここ ではこれ以上詳細には述べない。中央処理装置1206は、複数の処理を同時に 実行することができ、これにより、オーディオインタープリタノード154およ びドキュメントサーバ160の機能を実行する。このマルチ処理機能が図12に 描かれており、そこでは中央処理装置1206がオーディオ翻訳/ブラウジング 処理1208とドキュメント供給処理1210とを行うものとして示されている 。 動作において、オーディオ処理ノード152は、図1に関連して説明したのと 同様のやり方で、リンク153を介してオーディオインタープリタドキュメント サーバ1100と通信する。しかし、オーディオインタープリタノード154が リンク164を介してドキュメントサーバと通信する図1とは異なり、オーディ オ翻訳ブラウジング処理1208は処理間通信により中央処理装置1206を介 してドキュメント供給処理1210と通信する。 よって、以上説明したように、本発明のオーディオブラウジングは、オーディ オ処理機能、オーディオ翻訳/ブラウジング機能、およびドキュメント供給機能 が特定の構成に応じて一体または分離されるというように、様々な形態で実現す ることができる。当業者は、他の構成によっても本発明のオーディオブラウジン グ機能が提供されることを認めるであろう。 以上の記述から分かるように、本発明は、通常のグラフィックブラウザととも に用いられるようにされた標準的なHTMLドキュメントとともに、または本発 明の特徴であるオーディオブラウジングに用いられるように特に生成されたオー ディオHTMLドキュメントとともに用いられる。 標準的なHTMLドキュメントのオーディオ翻訳については、多くの標準的な テキスト−音声変換技術が用いられてよい。次のセクションでは、標準的なHT MLドキュメントをオーディオデータに変換するために用いられる技術について 説明する。ここで説明するHTMLドキュメントをオーディオデータに変換する 技術は説明のためのものに過ぎず、当業者はHTMLドキュメントをオーディオ 信号に変換する他の様々な技術を容易に実行することが可能である。 標準的なテキスト文書は、周知である通常のテキスト−音声変換技術を用いて 翻訳される。テキストはドキュメント内で出会ったときに翻訳され、このような 翻訳はユーザがオーディオ入力(例えば、プロンプトに答えるためまたはリンク をたどるため)を供給するまで、或いはドキュメント内でプロンプトに到達する まで続けられる。ある文章の終わりは、音に休止を付加することで翻訳され、パ ラグラフマーク<p>は長い休止を挿入することで翻訳される。テキスト様式は 、以下のように翻訳されてよい。 イメージ命令は、特定のイメージがドキュメント内に挿入されることを示すH TMLの仕様である。HTMLイメージ命令の一例は、以下のようなものである 。 <IMG SRC="http://machine.att.com/image.gif" ALT="[image of car]"> この命令は、URLで定義された機械からイメージファイル”image.gif”が 取り出され、それがクライアントのブラウザで表示されることを示している。あ る通常のグラフィックブラウザはイメージファイルをサポートしておらず、その ためHTMLイメージ命令はイメージの代わりに表示される代替テキストを含む ことがある。つまり、上述の例では、”image of car”というテキストがイメー ジファイルの代わりに含まれる。本発明のオーディオブラウジング技術によると 、イメージ命令が代替テキストを含むものであれば、そのテキストは処理されて 音声に変換され、その音声信号がユーザに提供される。つまり、この例では、” image of car”「自動車のイメージ」という音声信号が電話110側のユーザに 提供される。もし、代替テキストが提供されなければ、代替テキストのないイメ ージに遭遇したことを示す音声信号(例えば、「代替説明のない写真です」)が 生成される。 通常のHTMLは、ユーザ入力の入力(entering)をサポートする命令を含ん でいる。例えば、以下の命令、 <SELECT NAME="selectvar"> <OPTION> mary <OPTION SELECTED> joe <OPTION> </SELECT> は、ジョー(joe)がデフォールトのオプションとされているときに、マリー(m ary)とジョーという2つのオプションからのユーザが選択することを要求する ものである。クライアントが通常のグラフィカルブラウザを実行する際、これら のオプションは例えばプルダウンメニューとして表されてよい。本発明のオーデ ィオブラウジング技術によると、上記の命令は、以下のような音声信号に翻訳さ れる。 「以下のうちの1つを選んでください。メリー(休止)、現在選択されて いるジョー(休止)、オプションの終了。オプションをもう一度繰り返すには * r、次に行くには # を押してください」 もしあるオプションの後の休止期間にユーザがパウンドキー(pound key)を押 すと、そのオプションが選択される。どのアイテムが選択されても、ユーザが次 に進むことを選択したときは、可変な選択変数(selectvar)と関連したドキュ メントサーバに戻る。ユーザがDTMF信号で選択する代わりに、ユーザが音声 信号で選択を行なってもよい。 ユーザ入力を入力する別の通常のHTML命令は、チェックボックス命令であ る。例えば、以下のような一連の命令、 <INPUT TYPE="checkbox" NAME="varname"VALUE="red" CHECKED> <INPUT TYPE="checkbox" NAME="varname"VALUE="blue"> <INPUT TYPE="checkbox" NAME="varname"VALUE="green"> は、通常のグラフィックブラウザでは以下のように表示される。 赤(red) □ 青(blue) □ 緑(green) □ デフォールトでは赤のボックスがチェックされている。ユーザは、青または緑 のボックスをチェックすることでこのデフォールトを変更することが可能である 。本発明のオーディオブラウジング技術によると、上記一連の命令は、ユーザに 与えられる以下のような音声信号に翻訳される。 「以下の選択は休止期間に # を押せば変えられます。現在選択されてい る赤(休止)、青(休止)、緑(休止)。このリストをもう一度繰り返すには * r、次に行くには # を押してください」 休止期間に # を押してDTMF信号を生成すると、ユーザは休止期間の前にあ るアイテムを選択することができる。# キーをもう一度押すと、ユーザは一連の 入力動作から抜け出すことができる。ユーザがオプションのリストをもう一度繰 り返したいときには *r を押せばよい。DTMF信号入力の代わりに、ユーザが 音声信号入力を用いてチェックボックスオプションを選択するようにしてもよい 。 通常のHTMLドキュメントは、以下のような TEXTAREA 命令を用いてユーザ にテキスト入力を要求することができる。 <TEXTAREA COLS=60 ROWS=4 NAME="textvar">ここにテキストを挿入してく ださい </TEXTAREA> これにより、通常のグラフィックブラウザでは、「ここにテキストを挿入してく ださい」というテキストに続いて、テキスト入力のためにユーザに与えられた6 0行4列のテキストボックスが表示されることになる。本発明のオーディオブラ ウジング技術によると、上記命令は以下のように翻訳される。COL および ROWS というパラメータは無視され、 「ここにテキストを挿入してください」 という音声がユーザに与えられる。そして、ユーザはDTMFトーン音に続いて # 信号を入力することができる。これらDTMF信号は、変数”textvar”と関 連したドキュメントサーバに与えられる結果により処理される。或いは、ユーザ は電話110のマイクに応答を話すことでテキストを与えることができ、その音 声は音声認識モジュール214でデータに変換され、そのデータが変数”textva r”と関連したドキュメントサーバ160に与えられる。 以上の記述から分かるように、通常のHTMLドキュメントが本発明のオーデ ィオブラウジング技術によりブラウズされ得るように様々な技術を用いることが できる。 本発明によるオーディオブラウジングの利益をより十分に明らかにするために 、通常のHTML命令に加えて付加的なドキュメント命令が用いられてもよい。 オーディオHTML命令といわれるこれらの命令が、通常のHTMLドキュメン トに導入されてもよい。これらのオーディオHTML命令を以下で説明する。 音声源命令、 <VOICE SRC="//www.abc.com/audio.file"> によると、特定されたファイルがユーザに対して再生される結果となる。かかる 命令は、図5に例示したドキュメント500のライン512に詳細に記載されて いる。 ネームコレクト命令、 <COLLECT NAME="collectvar"> はプロンプトおよびコレクトシーケンスの開始を指定している。かかるコレクト ネーム命令の後には、プロンプト命令および1組の選択命令が続く。ユーザが選 択を行うと、オーディオユーザ入力で示されたように、ユーザの選択の結果は可 変コレクト変数(collectvar)と関連したドキュメントサーバに与えられる。コ レクトネーム命令は、関連するプロンプトおよびコレクトシーケンスとともに、 図5に例示したドキュメント500のライン514〜524に詳細に説明されて いる。 DTMF入力命令、 <INPUT TYPE="DTMF" MAXLENGTH="5" NAME=varname> は、DTMF信号形式のオーディオユーザ入力がユーザから予期されることを示 している。この命令はオーディオブラウジング補助部150を休止させユーザか らのDTMF入力を待機するようにする。ユーザは電話110のキーパッドにあ るキーを押すことによってDTMFシーケンスを入力し、# キーを押すことでシ ーケンスの終了を指示する。DTMF入力は、例示したHTMLドキュメント5 00について上述したように処理される。そして、デコードされたDTMF信号 は、可変ネーム(varname)と関連したドキュメントサーバに与えられる。MAXLE NGTH パラメータは、入力可能な最大長(DTMF入力)を示す。もしユーザが DTMFキー(この例では5)の最大数を超えて入力すると、システムは超過し た入力を無視する。 同様に、SPEECH 入力命令、 <INPUT TYPE="SPEECH" MAXLENGTH="5" NAME=varname> は、音声信号形式のオーディオユーザ入力がユーザから予期されることを示して いる。この命令はオーディオブラウジング補助部150を休止させユーザからの DTMF音声入力を待機するようにする。ユーザは電話110のマイクに向かっ て話して音声信号を入力する。音声入力は、例示したHTMLドキュメント50 0について上述したように処理される。そして、音声信号は、可変ネームと関連 したドキュメントサーバに与えられる。MAXLENGTH パラメータは、音声入力の最 大長が5秒であることを示す。 ここで説明したオーディオHTML命令は、本発明のオーディオブラウジング 技術の利益を利用するために実行されうるオーディオHTMLのタイプの例であ る。当業者は別のタイプのオーディオHTML命令を容易に実行することができ る。 上述のオーディオHTML命令に加えて、オーディオブラウジング補助部15 0は様々なナビゲーション命令をサポートしている。通常のグラフィックブラウ ザでは、ユーザはドキュメントによりナビゲーションするための通常の技術を用 いてもよい。このような通常の技術は、ドキュメントをスクロールするためのテ キストスライダと、カーソル動作と、ページアップ、ページダウン、ホーム、お よびエンドのような命令とを含んでいる。本発明のオーディオブラウジング技術 によると、以下のように、ユーザは、DTMFトーン形式または音声形式のいず れかのオーディオユーザ入力を用いてドキュメントをナビゲートしてもよい。 以上の詳細な説明は、全ての点について実例となる典型的なものであって限定 的なものと理解されるものではなく、ここで開示する発明の範囲は詳細な説明か らではなく、特許法に許される最大限の範囲に解釈される請求の範囲によって決 定されるものである。また、ここで示し説明した実施の形態は本発明の原則を例 示しただけのものであり、当業者は本発明の範囲および特徴から離れることなく 様々な設計変更を行なってもよいことが理解される。例えば、ここではパケット スイッチ通信チャネルのような通信チャネルについて説明したが、回路スイッチ 通信チャネルのような通信チャネルでの実行も可能である。 (注2) ここで電話番号は説明のためだけに用いたものである。いかなる特定 の電話番号を用いることも本発明の実例として以外に何ら意味を持つものではな い。また、実際の電話番号を意味するものではない。 (注3) ここでイタリック体はテキストが音声として再生されることを示すた めに用いられる。DETAILED DESCRIPTION OF THE INVENTION Method and apparatus for extracting information using audio interface Field of the invention The present invention relates generally to information retrieval. More specifically, the invention relates to audio The present invention relates to extracting information from a network using a user interface. Background of the Invention The amount of information on communication networks is enormous and rapidly increasing. You. The most common of these networks is that computers around the world are The Internet is a linked network. Internet Most of the high penetration of the Internet is based on the Internet's World Wide Web (WW). W) could be attributed to the section. WWW is a server computer and The information to and from the client computer is usually a hypertext transfer protocol ( A part of the Internet that is exchanged using HTTP. Server is Stores information and responds to requests from clients. Supply (ie, send). Client requests and displays information Run computer software programs, often referred to as browsers You. Examples of WWW browsers include Netscape Communication s lnc. ) Netscape Navigator and microphone Microsoft Corp. ) Internet Explorer Explorer). The server and the information stored therein are URL (Uniform Resource Locators) ). The URL is Berners-Lee, T. “U” niform Resource Locators ”(RFC1738, Network Working Group, 1994) Is described in It is incorporated herein by reference. For example, http: // www. hostname. com / document1. The html (Note 1) URL is "document 1. html ”is stored on the host server“ www. hostname. com ” Show doing. That is, the request for information from the client to the host server is RL. The information passed from the server to the client is usually documented It is said to be Such documents are in HTML (Hypertext Markup Language) ) Is generally described in a document language. client Receives the request from the server, the server sends the HTML document to the client. You. HTML documents provide information to the user on a computer display screen. Contains information used by the browser to display the. HTML document Text, logical structure commands, hypertext links, and user input May include force commands. When the user opens the hypertext link from the display Browser (for example, by clicking the mouse) Request another document from the server. Current WWW browsers use text and graphical user interfaces. Based on chair. That is, the document is imaged on the computer screen. As shown. Such images can be, for example, text, graphics, It includes a text link and a dialog box for user input. You All user interaction with the WWW is a graphical user Through the user interface. Audio data is stored in the user's computer. Data can be received and played back (for example, ". wav ”or“. au ”file), Receiving audio data is done through a WWW graphical interface. Is just a side effect. In other words, audio data is the result of the user's request. May be transmitted as a result, but the user may use the audio interface to There is no means to interact with the WW. (Note 1) The URLs mentioned in the examples are used for explanation only. The squid The use of a particular URL has no meaning other than as an example of the present invention. is not. Also, it does not mean an actual URL. Summary of the Invention The present invention uses an audio interface device (for example, a telephone) to A method and apparatus for retrieving information from a ment server are provided. Also, throb Documents from a document server operating according to the document delivery protocol Is provided. This interpreter uses the documentation Into audio data given to the audio user interface ( interpret). Also, the interpreter is an audio interface device Receive audio user input from Also, the interpreter will User input to the document server according to the document delivery protocol It translates this data into user data suitable for transmission and Document server. In many embodiments, the interpreter Must be located in the audio user interface or in the document server. Or between the audio user interface and the document server May be located in a communication channel between them. According to one embodiment, the audio browsing function of the present invention Communication network nodes to perform such as long distance telephone network It is included as a node in the communication network. Audio interface An audio channel is established between the device and the node. In addition, nodes and Document supply protocol channel is established with the document server. . The node is served to the document server according to the document serving protocol. Received the document, and then send the document to the audio user interface. -Translate to audio data suitable for the face. And the node Audio data to the audio interface device via Send Also, the node receives audio from the audio interface device. Receives user input (eg, DTMF tone or voice) and outputs the audio Translates user input into user data suitable for the document server. In addition, The document shall document its user data according to the document supply protocol. Send to server. In one embodiment, the document server includes a hypertext transfer protocol. World Wide Web document server that communicates with clients via It is. The advantage of the present invention is that the user can Audio browsing session with World Wide Web document server That you can take action. World Wide Web Document Service The browser can handle this browsing session in the usual way, Browsing session runs on a regular graphical browser Started by the audio interface device. You don't need to know if you were hit. Necessary translation function is communication network node These functions are performed by the user using the audio translator and by the hypervisor. -World Wide Web documents that operate according to the text transfer protocol This is done in a way that is not known to any of the server. These and other advantages of the present invention are described with reference to the following detailed description and accompanying drawings. Will be apparent to those skilled in the art. BRIEF DESCRIPTION OF THE FIGURES FIG. 1 is a diagram illustrating a communication system suitable for carrying out the present invention. FIG. 2 is a block diagram of components of the audio processing node. FIG. 3 is a block diagram of components of the audio interpreter node. FIG. 4 is a block diagram of the document server. FIG. 5 is a diagram illustrating an example of an audio HTML document. FIG. 6 is a diagram illustrating an example of an HTML document. FIG. 7 shows that the audio browsing function is performed on the user interface device. FIG. 2 is a block diagram of one embodiment. FIG. 8 is a block diagram of components of the user interface device of FIG. FIG. 9 shows the audio browsing function of the audio browsing document. FIG. 3 is a block diagram of an embodiment executed by a server. FIG. 10 is a block diagram of the components of the audio browsing document server of FIG. It is a lock figure. FIG. 11 shows that the audio translation function is an audio interpreter document server. FIG. 3 is a block diagram of an embodiment executed in a server. FIG. 12 is a block diagram of the audio interpreter document server shown in FIG. It is a block diagram of. Detailed description FIG. 1 is a diagram illustrating a communication system 100 suitable for implementing the present invention. An example For example, an audio interface device such as telephone 110 It is connected to a rear (LEC) 120. Audio interface device Something other than a telephone can be used. For example, the audio interface The source device may be a multimedia computer with telephony capabilities. Book According to the invention, the user of the telephone 110 may be, for example, a document server 160. A phone number associated with the information provided by the appropriate document server. In the exemplary embodiment shown in FIG. 1, the document server 160 communicates It is a part of the network 162. In an advantageous embodiment, the communication network 1 Reference numeral 62 denotes the Internet. Like document server 160 The telephone number associated with the information accessible through the document server Special communication networks such as audio browsing assistant (adjunct) 150 Network nodes are set to be routed. In the embodiment shown in FIG. The audio browsing assist unit 150 is a communication device that is a long-distance telephone network. A node in the network 102. Therefore, the call is LE Routed to C120, LEC 120 further routes the call to trunk 1 25 to the long distance carrier switch 130. Long distance network Network 102 is similar to switch 130 for routing call calls. It is common to have other switches. However, for simplicity, FIG. Shows only one switch. Switch 13 in communication network 102 0 is an “intelligent” switch that can be programmed to perform various functions. (Or processing unit 1) 31). In this way, the processing unit is installed in the communication network switch. The use of and programming it is well known in the art. You. When a call is received by switch 130, the call is Routed to the browsing aid 150. As a result, the telephone 110 and Ode An audio channel is established with the browsing assistant 150. communication Routing calls over a network is a technology in the art. It is well known and will not be described further here. In one embodiment, the audio browsing service according to the present invention comprises a communication Audio browsing provided by a service provider on network 102 It is provided only to users who have subscribed to the aging service. In such an embodiment The database 140 connected to the switch 130 contains a list of subscribers In. Switch 130 determines whether the call was placed from the subscriber to the server The database 140 is referred to in order to determine One way to achieve this The method stores a list of calling telephone numbers (ANI) in database 140 It is to keep. In a well-known manner, the LEC 120 calls the switch Provide an ANI of 0. Then, the switch 130 determines that the ANI is a database. 140 included in the subscriber list of the audio browsing service stored in Reference is made to the database 140 to determine whether or not it exists. If that ANI If is in the list, switch 130 will audio the call in accordance with the present invention. Route to the browsing assisting unit 150. If the ANI is an audio bra If not, the appropriate message is sent to phone 110 You. The audio browsing auxiliary unit 150 includes an audio processing unit, which will be described later in detail. And an audio interpreter node 154. Oh The dio browsing assistant 150 is an audio browsing machine according to the present invention. Provide the ability. Upon receiving a call from the telephone 110, the audio browsing assistant 150 is a document associated with the called telephone number via link 164 A communication channel with the server 160 is established. Between phone number and document server The association will be described in detail later. In the embodiment for WWW, link 164 is TC A socket connection to P / IP, the establishment of which is well known in the art. . For more information on TCP / IP, see Comer, Douglas, “Internetworking with TCP / IP: Princip l es, Protocols, and Architecture ”(Englewood Cliffs, NJ, Prentice Hall, 1988). Audio browsing auxiliary unit 150 and document Server 160 communicates with each other using a document supply protocol. here Document delivery protocol is the transfer of information between client and server. This is a communication protocol for transmission. According to such a protocol, the client Requests information from the server by sending a request to the server, and the server sends the requested information. The request is fulfilled by sending a document containing the information to the client. Therefore, The document serving protocol channel is used by the audio browsing assistant 150 And a document server 160 via a link 164. Advantageous In one WWW embodiment, the document serving protocol is -A text transfer protocol (HTTP). This protocol is used for WWW communication. Berners-Lee (Bern), well known in the art and incorporated by reference. ers-Lee, T) and Connolly, D) 's "Hypertext Transfer Protocol (H TTP) Working Draft of the Internet Engineering Task Force ”(1993) Have been. Therefore, the audio browsing auxiliary unit 150 uses the HTTP protocol. To communicate with the document server 160. Therefore, the document server 160 As far as it goes, it is a regular WWW client running a regular graphical browser. Act as if communicating with one of the ants. In other words, the document server 160 provides audio browsing in response to a request received from link 164 The document is supplied to the auxiliary unit 150. Here, a document is a set of information is there. The document is a static document predetermined by the server 160, In this case, the same information is given to all requests for the document. Results are obtained. Alternatively, the document is information provided in response to the request May be dynamic such that it is generated dynamically at the time of the request. General The dynamic document is executed by server 160 in response to a request for information. Generated by a script that is a program to be executed. For example, the URL is It may be related to crypto. Server 160 receives request containing URL Server 160 executes the script to generate a dynamic document, Provide the dynamically generated document to the client that requested the information. Do The use of scripts to dynamically generate documents is It is well known. Documents provided by the server 160 may be text, logical structure commands. Code, hypertext links, and user input commands. Like this One of the characteristics of a document is the physical structure of the information contained in the document. That is, when a normal graphic browser is executed and displayed on the client side Is not defined. Instead, Documents are translated in the browser to define the physical layout Contains logical structure commands. For example, such a logical structure command is highlighted Contains commands and new paragraph commands. Of such commands The syntax structure is based on the Goldfarb Char "The SGML Handbook" by Golds (Goldfarb, Charles) (Clarendon Press, 1990 ), Such as SGML (Standard Generalized Markup Language) It may conform to a more general purpose document structure language specification. Departure In the Ming WWW embodiment, these documents are It is a document in the markup language (HTML). HTML is WWW Based on the SGML used to define documents supplied by It is a well-known language. HTML is included as a reference , Berners-Lee (T) and Connolly, D, "Hyp ertext Markup Language (HTML) Working Draft of the Internet Engineering Task Force ”(1993). HTML document received by client running normal browser When done, the browser translates the HTML document into an image and Display the image on the computer display screen. However, the source of the present invention According to the theory, when a document is received from the document server 160, an audio The browsing assistant 150 converts the document into audio data. You. The details of such conversion will be described later in detail. The audio data is Sent to phone 110 via switch 130 and LEC 120. In other words, this According to the method, the user of the phone 110 may be provided with a It is possible to access information of the document server 160. In addition, the user can access the audio browsing assistant 150 from the telephone 110. It is also possible to send audio user input. Audio user input is for example It may be an audio signal or a DTMF tone. Audio browsing assistant 150 converts audio user input to link 164 according to the HTTP protocol. User data or commands suitable for transmission to the document server 160 via Convert to a decree. User data or instructions can also be document-supplied protocols It is sent to the document server 160 via the channel. This allows users and Interact with the document server via the audio user interface Will be processed. In this manner, the user can access the WWW document via an audio interface. And a browsing session with the Document server The server can handle such browsing sessions in the usual way, A client whose browsing session runs a regular graphical browser Started by or by an audio interface like a phone You do not need to know what was started. Audio in network 102 The browsing assisting unit 150 receives the document supplied from the document server 160. The text is translated into audio data suitable for sending to the telephone 110. further, The audio browsing assisting unit 150 receives the audio User input into user data suitable for being received by the document server 160. translate. Next, a more detailed description of an advantageous embodiment for browsing sessions This will be described in detail. Here, the user on the telephone 110 side is the document server 1 Audio browsing associated with information accessible through the 60 (123) 456-7 set so that the route is designated by the routing assistance unit 150. Suppose you dial 890 (Note 2). Call calls are routed to LEC120 The LEC 120 assigns the telephone number to the long-distance network 102, It recognizes that the route has been designated to the switch 130. Receive a phone call And switch 130 then audio signals the call through link 132 Route to the browsing assisting unit 150. This allows the phone 110 and the audio An audio channel with the browsing aid 150 is established. Details of the audio processing node 152 are shown in FIG. Audio processing The card 152 includes a telephone network interface module 210 and a DTM. F-decoder / generator 212, speech recognition module 214, text- An audio module 216 and an audio playback / recording module 218 are provided. 2, each of which has an audio bus 220 and a control / It is connected to the data bus 222. Further, the audio processing node 152 Central processing unit 224, memory unit 228, and packet network interface Each of which is connected to a control / data bus 222. Has been continued. The overall function of the audio processing node 152 is a central processing unit. 224. The central processing unit 224 is stored in the memory device 228. It operates under the control of the computer program instruction 232 executed and executed. Memory device 228 can be any device that can be read mechanically. No. For example, the memory device 228 includes a random access memory (RAM), a read Only memory (ROM), programmable read only memory (PROM) ), Erasable PROM (EPROM), electrically erasable PROM (EEPROM) ), Magnetic storage media (ie, magnetic disks), or optical storage media (ie, CD-ROM). Further, the audio processing node 152 has a medium Computer program instructions 23 accessible by central processing unit 224 Of a mechanically readable device capable of storing both Various combinations may be included. The telephone network interface module 210 has an audio processing node. Handles low-level interactions between the network 152 and the telephone network switch 130 . In one embodiment, module 210 includes one or more analog chips. Up / Lin Group Start consists of a telephone line terminator. By module 210 , Central processing unit 224 controls link 132 via control data bus 222 be able to. Control functions include on-hook / off-hook, call detection, and Yo And far-end on-hook detection. In another embodiment, module 210 includes T1 / DS1, E1, or PR1, one or more channelized digital Interface. The signal may be in-band or out-of-band. DTM The F decoder / generator 212 converts the digital data of the DTMF tone signal into digital data. And the generation of DTMF tones from digital data. Voice recognition The awareness module 214 originates on the user's phone 110 and Recognize the audio signal received. Such a voice signal is transmitted to the voice recognition module 2 14 and converted into digital data. Text-speech module The rule 216 contains the text of the document received from the document server 160. Is converted into an audio sound signal transmitted to the user on the telephone 110 side. Oh Dio playback / record module 218 received from document server 160 The audio data is played back on the telephone 110 side, and Used to record audio data. Each module 210, 212, 21 4, 216 and 218 are shown as separate function modules in FIG. Is added. The function of each module 212, 214, 216, 218 Hardware, software or hardware using known signal processing technology It may be realized as a combination of software. The function of module 210 is Hardware or hardware and software using known signal processing technology May be realized as a combination. The function of each module will be described later in connection with the example. Further details will be given. The packet network interface 230 Communication between the processing node 152 and the audio interpreter node 154. Used for Audio browsing assistant 150 connects to audio processing node 152 Also includes an audio interpreter node 154. Audio in The detail of the interpreter node 154 is shown in FIG. Audio interface The printer node 154 includes a central processing unit 302, a memory 304, a control / data Two packet network interfaces connected by tabus 310 306, 308. The entirety of the audio interpreter node 154 Is controlled by the central processing unit 302. Central processing unit 302 Are the computer program instructions 31 stored and executed in the memory device 304 It operates by the control of 2. The memory device 304 can be any device that can be read mechanically. Good. For example, the memory device 304 includes a random access memory (RAM), Do-only memory (ROM), programmable read-only memory (PRO M), erasable PROM (EPROM), electrically erasable PROM (EEPRO) M), a magnetic storage medium (ie, a magnetic disk), or an optical storage medium (such as a magnetic disk). That is, it may be a CD-ROM). Additionally, an audio interpreter node 154 is a computer program that can be accessed by the central processing unit 302 and is Mechanical reading that can store both the RAM instruction 312 and the data 314 Various combinations of possible devices may be included. The audio processing node 1 uses software instructions executed by the central processing unit. Controlling devices such as 52 and audio interpreter node 154 Are well known in the art and will not be described in further detail here. Returning to the example, a call from telephone 110 to telephone number (123) 456-7890 The call is made to the audio browsing assistant 150, in particular to the audio processing node 1 Route 52 is designated. The central processing unit 224 has a telephone network interface. The line being called by the face module 210 is detected. Phone call , The central processing unit sends the URL associated with the dialed number (DN) Make a reference to determine. Dialed telephone numbers (DNs) are used in this technical field. Provided from the local exchange carrier 120 to the switch 130 in a known manner. , And DN is supplied from the switch 130 to the audio browsing auxiliary unit 150. Can be In the memory 228, a list of URLs related to the DN is stored as data 234. It is memorized. In this example, DN (123) 456-7890 is a URL http: // www. att. Assume that it is associated with com / ~ phone / greeting. In another embodiment, the list of URLs associated with various DNs is Instead of being local to the browsing assistant 150, the database 14 0 is stored in a network database. In such an embodiment, , The central processing unit 224 of the audio processing node 152 is a network switch. 1 A signal requesting reference to the database 140 is sent to 30. Switch is data Requesting a URL from the database 140 and sending the resulting URL to the audio processing unit. To the card 152. Audio processing node 152, switch 130 and data Communication with the base 140 is well known in the art, such as, for example, SS7. It should be noted that the signal may pass through a simple out-of-band signal system. Such a configuration The advantage is that multiple audio browsing aids are present in network 102. And each may share one database 140 is there. This allows the database to be updated with the URL and associated DN 140 is only one. After receiving the URL associated with the DN, the central processing The processor 224 converts the message (including the URL) into an audio interpreter message. To the audio interpreter node 154. Instruct the user to start a browsing session. Such messages are centrally processed The packet network interface from the device 224 via the control / data bus 222 To the case 230. Further, this message is sent to the audio processing node 15. 2 via the connection 153 from the packet network interface 230 of FIG. Packet Network Interface 3 of Dio Interpreter Node 154 06. In one advantageous embodiment, audio processing nodes 152 and And the audio interpreter node 154 are juxtaposed, whereby the audio Forming an auxiliary browsing assisting part 150; In another embodiment, audio The processing node 152 and the audio interpreter node 154 are geographically separated. May be separated. Some such alternative embodiments are described below. . Connection 153 is a packet data network connection known in the art (eg, For example, a TCP / IP connection to Ethernet) may be used. Returning to the example, the audio interpreter node 154 has a packet network. A new audio translation / browsing Receive a message to begin the session. The central processing unit 302 Simultaneous audio translation / browsing sessions for multiple users Can be controlled. The execution of such multiple processes by the processor is Knowledge and generally accompanied by an illustration of the software process that controls each session . To start an audio translation / browsing session, The reader node 154 is located at the URL http: // www. att. com / ~ phone / greeting The HTTP request is sent to the document server 160 via the connection 164. Book In the example, the document server 160 has the hostname www. att. com I assume. Details of the document server 160 are shown in FIG. Document server 160 is a computer including the central processing unit 402 connected to the memory 404. is there. The functions of the document server 160 are performed by the computer stored in the memory 404. Data program instructions 416 are controlled by central processing unit 402. In operation, the document server 160 establishes a connection 164 and a packet net. Audio interpreter node 154 via work interface 440 Receive a request for a document from. Central processing unit 402 translates the request. The requested information is retrieved from the memory 404. Such requests are in HTML documentation 408, audio HTML document 410, audio file 41 2, or for the graphics file 414. HTML The document 408 is well known and can be used for a normal WWW graphical browser. It contains normal HTML instructions. Audio HTML documents An audio interface similar to an HTML document, but in accordance with the present invention. It has a special additional instruction for translation at the Rita node 154. Of the present invention Such instructions specific to the diobrowsing surface are described here in the Audio HTM It is called L instruction. Audio HTML documents and audio HTML instructions Will be described in detail later. Audio file 412 contains audio A file containing information. Graphic file 414 is graphical (chart) ) A file containing information. According to methods well known in the art, the URL Identify a particular document on a given document server. Memory 404 , Dynamically generated HTML and audio HTML documents A script 418 for the event may also be included. Returning to this example, URL htt p: // www. att. HTTP requests for com / ~ phone / greeting N From the interpreter node 154 via the connection 164 to the document server 160 Is received. The document server translates the URL, and under the control of the central processing unit 402 Fetches an audio HTML page from the memory 404. And the central processing unit The device 402 stores this audio HTML document in a packet network interface. Audio interpreter via interface 440 and link 164 To the host 154. URL http: // www. att. com / ~ phone / greeting Audio H received by the audio interpreter node 154 A TML document 500 is shown in FIG. Audio interpreter Node 154 begins translating document 500 as follows. Some form of implementation In an embodiment, lines 502-506 of document 500, including the title of the page. The <HEAD> portion of is not converted to voice, and the audio interpreter node 1 Ignored by 54. In another embodiment, the <TITLE> portion is a text G may be translated using voice. The text “He” in the line 508 of the <BODY> portion of the document 500 llo! "Indicates the packet network interface 306 and the link 15 3 from the audio interpreter node 154 to the audio processing node 1 52. Audio Interpretation for text "Hello!" Node 154 processes the text in text-to-speech module 216. A command to the audio processing node 152 is to be sent. Audio processing The logical node 152 receives the text via the packet network interface 230. Text and instructions, and the text is transmitted over control / data bus 222. Via the text-to-speech module 216. Text-speech module 216 generates an audio signal for reproducing “Hello” (Note 3), This signal is transmitted via the Diobus 220 to the telephone network interface module. To the server 210. Further, the telephone network interface module 21 0 sends this audio signal to the telephone 110. Text-to-speech conversion is well known. The text-to-speech module 214 uses conventional text-to-speech technology. It should be noted that it may be possible. For example, when text is converted to speech, The symbol "!" In may be translated to play at a loud volume. Line 510 of document 500 is a form instruction, an audio interface. The interpreter node 154 sends this instruction to the audio processing node 152. Do not send anything. The audio interpreter node 154 provides future Translate line 510 to indicate that a response is expected, and this response , Http: // machine: 8888 / hastings-bin / getscript. sh. The screen identified by Provided as an argument to the lipto. Line 512 is Dio HTML instruction. The audio interpreter node 154 has a memory The www-spr. ih. att. com / ~ hastings / annc / greet ing. The server 16 sends an http request for the audio file identified by mu8. Translate line 512 by sending to zero. Document server 160 notes 404, retrieve the audio file, and import it via link 164. To the Dio interpreter node 154. When you receive the audio file, The audio interpreter node 154 reads the file, Indicates that it is to be played by the audio play / record module 218 It is sent to the audio processing node 152 together with the instruction. Copy these files and instructions Upon receipt, the audio processing node 152 Route to the audio playback / recording module 218. Audio playback / recording module Module 218 is connected via the audio bus 220 to the telephone network interface. An audio signal to be sent to the chair module 210 is generated. And the telephone network The network interface module 210 transmits the audio signal to the telephone 110 Send to As a result, the user at the telephone 110 side can use the speaker of the telephone 110 to Audio file www-spr. ih. att. com / ~ hastings / annc / greeting. mu8 contents Will hear. Lines 514-516 are audio HTML instructions. Audio interface The print node 154 does not send the line 514 to the audio processing node 152. Line 514 indicates that the response from the user is a document associated with the variable name "collectvar". This is sent to the document server 160. This command allows the user Prompts and provides information-opening a collect sequence It shows the beginning. Following this instruction is a prompt instruction 516 and a set of selections. There are select instructions 518-522. Audio interpreter node 154 is a line Process line 516 in the same manner as 512, so that you are on the phone 110 side The user is http: // www-spr. ih. att. com / ~ hastings / annc / choices. Identified by mu8 You will hear the sound from the file being played. This sound is selected based on several criteria. Asks the user to make a selection, audio interpreter node 1 54 waits for a response from the user on the telephone 110 side. Also, the result of processing line 516 , Central processing unit 302 sends audio processing node 152 a telephone network Prepare the interface module 210 to receive audio input. Send a message. The user then responds with audio user input from telephone 110. Aude The user input is entered by the user pressing a key on the telephone 110 keypad. DTMF tone format generated by the above method. For example, if the user calls telephone 11 Pressing "2" on the 0 keypad causes the audio processing node 152 to switch to the telephone network. DTMF token associated with “2” through the network interface module 210 Receive a sound. The audio signal is processed by the central processing unit 224 by DTMF. This signal is recognized as a tone sound, and this signal is The command to send to the coder / generator 212 is It is sent to the chair module 210. The central processing unit 224 generates the DTMF tone sound. Converts to digital data and converts the digital data to packet network Send from interface 230 to audio interpreter node 154 To the DTMF decoder / generator 212 as described above. This signal is received When the audio interpreter node 154 receives the response “2” from the user, The value "Ji" shown on line 520 of the Mari audio HTML document 500 m ”is selected. That is, the audio interpreter node 1 54 stores the value “Jim” associated with the variable “collectvar” in the Script identified in the in 510 http: // machine: 8888 / hastings-bin / getscr ipt. sh. Send to If the user's response is not listed, enter it If there is a response other than "1" to "3" in this example, or If the user does not respond within a fixed time, the audio interpreter node 1 54, "I can't accept your choice. Please try again." (Italic Command the text-to-speech module 216 to generate a speech signal , And the signal is sent to the user on the telephone 110 side. Alternatively, the audio user input may be an audio signal. In other words, you Instead of the user pressing number 2 on the telephone 110 keypad, the user Speak the word "2" to Iku. This audio signal is transmitted to the telephone network Received by the audio processing node 152 via the interface module 210 You. The audio signal is recognized as an audio signal by the central processing unit 224. The signal is sent to the speech recognition module 214 via the audio bus 220. The command is given to the telephone network interface module 210 to send It is. The central processing unit 224 converts the audio signal into digital data and further converts the digital signal into digital data. To transmit digital data to the audio interpreter node 154, Voice recognition module to provide to the To the command 214. The audio interpreter node 154 Data received, as described for DTMF audio user input Process this data. Note that the voice recognition module 214 is used in this technical field. Note that it works according to well-known normal speech recognition technology . Hypertext links often exist in HTML documents. this Is displayed on the screen of a computer running a normal graphical browser , Hypertext links are shown graphically (eg, underlined). If the user, for example, clicks the link with the mouse, the graphical If you select a link to the browser, the browser Generate a request and send the request to the document server. Here, shown in FIG. Consider an HTML document 600. Lines 604 and 605 are high 7 shows a detailed HTML description of a per-text link in detail. If this page If processed by a normal graphical browser, the display will look like this: Looks like. This page gives you a choice of links to follow to other World W ide Web pages. Please click on one of the links below. (This page allows you to select links to other WWW pages. Click on one of the links) click here for information on cars (Click here for car information) click here for information on trucks (Click here for track information) And the user uses a graphical pointing device like a mouse To select one of the links. If the userclick here for information on car s If you select, the browser will be identified at the URL http://www.abc.com/cars.html Generate a request for a document to be created. If the userclick here for info rmation on trucks If you select, the browser will go to the URL http://www.abc.com/truc Generate a request for the document identified in ks.html. Next, the processing of the HTML hypertext link according to the present invention will be described with reference to FIG. This will be described with reference to FIG. Here, the document server 160 determines whether the HT shown in FIG. Providing ML document 600 to audio interpreter node 154 Assume that Lines 602 and 603 are provided by the text-to-speech module 216. The audio signal is converted to an audio signal, and given to the user's telephone 110 as described above. In other words, the user is asked, "This page allows you to select a link to another WWW page. You. Please click one of the links below. " La In line 604, audio line indicates that line 604 is a hypertext link. The interpreter node 154 recognizes. Audio interpreter node 154 Sends the tone to the telephone 110 to the audio processing node 152 in DTMF decoding. Sends an instruction for the coder / generator 212 to generate. Alternatively, this The audio sound is output from the audio interpreter node 154 to the audio playback / recording mode. Command to cause Joule 218 to play an audio file containing a tone sound. An instruction is also generated by sending the instruction to the audio processing node 152. Hyper This distinctive tone is used to inform the user of the beginning of a text link. Can be Then, the audio interpreter node 154 determines that the text is text. G-Hypertext with instructions to be processed by voice module 216 Convert the text of the link (click here for information on cars) to audio To the logical node 152. As a result, "Click here for car information Is provided to the telephone 110. And the audio interpreter Node 154 converts the tone to the telephone 110 into a DTMF decoder / generator. An instruction is sent to audio processing node 152 for 212 to generate. Hyper -This unique tone is used to inform the user of the end of the text link. Can be To inform the user of the beginning and end of a hypertext link The tones used may be the same tone or different tones. End A pause follows the sound. Instead of using tone sounds, hypertext The start and end of the string are indicated by "Link Start [Hypertext] Link End May be identified by an audio signal such as "OK". If the user wishes to follow the link, the user will be Provides audio input. For example, if the user linksclick here for informa tion on cars User wants to follow the link. An audio input is input within a pause period following the audio signal. audio The input is, for example, a DT generated by pressing a key on the keypad of the telephone 110. It may be an MF tone. DTMF tone sounds to audio processing node 152 Received and further processed by the DTMF decoder / generator 212. The data representing the DTMF tone is stored in the control / data bus 222 and the packet network. Audio interface 230 and an audio interface via the link 153. It is provided to the print node 154. The audio interpreter node 154 Upon receipt of this signal, a signal is received within the idle period following the selected link. That the audio interpreter node 154 has been selected WWW identified at the URL http://www.abc.com/cars.html associated with the link Generate a request for a document. Alternatively, select a hypertext link The audio user input for selecting may be an audio signal. Another type of link is a hypertext anchor link (anchor link ). Anchor links link to a specific location within an HTML document. This allows the user to jump. In a normal graphical browser When the user selects the anchor link, the browser Display part of the document. According to the audio browsing technology of the present invention, When the user selects the anchor link, the audio interpreter node 154 Starts translating the document at the location specified by the link. For example, a document Line 620 of document 600 is a hyperlink to line 625 of this document. -Contains text anchors. This hypertext link is The user, as well as the hypertext link that identifies the new HTML document User. Hypertext anchor links, for example, A different audio tone or generated audio signal indicating a car link It may be distinguished by a number. If the user anchors at line 620 Upon selecting a link, the audio interpreter node 154 Skip to text and start translating HTML document 600 there. The advantageous embodiment described in connection with FIG. Audio browsing aid including audio interpreter node 154 150 is a communication network node located within the long distance communication network 102 It is embodied within. By doing so, the present invention The audio browsing function is provided by the telephone network 102 service provider. It can be provided to network subscribers. In such a configuration, May require additional hardware on site premises or on the document server. And not. All audio browsing functions are configured within the telephone network 102. Provided by components. However, other configurations are possible. Yes, such alternative configurations can be easily implemented by those skilled in the art based on the disclosure herein. It is. One such alternative configuration is shown in FIG. 7 and provides audio browsing assistance. The functions of the units are executed in the user interface device 700 shown in the figure. this In the embodiment, the function of the audio processing node 152 and the audio interface The functions of the print node 154 are integrated into the user interface device 700. It is stopped. The user interface device 700 is connected via a communication link 702. To communicate with the document server 160. Link 702 is described with respect to FIG. Link 164. That is, the link 702 is a source for TCP / IP. It may be a socket connection, the establishment of which is well known in the art. User in The details of the interface device 700 are shown in FIG. User interface Device 700 includes a keypad / keyboard 802 and a keypad / keyboard 802 for receiving user input. And a microphone 804 and a speaker 806 for providing audio output to a user. And Further, the user interface device 700 includes a control / data Keypad / keyboard interface module 81 connected to 6 is also provided. Further, the user interface device 700 includes a codec (Codec) 810, speech recognition module 818, text-speech module 820 and an audio playback / recording module 822, as shown in FIG. As shown, each connected to an audio bus 808 and a control / data bus 824. Have been. The codec 810 includes an analog-to-digital converter 812 and a And a digital-to-analog converter 814, both of which are controlled / data It is controlled by the central processing unit 826 via the bus 824. Analog-digital Tal converter 812 receives analog audio user input from microphone 804 Convert the digital audio signal to a digital audio signal Give to Obers 808. Digital-to-analog converter 814 provides audio The digital signal from the bus 808 is converted into an analog audio signal transmitted from the speaker 806. Audio signal. Keypad / keyboard interface module 816 receives input from keypad / keyboard 802 and controls the input. Control / data bus 824. Speech recognition module 818, text-to-speech Module 820 and audio playback / recording module 822 are associated with FIG. Perform the same functions as modules 214, 216 and 218, respectively And it is constituted similarly to these. Further, the user interface device 70 0 connects to a packet network such as the Internet via link 702. And a packet network interface 834 for connection. Further The user interface device 700 is connected to the control / data bus 824, respectively. It includes a central processing unit 826 and a memory device 828 connected thereto. A user The overall function of the interface device 700 is provided by the central processing unit 826. Controlled. The central processing unit 826 is stored in the memory device 828 and executed. It operates under the control of computer program instructions 830. Memory device 82 8 also contains data 832. The user interface device 700 has been described in relation to the embodiment of FIG. Machine of audio processing node 152 and audio interpreter node 154 Perform the function. These functions execute computer program instructions 830. This is executed by the central processing unit 826. That is, computer program instructions 830 is a computer program that executes the functions of (1) the audio processing node 152. Program instruction 232, and (2) the machine of the audio interpreter node 154. Computer program instructions 312 to perform the functions System instructions. Audio processing node 152 and audio interface The function of the interpreter node 154 has been described in detail above, so here is no more detail. I do not mention. The central processing unit 826 can execute a plurality of processes at the same time. Thereby, the audio processing node 152 and the audio interpreter The function of the mode 154 is executed. This multi-processing function is depicted in FIG. In the central processing unit 826, the audio translation / browsing processing 836 and the audio And a process 838. In operation, the user of the user interface device 700 operates the keypad / A URL is requested using the keyboard 802 or the microphone 804. If keypad Keypad / keyboard if keyboard / keyboard 802 was used to request a URL. Interface module 816 controls the requested URL / data bus 824 to the central processing unit 826. If Mike 804 requests URL If used, the user's voice is received by the microphone 804 and the analog-to-digital Digitalized by the digital converter 812 and transmitted through the audio bus 808. Provided to the recognition module 818. Then, the voice recognition module 818 The requested URL is provided to the central processing unit 826 via the control / data bus 824. . Upon receiving the URL, the central processing unit 826 performs audio translation / browsing. The audio browsing / translation session illustrated in operation 836 is started. Audio translation / browsing processing 836 is described in connection with the embodiment of FIG. In a manner similar to that described above, through the packet network interface 834 Sends an HTTP request to the document server 160. Document server 160 The audio translation / browsing process 836 receives the document from Translate the document according to the audio browsing technique of the present invention. This The sound produced by the translation of the document is used to control the audio processing 838 From the speaker 806 to the user. Similarly, the user interface The user of the device 700 can access the user interface device via the microphone 804. Audio user input can be provided. Audio translation / browsing processing 836 and audio processing processing 83 8 are both in the user interface device 700, All communication is performed by inter-process communication through the central processing unit 826, and processing 83 6, 838 and all communications between the other elements of the user interface device 700 Is performed via the control / data bus 824. 7 and 8 illustrate the document server 16 in the packet network 162. 0 shows the user interface device 700 in direct communication with the user interface device 700. Or , The user interface device 700 transmits the document via a standard telephone connection. It may be configured to communicate with the server 160. In such a configuration, the packet Control / data bus 824 instead of the network interface 834. Alternatively, a telephone interface circuit controlled by the central processing unit 826 may be used. No. The user interface device 700 is used for documenting via a telephone network. Call the client server. The document server 160 has a telephone network interface. User interface using hardware similar to interface module 210 (FIG. 2). A call from the interface device 700 is received. Or a document Termination that provides a packet network connection to the poin Due to t), a call call can be received in the telephone network. In another configuration shown in FIG. 9, the function (automatic Functions of the audio processing node 152 and the audio interpreter node 154. And the function of the document server 160 This is executed in the document server 900. Call as depicted in FIG. The call is made from the telephone 110, the LEC 120, the switch 130, another LEC 902 , And routed to the audio browsing document server 900. That is, in this embodiment, a normal telephone 110 is connected via a telephone network. The audio browsing document server 900 can be reached. Sa In addition, the audio browsing document server 900 connects via the link 904. It is also connected to the Internet. Audio browsing documents The details of the server 900 are shown in FIG. Audio browsing document Client server 900 includes a telephone network interface module 1010 and , DTMF decoder / generator 1012, speech recognition module 1014, , Text-speech module 1016 and audio playback / recording module 10 18 and each of these audio buses, as shown in FIG. 1002 and a control / data bus 1004. These modules 1010, 1012, 1014, 1016, and 1018 are described with reference to FIG. Described modules 210, 212, 214, 216, and 218, respectively They perform the same function and are configured similarly. In addition, The browsing document server 900 is interfaced via link 904. Packet network for connecting to packet networks such as An interface 1044 is included. Packet network interface 1044 is the packet network interface described in connection with FIG. It is similar to 230. Also an audio browsing document server 900 includes a central processing unit 1020 and a memory device 1030, Both are connected to a control / data bus 1004. Audio browsing The overall function of the document server 900 is controlled by the central processing unit 1020. Controlled. The central processing unit 1020 is stored in the memory device 1030 and executed. Re It operates under the control of computer program instructions 1032. Memory device 1 030 is data 1034, HTML document 1036, audio HTM L document 1038, audio file 1040, and graphic file. File 1042. The audio browsing document server 900 is related to the embodiment of FIG. The audio processing node 152 and the audio interpreter The functions of the mode 154 and the document server 160 are executed. These features , By a central processing unit 1020 executing the computer program instructions 1032. Done. That is, the computer program instruction 1032 is (1) audio Computer program instructions 232, (2 A) a computer program that performs the functions of the audio interpreter node 154 And (3) a controller for executing the functions of the document server 160. Computer program instructions 416, including the same or similar program instructions It is. Audio processing node 152, audio interpreter node 154 , And the function of the document server 160 have been described in detail before, so here It will not be described in further detail. The central processing unit 1020 executes a plurality of processes simultaneously The audio processing node 152, the audio interface The functions of the interpreter node 154 and the document server 160 are executed. this The multi-processing function is depicted in FIG. 10, where the central processing unit 1020 is Dio translation / browsing process 1022, document supply process 1024, and It is shown to perform the audio processing 1026. In operation, audio browsing document server 9 from telephone 110 Calls to telephone numbers associated with information accessible via 00 Audio browsing via C120, switch 130, and LEC902 To the document server 900. Note that multiple phone numbers Various information accessible via the diving browsing document server 900 Information, each of which is associated with an audio browsing document. It should be added that the route is specified to the comment server 900. There was a call The line is connected to the telephone network It is detected via the interface module 1010. Phone call detected The central processing unit 1020 then retrieves the URL associated with the dialed number (DN). Make a reference to determine. DN can be used as a LEC by methods well known in the art. 902 to the audio browsing document server 900. D A list of N and its associated URLs is stored in memory 1030 as data 1034. Have been. Upon receiving the URL associated with the DN, the central processing unit Audio browsing / audio browsing illustrated in the audio translation / browsing process 1022 Start a translation session. The audio translation / browsing process 1022 is medium An HTTP request is sent to the document supply processing 1024 coexisting in the central processing unit 1020. send. The document supply process 1024 is the document supply process of the embodiment shown in FIG. It performs the document server function described in connection with the remote server 160. these The document server function is an HTML document stored in the memory 1030. 1036, audio HTML document 1038, audio file 1 040, and the graphics file 1042. to this Accordingly, the central processing unit 1020 stores the document associated with the URL in the memory 103. It will be taken out from 0. Then, audio translation / browsing processing 102 2 translates the document according to the audio browsing technique of the present invention. The sound produced by the translation of this document is controlled by the audio process 1026 To the user. Similarly, the user of the telephone 110 will be able to use the embodiment of FIG. Audio browsing document in the same manner as described in connection with Audio user input can be provided to the server 900. Audio translation / browsing processing 1022, document supply processing 1024 And audio process processing 1026 are both audio browsing documents. Since it is in the ment server 900, everything between the processes 1022, 1024 and 1026 Is performed by inter-process communication through the central processing unit 1020, and the process 102 2, 1024, 1026 and the audio browsing document server 900 All communication with other elements takes place via control / data bus 1004. Book One benefit of embodiments is that HTML documents and other data are processed (eg, Does not have to go through a potentially uncertain wide area network for translation) It is efficient in this respect. In the embodiment shown in FIG. 1, the audio processing node 152 and the audio processing node 152 The interpreter nodes 154 were juxtaposed. However, audio processing The functions of node 152 and audio interpreter node 154 are illustrated in FIG. It may be geographically separated as shown. In such an embodiment, the audio processing Node 152 is included in communication network 102 and has an audio interface. Print document server 1100 included in packet network 162 I have. The function of the audio processing node 152 is similar to that described in connection with FIG. It is. Document server functions such as document server 160 and audio Audio interpreter that performs the functions of the audio interpreter node 154 Details of the document server 1100 are shown in FIG. Audio in The interpreter document server 1100 includes a link 153 and a control / data A packet network interface 1202 connected to the In. Also, the audio interpreter document server 1100 has a central It includes a processing unit 1206 and a memory unit 1212, both of which are control / data Data bus 1204. Audio interpreter document server The overall function of the server 1100 is controlled by the central processing unit 1206. . The central processing unit 1206 stores the program stored in the memory device 1212 for execution. It operates under the control of computer program instructions 1214. The memory device 1212 , Data 1216, HTML document 1218, audio HTML document Statement 1220, audio file 1222, and graphic file 1 224 as well. The audio interpreter document server 1100 has the configuration shown in FIG. The audio interpreter node 154 and the document The function with the server 160 is executed. These functions are performed by computer program instructions. This is performed by the central processing unit 1206 which executes 1214. In other words, The data program instruction 1214 includes (1) the audio interpreter node 154 Computer program instructions 312 for performing the functions of Computer program instructions 416 to perform the functions of the remote server 160. Or similar program instructions. Audio interpreter node Since the functions of the 154 and the document server 160 have been described in detail previously, I will not go into further details. The central processing unit 1206 performs a plurality of processes simultaneously. Can be executed, thereby providing audio interpreter nodes 154 and And the functions of the document server 160. This multi-processing function is shown in FIG. Depicted, where the central processing unit 1206 has audio translation / browsing It is shown performing process 1208 and document supply process 1210. . In operation, the audio processing node 152 operates as described with reference to FIG. In a similar manner, the audio interpreter document via link 153 Communicate with server 1100. However, if the audio interpreter node 154 Unlike FIG. 1, which communicates with a document server via link 164, audio The translation browsing process 1208 is performed via the central processing unit 1206 by inter-process communication. And communicates with the document supply processing 1210. Therefore, as described above, the audio browsing of the present invention can be used for audio. Processing function, audio translation / browsing function, and document supply function Can be implemented in various forms, such as being integrated or separated depending on the particular configuration. Can be Those skilled in the art will recognize that other configurations Will be provided. As can be seen from the above description, the present invention is compatible with a normal graphic browser. With standard HTML documents intended to be used for Audio specially created for use in audio browsing Used with Dio HTML documents. For audio translation of standard HTML documents, there are many standard Text-to-speech technology may be used. The next section describes the standard HT Technology used to convert ML documents to audio data explain. Convert the HTML document described here to audio data The technology is merely illustrative, and those skilled in the art will be able to convert HTML documents to audio. Various other techniques for converting to signals can be easily implemented. A standard text document is created using well-known ordinary text-to-speech technology. Be translated. The text is translated when encountered in the document, such as The translation allows the user to enter audio input (eg, to answer a prompt or link Or to reach a prompt in the document To continue. The end of a sentence is translated by adding pauses to the sound, Lagraph marks <p> are translated by inserting long pauses. The text style is , May be translated as follows: The image instruction is an H indicating that a particular image is to be inserted into the document. This is a specification of TML. An example of an HTML image instruction is as follows: . <IMG SRC = "http://machine.att.com/image.gif" ALT = "[image of car]"> This command is executed when the image file “image.gif” is read from the machine defined by the URL. Retrieved, indicating that it will be displayed in the client browser. Ah Normal graphic browsers do not support image files, HTML image instructions therefore contain alternative text that is displayed instead of the image Sometimes. In other words, in the above example, the text "image of car" Included instead of the file. According to the audio browsing technology of the present invention, , If the image instruction contains alternative text, the text is processed It is converted to voice and the voice signal is provided to the user. In other words, in this example, " Voice signal "image of car" to the user on the phone 110 side Provided. If no alternative text is provided, the image without alternative text Audio signal (e.g., "Photo without alternative description") Generated. Normal HTML includes instructions that support entering of user input. In. For example, the following instruction: <SELECT NAME = "selectvar"> <OPTION> mary <OPTION SELECTED> joe <OPTION> </ SELECT> Marie (m) when joe is the default option ary) and Joe require the user to choose between two options Things. When the client runs a regular graphical browser, May be represented, for example, as a pull-down menu. Aude of the present invention According to the Internet browsing technology, the above instruction is translated into the following audio signal: It is. "Choose one of the following: Mary (pause), currently selected Joe (pause), end of options. To repeat an option * r, press # to go next " If the user presses the pound key during a pause after an option Then the option is selected. No matter which item is selected, the user If you choose to proceed to the documentation associated with the variable selectvariable (selectvar) Return to the ment server. Instead of the user selecting with the DTMF signal, the user The selection may be made by a signal. Another common HTML instruction for entering user input is a checkbox instruction. You. For example, a series of instructions such as: <INPUT TYPE = "checkbox" NAME = "varname" VALUE = "red" CHECKED> <INPUT TYPE = "checkbox" NAME = "varname" VALUE = "blue"> <INPUT TYPE = "checkbox" NAME = "varname" VALUE = "green"> Is displayed as follows in a normal graphic browser. Red □ Blue □ Green □ By default, the red box is checked. User can be blue or green You can change this default by checking the box . According to the audio browsing technique of the present invention, the above series of instructions is transmitted to the user. It is translated into the following audio signal provided. "The following selections can be changed by pressing # during the inactivity period. Red (pause), blue (pause), green (pause). To repeat this list again * r, press # to go next " If the user presses # during the pause to generate a DTMF signal, the user will be prompted before the pause. Items can be selected. If you press the # key again, the user It is possible to get out of the input operation. The user repeats the list of options If you want to return, just press * r. Instead of DTMF signal input, the user Check box option may be selected using audio signal input . A normal HTML document is created by the user using the following TEXTAREA command. Can require text input. <TEXTAREA COLS = 60 ROWS = 4 NAME = "textvar"> Insert text here Please </ TEXTAREA> This allows ordinary graphic browsers to say "insert text here. 6 "provided to the user for text input following the text A text box with 0 rows and 4 columns will be displayed. Audio Bra of the Present Invention According to the usage technique, the above instruction is translated as follows. COL and ROWS Parameter is ignored, "Please insert text here" Is given to the user. Then, the user follows the DTMF tone # Signal can be input. These DTMF signals are associated with the variable “textvar”. It is processed according to the result given to the associated document server. Or the user Can give text by speaking a response to the microphone of phone 110, The voice is converted to data by the voice recognition module 214, and the data is stored in a variable “textva”. r "is provided to the document server 160 associated therewith. As can be seen from the above description, a normal HTML document is an audio document according to the present invention. Using various techniques so that they can be browsed by the it can. To better illustrate the benefits of audio browsing according to the present invention , Additional document instructions in addition to the normal HTML instructions may be used. These instructions, called audio HTML instructions, are converted to regular HTML documents. May be introduced to the client. These audio HTML instructions are described below. Voice source command, <VOICE SRC = "// www.abc.com/audio.file"> According to the above, the specified file is played back to the user. Take The instructions are described in detail on line 512 of the document 500 illustrated in FIG. I have. Name collect instruction, <COLLECT NAME = "collectvar"> Specifies the start of the prompt and collect sequence. Such collect The name command is followed by a prompt command and a set of select commands. User chooses Selection, the result of the user's selection is acceptable, as indicated by audio user input. Provided to the document server associated with the modified collect variable (collectvar). Ko The collect name instruction, along with the associated prompt and collect sequence, This is described in detail in lines 514-524 of the document 500 illustrated in FIG. I have. DTMF input command, <INPUT TYPE = "DTMF" MAXLENGTH = "5" NAME = varname> Indicates that audio user input in DTMF signal format is expected from the user doing. This command causes the audio browsing assist unit 150 to pause and the user It waits for these DTMF inputs. The user enters the keypad of telephone 110 Key to enter the DTMF sequence, and press the # key to enter the DTMF sequence. Indicates the end of the sequence. The DTMF input is the HTML document 5 shown as an example. 00 is processed as described above. And the decoded DTMF signal Is given to the document server associated with the variable name (varname). MAXLE The NGTH parameter indicates the maximum length that can be input (DTMF input). If the user If you enter more than the maximum number of DTMF keys (5 in this example), the system will Ignore the input. Similarly, the SPEECH input instruction, <INPUT TYPE = "SPEECH" MAXLENGTH = "5" NAME = varname> Indicates that audio user input in the form of audio signals is expected from the user I have. This command causes the audio browsing assist unit 150 to pause and the user Wait for DTMF voice input. The user looks into the microphone of phone 110 And input the audio signal. The voice input is an example HTML document 50 0 is processed as described above. And the audio signal is associated with the variable name Document server. The MAXLENGTH parameter sets the maximum Indicates that the length is 5 seconds. The audio HTML instructions described herein are compatible with the audio browsing of the present invention. Is an example of a type of audio HTML that can be implemented to take advantage of technology You. Those skilled in the art can easily execute other types of audio HTML instructions. You. In addition to the audio HTML instruction described above, the audio browsing auxiliary unit 15 0 supports various navigation instructions. Normal graphic browsing Users use the usual techniques for navigating through documents. May be. These common techniques use text to scroll the document. Text slider, cursor movement, page up, page down, home, And instructions like end. Audio browsing technology of the present invention According to the following, users can choose either DTMF tone format or audio format: These audio user inputs may be used to navigate the document. The above detailed description is illustrative in all respects and is illustrative only. It is not to be understood that the scope of the invention disclosed herein is a detailed description. And not by the claims that are interpreted to the fullest extent permitted by patent law. Is defined. The embodiments shown and described herein are examples of the principles of the present invention. For illustrative purposes only, one skilled in the art may, without departing from the scope and features of the invention. It is understood that various design changes may be made. For example, here the packet Although communication channels such as switch communication channels have been described, circuit switches Execution over a communication channel such as a communication channel is also possible. (Note 2) The telephone numbers used here are for explanation only. Any specific The use of the telephone number of the present invention has no meaning other than as an example of the present invention. No. It does not mean an actual telephone number. (Note 3) Here, italic type indicates that text is reproduced as speech. Used for
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.6 識別記号 FI H04M 11/08 H04L 11/20 102Z (72)発明者 ラミング ジェームス クリストファー アメリカ合衆国 カリフォルニア州 メン ロパーク シャロン パーク ドライブ 350 アパートメント エヌ−103 (72)発明者 レアー ケネス ジー アメリカ合衆国 イリノイ州 バーウィン ウェスト 35 ストリート 7108 (72)発明者 タッキー カーティス デュアン アメリカ合衆国 イリノイ州 シカゴ ノ ース レタ 3546 【要約の続き】 したユーザデータに翻訳し、さらにそのユーザデータを ドキュメント供給プロトコルチャネルを介してドキュメ ントサーバに提供する。──────────────────────────────────────────────────続 き Continued on the front page (51) Int.Cl. 6 Identification code FI H04M 11/08 H04L 11/20 102Z (72) Inventor Ramming James Christopher Men Lopark Sharon Park Drive 350 Apartment N-103 (72 Inventor Lear Kenneth G United States Birwin West 35 Street 7108, Illinois, USA 7108 (72) Inventor Tucky Curtis Duane United States Illinois, Chicago North Rhodes 3546 Provide to document server via protocol channel.
Claims (1)
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US63580196A | 1996-04-22 | 1996-04-22 | |
US08/635,801 | 1996-04-22 | ||
PCT/US1997/003690 WO1997040611A1 (en) | 1996-04-22 | 1997-03-18 | Method and apparatus for information retrieval using audio interface |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH11510977A true JPH11510977A (en) | 1999-09-21 |
Family
ID=24549170
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP9538046A Ceased JPH11510977A (en) | 1996-04-22 | 1997-03-18 | Method and apparatus for extracting information using audio interface |
Country Status (7)
Country | Link |
---|---|
EP (1) | EP0834229A1 (en) |
JP (1) | JPH11510977A (en) |
KR (1) | KR19990028327A (en) |
CA (1) | CA2224712A1 (en) |
IL (1) | IL122647A (en) |
MX (1) | MX9710150A (en) |
WO (1) | WO1997040611A1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001296991A (en) * | 2000-04-13 | 2001-10-26 | Canon Inc | Data processing apparatus, data processing method and recording medium |
JP2006508596A (en) * | 2002-11-29 | 2006-03-09 | ストリームワイド | Method for processing network audio data and apparatus for performing the method |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2317070A (en) * | 1996-09-07 | 1998-03-11 | Ibm | Voice processing/internet system |
WO1998035491A1 (en) * | 1997-02-05 | 1998-08-13 | British Telecommunications Public Limited Company | Voice-data interface |
EP1062798A1 (en) * | 1998-03-10 | 2000-12-27 | Siemens Corporate Research, Inc. | A system for browsing the world wide web with a traditional telephone |
US20010012350A1 (en) * | 1998-03-11 | 2001-08-09 | James Ehlinger | Method and apparatus for facilitating internet access from a telecommunications network |
US6675054B1 (en) * | 1998-04-20 | 2004-01-06 | Sun Microsystems, Inc. | Method and apparatus of supporting an audio protocol in a network environment |
AU5126999A (en) * | 1998-07-24 | 2000-02-14 | Motorola, Inc. | Telecommunication audio processing systems and methods therefor |
IL142364A0 (en) * | 1998-10-02 | 2002-03-10 | Ibm | Conversational computing via conversational virtual machine |
WO2000025486A1 (en) * | 1998-10-23 | 2000-05-04 | Nokia Networks Oy | Method and apparatus for distributing an audio or video information |
AUPP713598A0 (en) * | 1998-11-17 | 1998-12-10 | Telstra R & D Management Pty Ltd | A data access system and method |
US7082397B2 (en) * | 1998-12-01 | 2006-07-25 | Nuance Communications, Inc. | System for and method of creating and browsing a voice web |
US6393107B1 (en) | 1999-05-25 | 2002-05-21 | Lucent Technologies Inc. | Method and apparatus for creating and sending structured voicemail messages |
US6459774B1 (en) | 1999-05-25 | 2002-10-01 | Lucent Technologies Inc. | Structured voicemail messages |
US6240391B1 (en) | 1999-05-25 | 2001-05-29 | Lucent Technologies Inc. | Method and apparatus for assembling and presenting structured voicemail messages |
FR2794924B1 (en) * | 1999-06-08 | 2004-04-02 | Aplio Sa | METHOD AND SYSTEM FOR ACCESSING A MULTIMEDIA VOICE SERVER VIA AN INTERNET COMPUTER COMMUNICATION NETWORK |
US7308462B1 (en) | 1999-10-29 | 2007-12-11 | Nortel Networks Limited | Methods and systems for building and distributing audio packages |
US7376710B1 (en) * | 1999-10-29 | 2008-05-20 | Nortel Networks Limited | Methods and systems for providing access to stored audio data over a network |
DE19959850A1 (en) * | 1999-12-10 | 2001-06-13 | Deutsche Telekom Ag | Communication system and method for providing Internet access by telephone |
US6424945B1 (en) | 1999-12-15 | 2002-07-23 | Nokia Corporation | Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection |
EP1122636A3 (en) | 2000-02-03 | 2007-11-14 | Siemens Corporate Research, Inc. | System and method for analysis, description and voice-driven interactive input to html forms |
AU2001243166A1 (en) * | 2000-02-18 | 2001-08-27 | Penguinradio, Inc. | Internet wired audio device |
SG98374A1 (en) * | 2000-03-14 | 2003-09-19 | Egis Comp Systems Pte Ltd | A client and method for controlling communications thereof |
US6823311B2 (en) | 2000-06-29 | 2004-11-23 | Fujitsu Limited | Data processing system for vocalizing web content |
US6751593B2 (en) * | 2000-06-30 | 2004-06-15 | Fujitsu Limited | Data processing system with block attribute-based vocalization mechanism |
EP1178656A1 (en) * | 2000-08-02 | 2002-02-06 | Passcall Advanced Technologies Ltd | System and method for computerless surfing of an information network |
EP1233590A1 (en) | 2001-02-19 | 2002-08-21 | Sun Microsystems, Inc. | Content provider for a computer system |
EP1246439A1 (en) * | 2001-03-26 | 2002-10-02 | Alcatel | System and method for voice controlled internet browsing using a permanent D-channel connection |
US7735101B2 (en) | 2006-03-28 | 2010-06-08 | Cisco Technology, Inc. | System allowing users to embed comments at specific points in time into media presentation |
IT1394765B1 (en) * | 2009-07-08 | 2012-07-13 | Onering S R L | DOCUMENT COLLECTION AND MANAGEMENT DEVICE, AND CONTROL OF THE USE OF SUCH DOCUMENTS, AND METHOD OF USE OF SUCH DEVICE |
-
1997
- 1997-03-18 JP JP9538046A patent/JPH11510977A/en not_active Ceased
- 1997-03-18 IL IL12264797A patent/IL122647A/en not_active IP Right Cessation
- 1997-03-18 KR KR1019970709642A patent/KR19990028327A/en active Search and Examination
- 1997-03-18 EP EP97915886A patent/EP0834229A1/en not_active Withdrawn
- 1997-03-18 CA CA002224712A patent/CA2224712A1/en not_active Abandoned
- 1997-03-18 WO PCT/US1997/003690 patent/WO1997040611A1/en not_active Application Discontinuation
- 1997-12-15 MX MX9710150A patent/MX9710150A/en not_active IP Right Cessation
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001296991A (en) * | 2000-04-13 | 2001-10-26 | Canon Inc | Data processing apparatus, data processing method and recording medium |
JP4565585B2 (en) * | 2000-04-13 | 2010-10-20 | キヤノン株式会社 | Data processing apparatus, data processing method, and recording medium |
JP2006508596A (en) * | 2002-11-29 | 2006-03-09 | ストリームワイド | Method for processing network audio data and apparatus for performing the method |
JP4813798B2 (en) * | 2002-11-29 | 2011-11-09 | ストリームワイド | Method for processing network audio data and apparatus for performing the method |
Also Published As
Publication number | Publication date |
---|---|
MX9710150A (en) | 1998-07-31 |
EP0834229A1 (en) | 1998-04-08 |
WO1997040611A1 (en) | 1997-10-30 |
KR19990028327A (en) | 1999-04-15 |
IL122647A (en) | 2002-05-23 |
IL122647A0 (en) | 1998-08-16 |
CA2224712A1 (en) | 1997-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH11510977A (en) | Method and apparatus for extracting information using audio interface | |
KR100566014B1 (en) | Methods and devices for voice conversation over a network using parameterized conversation definitions | |
US7308484B1 (en) | Apparatus and methods for providing an audibly controlled user interface for audio-based communication devices | |
JP4118395B2 (en) | Voice response method and system via computer network | |
US7054818B2 (en) | Multi-modal information retrieval system | |
US6445694B1 (en) | Internet controlled telephone system | |
US20060064499A1 (en) | Information retrieval system including voice browser and data conversion server | |
WO2003063137A1 (en) | Multi-modal information delivery system | |
US8364490B2 (en) | Voice browser with integrated TCAP and ISUP interfaces | |
Danielsen | The promise of a voice-enabled Web | |
US7502993B1 (en) | Calling service using voice enabled web based application server | |
US20020112081A1 (en) | Method and system for creating pervasive computing environments | |
US7054421B2 (en) | Enabling legacy interactive voice response units to accept multiple forms of input | |
WO2000030329A1 (en) | A data access system and method | |
US8644465B2 (en) | Method for processing audio data on a network and device therefor | |
CA2471133A1 (en) | Method for exchanging information by means of voice over a packet-oriented network | |
US20020080805A1 (en) | Method for establishing a telecommunications connection and service units and programme modules therefore | |
AU1535900A (en) | A data access system and method | |
MXPA98002752A (en) | Method and apparatus for voice interaction in a network, using definitions of interaction with paramet |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040316 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20040316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070710 |
|
A313 | Final decision of rejection without a dissenting response from the applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A313 Effective date: 20071128 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20080115 |