WO2021245997A1 - 言語学習支援装置、プログラム及び情報処理方法 - Google Patents
言語学習支援装置、プログラム及び情報処理方法 Download PDFInfo
- Publication number
- WO2021245997A1 WO2021245997A1 PCT/JP2021/006599 JP2021006599W WO2021245997A1 WO 2021245997 A1 WO2021245997 A1 WO 2021245997A1 JP 2021006599 W JP2021006599 W JP 2021006599W WO 2021245997 A1 WO2021245997 A1 WO 2021245997A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- unit
- phrase
- words
- sort
- language learning
- Prior art date
Links
- 230000010365 information processing Effects 0.000 title claims description 14
- 238000003672 processing method Methods 0.000 title claims description 6
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000004364 calculation method Methods 0.000 claims description 24
- 238000012217 deletion Methods 0.000 claims description 19
- 230000037430 deletion Effects 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 11
- 238000000034 method Methods 0.000 claims description 8
- 239000000463 material Substances 0.000 abstract description 14
- 238000005516 engineering process Methods 0.000 abstract description 2
- 238000012545 processing Methods 0.000 description 69
- 238000004891 communication Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 18
- 238000003058 natural language processing Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 8
- 239000000284 extract Substances 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000015654 memory Effects 0.000 description 3
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- APTZNLHMIGJTEW-UHFFFAOYSA-N pyraflufen-ethyl Chemical compound C1=C(Cl)C(OCC(=O)OCC)=CC(C=2C(=C(OC(F)F)N(C)N=2)Cl)=C1F APTZNLHMIGJTEW-UHFFFAOYSA-N 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B19/00—Teaching not covered by other main groups of this subclass
- G09B19/06—Foreign languages
Definitions
- the present invention relates to a language learning support device, a program, and an information processing method.
- Patent Document 1 discloses a teaching material creation support system that supports the creation of teaching materials.
- the present invention has decided to provide a technique that enables the creation of language learning teaching materials based on objective data.
- a language learning support device includes a word extraction unit, a counting unit, and a sorting unit.
- the word extraction unit is configured to extract words contained in a sentence.
- the counting unit is configured to count the number of occurrences of words and phrases.
- a phrase is a unit that treats a plurality of extracted words as a combination of a plurality of words arranged in the order of appearance of a sentence.
- the sort unit is configured to sort the counted phrases based on the number of occurrences.
- the program for realizing the software appearing in the present embodiment may be provided as a non-transitory recording medium (Non-Transity Computer-Readable Medium) that can be read by a computer, or may be downloaded from an external server. It may be provided as possible, or it may be provided so that the program is started by an external computer and the function is realized by the client terminal (so-called cloud computing).
- Non-Transity Computer-Readable Medium Non-Transity Computer-Readable Medium
- the "part" may include, for example, a combination of hardware resources implemented by a circuit in a broad sense and information processing of software specifically realized by these hardware resources. ..
- various information is handled in this embodiment, and these information are, for example, physical values of signal values representing voltage and current, and signal values as a bit aggregate of a binary number composed of 0 or 1. It is represented by high and low or quantum superposition (so-called qubit), and communication / operation can be executed on a circuit in a broad sense.
- a circuit in a broad sense is a circuit realized by at least appropriately combining a circuit, a circuit, a processor, a memory, and the like. That is, an integrated circuit for a specific application (Application Specific Integrated Circuit: ASIC), a programmable logic device (for example, a simple programmable logic device (Simple Programmable Logic Device: SPLD), a composite programmable logic device (Complex Program)) It includes a programmable gate array (Field Programgable Gate Array: FPGA) and the like.
- FIG. 1 is a block diagram showing a hardware configuration of the language learning support device 3 according to the first embodiment.
- the language learning support device 3 is implemented by installing a dedicated program on the computer.
- the language learning support device 3 has a communication unit 31, a storage unit 32, a control unit 33, a display unit 34, and an input unit 35, and these components are communication buses inside the language learning support device 3. It is electrically connected via 30. Each component will be further described.
- Communication unit 31 Although wired communication means such as USB, IEEE1394, Thunderbolt, and wired LAN network communication are preferable, the communication unit 31 can perform wireless LAN network communication, mobile communication such as LTE / 3G, Bluetooth (registered trademark) communication, and the like as necessary. May be included. That is, it is more preferable to carry out as a set of these plurality of communication means.
- the storage unit 32 stores various information defined by the above description. This is, for example, as a storage device such as a solid state drive (SSD) for storing various programs and the like related to the language learning support device 3 executed by the control unit 33, or temporarily related to the calculation of the program. It can be implemented as a memory such as a random access memory (Random Access Memory: RAM) that stores necessary information (arguments, arrays, etc.). Further, these combinations may be used.
- Control unit 33 The control unit 33 processes and controls the overall operation related to the language learning support device 3.
- the control unit 33 is, for example, a central processing unit (CPU) (not shown).
- the control unit 33 realizes various functions related to the language learning support device 3 by reading out a predetermined program stored in the storage unit 32. That is, information processing by software (stored in the storage unit 32) is specifically realized by hardware (control unit 33), and is executed as each functional unit (see FIG. 2) included in the control unit 33. Can be done. These will be described in more detail in the next section.
- the control unit 33 is not limited to a single unit, and may be implemented so as to have a plurality of control units 33 for each function. Further, it may be a combination thereof.
- the display unit 34 may be included in the housing of the language learning support device 3, or may be externally attached, for example.
- the display unit 34 displays a screen of a graphical user interface (GUI) that can be operated by the user.
- GUI graphical user interface
- the display device can selectively display the display screen in response to the control signal of the output unit 338 in the control unit 33. As a result, the display unit 34 can visually display the sort result S by the user.
- the input unit 35 may be included in the housing of the language learning support device 3 or may be externally attached.
- the input unit 35 may be implemented as a touch panel integrally with the display unit 34. If it is a touch panel, the user can input a tap operation, a swipe operation, and the like.
- a switch button, a mouse, a QWERTY keyboard, or the like may be adopted. That is, the input unit 35 receives the operation input made by the user.
- the input is transferred to the control unit 33 as a command signal via the communication bus 30, and the control unit 33 can execute predetermined control or calculation as needed.
- the user uses the input unit 35 to set the upper limit of the number of words to be included in the phrase, whether or not natural language processing is possible, the number of words of the adopted phrase 4, the display condition of the sort result S, the processing condition of the sentence data T1, and the like. You can enter it.
- FIG. 2 is a functional block diagram showing the functions of the language learning support device 3.
- the information processing by the software stored in the storage unit 32
- the hardware control unit 33
- the language learning support device 3 (control unit 33) has a reception unit 331, a setting unit 332, a processing unit 333, a word extraction unit 334, a count unit 335, a sort unit 336, and duplicate deletion.
- a unit 337 and an output unit 338 are provided.
- the reception unit 331 receives information via the communication unit 31 or the storage unit 32, and is configured to be readable in the working memory.
- the reception unit 331 is configured to receive various information via the communication unit 31, the storage unit 32, or the input unit 35.
- the reception unit 331 accepts the text data T1 and information related to the processing settings of the text data T1 as input data.
- Information on processing settings such as sentence data T1, sentence data T1, and phrase group F may be read out in advance in the storage unit 32 of the language learning support device 3, or may be stored in an external medium. You may try to read things. Alternatively, the user may directly create these data or information using the input unit 35, or may download these data or information from the outside via the communication unit 31.
- the setting unit 332 sets the processing conditions by the language learning support device 3 based on various information received by the reception unit 331. Specifically, for example, the setting unit 332 sets the upper limit of the number of words to be included in the phrase, the presence / absence of natural language processing, the number of words included in the adopted phrase 4, and the sort result based on the information regarding the processing setting of the sentence data T1. Set the processing conditions of the text data T1 such as the display condition of S.
- Various settings by the setting unit 332 are stored in the storage unit 32 as a setting file. That is, the setting unit 332 makes various settings based on the processing conditions, and reflects the processing conditions of the sentence data T1 received by the reception unit 331 in the information processing of the language learning support device 3. The details of the processing conditions will be described in detail in the next section.
- the processing unit 333 processes the file including the sentence data T1 and the words, symbols, numbers and the like included in the sentence data T1 based on the settings made by the setting unit 332. Specifically, the files including the sentence data T1 are combined / divided, the format of the sentence data T1 is converted, and the words and phrases including arbitrary symbols are deleted.
- the word extraction unit 334 extracts words included in the sentence based on a predetermined input in the sentence. It should be noted that the word extraction unit 334 extracts symbols and numbers included in the sentence together with the word.
- the counting unit 335 is configured to count the number of occurrences of words and phrases. Further, when the upper limit value is set, the counting unit 335 is configured to count the number of occurrences of words and phrases equal to or less than the set upper limit value.
- the sort unit 336 sorts the counted words and phrases based on the number of occurrences.
- the sort unit 336 sorts the adopted phrase 4 based on the number of occurrences. Further, the sort unit may sort the phrases counted by the count unit 335 based on the appearance degree F4. As a result, words and phrases that appear frequently are shown in a ranking format.
- the duplicate deletion unit 337 is configured to determine the adopted phrase 4 by deleting a part of the plurality of phrases. ..
- the output unit 338 outputs the sort result S, which is displayed on the display unit 34 of the language learning support device 3.
- the sort result S output by the output unit 338 is, for example, the sort result S18 to the sort result S22, and the details will be described later.
- FIG. 3 is an activity diagram showing an operation flow of the language learning support device 3. Hereinafter, each activity in FIG. 3 will be described.
- the user uses the input unit 35 to read the information regarding the processing settings of the sentence data T1 and the sentence data T1 into the dedicated program pre-installed in the language learning support device 3.
- the reception unit 331 receives information regarding the processing settings of the text data T1 and the text data T1 (activity A1).
- the reception unit 331 may accept the text data T1 that has been processed in natural language.
- the file format of the text data T1 is, for example, a text format (.txt or .csv).
- the text data T1 may consist of a plurality of files or may be a single file.
- the text data T1 is preferably a language corpus, but any kind of material such as academic papers, newspapers, speeches, etc., is not limited as long as it is composed of any language.
- the sentence data T1 is preferably composed of hundreds of millions of words or more, but is not limited to this, and may be 1000 words or less.
- the information regarding the processing settings of the sentence data T1 is, for example, information such as an upper limit of the number of words to be included in the phrase, a setting regarding natural language processing, and a setting regarding a file division unit.
- the language of the sentence data T1 is not particularly limited, but is, for example, English, Chinese, French, German, Spanish, Russian, Portuguese, Malawi, Arabic, and the like. In this embodiment, English is used as an example.
- the setting unit 332 sets the upper limit of the number of words to be included in the phrase based on the processing setting received in the activity A1 (activity A2). At this time, the processing conditions of the sentence data T1 such as the setting related to the natural language processing and the number of words of the adopted phrase 4 are set.
- the processing unit 333 divides the file for each predetermined number of words (activity A3).
- the predetermined number of words is, for example, 10,000 words, 1 million words, etc., based on the processing settings of the setting unit 332.
- the processing unit 333 combines all the files before dividing the files and then divides the files. For example, if the total number of words contained in the file is 1 billion words, the processing unit 333 divides the file into 1000 files for every 1 million words.
- the processing unit 333 converts the characters, numbers, and symbols included in the text data T1 into a predetermined format based on the settings made in the activity A2 (activity A4). Further, the processing unit 333 deletes the line feed included in the text data T1. Specifically, for example, the processing unit 333 converts full-width characters (including alphanumericals and symbols) in the text into half-width characters, and also converts uppercase letters of the alphabet into lowercase letters. Further, the processing unit 333 deletes the line feed included in the text data T1.
- FIG. 4 is a diagram showing the text data T1 and the result of the conversion process by the processing unit 333.
- the text data T1 shown in FIG. 4 is the text data T1 received in the activity A1.
- the intermediate data T10 is a processing result when the line feed included in the text data T1 is deleted by the processing unit 333.
- the intermediate data T11 is a processing result when the uppercase letters included in the text are converted into lowercase letters by the processing unit 333.
- the processing unit 332 when the processing unit 332 is set to perform natural language processing, the processing unit 333 replaces each word in the sentence with a part of speech.
- the intermediate data T12 is the processing result when a part of the sentence "my father's dragon chapter one my father meets" is converted and replaced with "qualifier, qualifier, noun, number, qualifier, noun, verb". This is an example.
- the intermediate data T12 an example of performing natural language processing regardless of the type of word is shown, but such processing may be performed only for a specific word based on the setting of the setting unit 332. For example, when the setting unit 332 is set to perform natural language processing only for "a” or "the”, natural language processing may be performed only for "a” or "the".
- the word extraction unit 334 extracts words, symbols, and numbers (hereinafter, words, etc.) included in the sentence data T1 based on predetermined inputs (for example, spaces, tab symbols, or line breaks) in the sentence (activity A5). .. Further, when a word or the like is extracted, the processing unit 333 generates a word list in which the extracted words or the like are arranged in the order of appearance of the sentence, and a phrase composed of words or the like having an upper limit or less based on the word list. Generate a phrase list containing (Activity A6). It should be noted that the processing unit 333 considers the symbols and numbers extracted together with the words as one word, respectively, and creates a word list and a phrase list.
- a phrase is a unit that treats a plurality of extracted words as a combination of a plurality of words arranged in the order of appearance of a sentence.
- 5 and 6 are diagrams showing the results of conversion processing by the processing unit 333.
- the processing unit 333 when the upper limit value is 2, after the word included in the sentence data T1 is extracted by the word extraction unit 334, the processing unit 333 generates a word list (for example, intermediate data T13) (FIG. 5). Further, the processing unit 333 generates a phrase list (for example, intermediate data T15) in which the extracted words are listed as phrases for every two words based on the word list.
- the two-word phrase is "my father” in the order of appearance of the sentence. "S”, “dragon chapter” and “father's dragon”, “chipter one” are listed. That is, any consecutive combination is listed as a phrase. More generalized, in the case of n-word phrases, n ways of listing can be considered. By doing so, a complete listing is realized. As a result, the sentence data T1 is converted into two lists (word list and phrase list of two words) by the processing unit 333. Since it is complicated to list and explain any continuous combination, in the following, a representative one of the continuous arbitrary combinations will be selected and described as a representative example. ..
- the processing unit 333 When the upper limit value is 3, the processing unit 333 generates three phrase lists including the phrase of three words in addition to the above-mentioned word list and the phrase list including two words. In such a case, the extracted words are listed in the order of appearance of the sentence, with "my father's dragon" as a representative example of the phrase of three words (not shown).
- phrase list containing four words and a phrase list containing five words are generated, and a total of five word lists or phrase lists are generated.
- each symbol and number is treated as one word. That is, when “little", “boy”, and “.” Are listed in the word list and these are treated as one phrase, "little boy.” Is regarded as a three-word phrase.
- the processing unit 333 deletes the predetermined symbol extracted together with the word and the phrase including the predetermined symbol based on the processing setting (activity A7). For example, when the setting unit 332 is set to delete symbols such as commas, periods, question marks, and double quotation marks, the processing unit 333 deletes the intermediate data T13 and then deletes the intermediate data. Generate T14. Further, in the phrase list composed of two-word phrases, as shown in FIG. 6, the processing unit 333 may use the phrases indicated by the intermediate data T15 as "boy.” "Street.” The phrase related to "?” Is deleted and intermediate data T16 is generated (FIG. 6).
- the word list (for example, intermediate data T14) and phrase list (for example, intermediate data T16) generated here are , Preferably generated in text format.
- the counting unit 335 counts the number of occurrences of words and phrases equal to or less than the set upper limit value (activity A8). Further, when the number of appearances is counted, the sort unit 336 sorts the counted phrases based on the number of appearances. That is, the sort unit 336 arranges the words or phrases that appear in the sentence in descending order of the number of occurrences.
- FIG. 7 is a diagram showing a sort result S by the sort unit 336. Is displayed. For example, the sort result S10 is arranged in descending order of the number of occurrences of words included in the word list. Further, in the sort result S11, the phrases included in the phrase list of two words are arranged in descending order of the number of occurrences.
- the duplicate deletion unit 337 determines the adopted phrase 4 by deleting a part of the plurality of phrases (Activity A9).
- the adopted phrase 4 is preferably determined based on the number of words included in the phrase. More specifically, the adopted phrase 4 is preferably a phrase having the maximum or minimum number of words contained in the phrase. The determination of whether the adopted phrase 4 is the maximum phrase or the minimum phrase and the determination of the number of words included in the adopted phrase 4 are based on the processing settings of the sentence data T1 made by the setting unit 332. It will be.
- FIG. 8 is a diagram showing the sort result S before and after the duplicate deletion.
- FIG. 8 shows an example in which the upper limit value is set to 3 and the adopted phrase 4 is set as the maximum number of words included in the phrase. For example, referring to the sort result S12 to the sort result S14 before deleting duplicates, the word “he” appears three times, the phrase “he is” twice, and the phrase "he is a student” twice in the sentence. When it appears, the duplicate deletion unit 337 deletes "he” and "he is” that are duplicated in each sort result S, determines the adoption phrase 4 as "he is a student", and sort result S15. -Generates the sort result S17.
- the duplicate deletion unit 337 deletes the rest of the plurality of phrases except for one adopted phrase 4.
- FIG. 8 refer to FIG. 8 as an example when the phrase with the largest number of words included in the phrase is set as the adopted phrase 4.
- the phrases included in the sort result S12 and the sort result S13 other than the sort result S14 having the maximum number of words are deleted. That is, the phrase included in the sort result S14 is preferentially left as the adopted phrase 4. More specifically, when the sort results S before and after the duplicate deletion are compared, "he”, “is”, “a”, "he is” and "is a" are included in the phrases of the sort result S14, respectively.
- the number of words included in the adopted phrase 4 has a lower limit of 1, and there is no upper limit, but it is preferably 3 or more and 20 or less. Specifically, it is 3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20, and any of the numerical values exemplified here. It may be within the range between the two.
- the number of words included in the adopted phrase 4 is set to 4, and each phrase having the number of words 3 to 20 contains the same combination of words, the number of words is 3 and 5.
- ⁇ 20 phrases are deleted, and the phrase with 4 words is left as the adopted phrase 4.
- a phrase having a number of words suitable for language learning is preferentially left as the adopted phrase 4, and the learner can learn the language more efficiently.
- the sort unit 336 sorts the adopted phrase 4 based on the number of occurrences (activity A10). Then, when the natural language processing is not performed, the output unit 338 outputs such a result (activity A11). Then, the display unit 34 displays the output sort result S. As a result, the user can confirm the word or phrase that appears frequently in the sentence in the ranking format, and the learner can learn the language based on the objective data.
- FIG. 9 is an example of the sort result S displayed on the display unit 34.
- the sort result S18, the sort result S19, and the sort result S20 are the sort results S in the phrases of 2 words, 3 words, and 5 words, respectively.
- the sort result S is displayed based on the display setting of the sort result S set by the setting unit 332.
- the display setting of the sort result S is, for example, a setting for displaying only words and phrases having an appearance frequency of two or more times, and a setting for displaying only words and phrases having the top ten appearance frequencies.
- the sort result S18 to the sort result S22 are examples of the sort result S displayed based on the setting of displaying only words and phrases having an appearance frequency of 3 times or more.
- FIG. 10 is an example of a diagram showing phrases before and after the conversion process by the processing unit 333.
- the processing unit 333 converts a phrase in which a predetermined word included in a sentence is replaced with a predetermined part of speech into a predetermined character. That is, the processing unit 333 converts "be going to verb" and "have to verb” into “be going to do” and "have to do” (see sort result S24 and sort result S24).
- the output unit 338 outputs the sort result S (activity A13). Even when natural language processing is performed, the activity A12 is skipped and the sort result S is output with each word replaced with a predetermined part of speech as in the sort result S22. You may.
- the sort unit 336 may sort the adopted phrase 4 based on the number of occurrences regardless of the number of words. Specifically, after the activity A10 or the activity A12, the processing unit 333 adds up the sort result S18 to the sort result S20, and the sort unit 336 sorts the processing result in the activity A11 or the activity A13 based on the number of occurrences. You may.
- the sort result S21 is the result of sorting the adopted phrases 4 regardless of the number of words included in each phrase when the upper limit value is set to 5. That is, not the ranking of the number of occurrences of the phrase by the number of words, but the overall ranking showing the sort results S having different numbers of words.
- the language learning support device 3 it is possible to generate a ranking of words and phrases based on the frequency of actual use by using the sentence data T1 as an input. By using such rankings, it is possible to create language learning materials based on more objective data, and it is thought that it will contribute to language learning support. Further, in the present embodiment, since the language learning support device 3 in which the dedicated program is installed is used, it can be used even in an offline environment and is suitable for handling a large amount of sentence data T1.
- FIG. 11 is a diagram showing an outline of the configuration of the system 1 according to the present embodiment.
- the system 1 includes a terminal 2 and a language learning support device 3, which are configured to be communicable through a telecommunication line.
- the terminal 2 may be in any form as long as it can access the language learning support device 3 through a smartphone, a tablet terminal, a computer, or any other telecommunication line.
- the terminal 2 has a communication unit, a storage unit, a control unit, a display unit, and an input unit, and these components are electrically connected to each other inside the terminal 2 via a communication bus.
- the communication unit the storage unit, the control unit, the display unit, and the input unit
- the communication unit 31 the storage unit 32, the control unit 33, the display unit 34, and the language learning support device 3 described in Section 1
- the input unit 35 Please refer to the description of the input unit 35.
- the language learning support device 3 has a communication unit 31, a storage unit 32, and a control unit 33 as hardware configurations, and these components are electrically connected to the inside of the language learning support device 3 via the communication bus 30. Is connected.
- the language learning support device 3 (control unit 33) in the second embodiment has a reception unit 331, a setting unit 332, a processing unit 333, a word extraction unit 334, and a counting unit 335 as functional configurations. It includes a sort unit 336, a duplicate deletion unit 337, and an output unit 338.
- the reception unit 331 is configured to receive various information from the terminal 2 used by the user via the network and the communication unit 31. Specifically, the reception unit 331 receives the sentence data T1 from the terminal 2 and the information regarding the processing setting of the sentence data T1 in the language learning support device 3.
- the output unit 338 outputs the sort result S, which is displayed on the display unit of the terminal 2.
- the output unit 338 may generate only the rendering information for displaying the sort result S on the terminal 2.
- the system 1 it is possible to generate a ranking of words and phrases based on the frequency of actual use by inputting the sentence data T1.
- rankings it is possible to create language learning materials based on more objective data, and it is thought that it will contribute to language learning support.
- the user is configured to be able to access the language learning support device 3 which is an external server via the terminal 2, and many users can generate the ranking more affordably.
- FIG. 12 is a functional block diagram showing the functions of the language learning support device 3 according to the third embodiment. Specifically, the language learning support device 3 further includes a calculation unit 339.
- FIG. 13 is an activity diagram showing the flow of operation of the language learning support device 3. Hereinafter, each activity in FIG. 13 will be described.
- the user may use the input unit 35 to read the phrase group F, the frequency data T5, and the weighted data T6 into a dedicated program pre-installed in the language learning support device 3 as input data. Further, at this time, the user may read the information related to the weighting processing condition as input data.
- the reception unit 331 receives these input data (A101). That is, the reception unit 331 receives the phrase group F and the frequency data T5.
- the input data received by the reception unit 331 is stored in the storage unit 32.
- FIG. 14 is a diagram showing an example of input data.
- the phrase group F includes a plurality of phrases including a word or two or more words.
- the duplicate deletion unit 337 may delete the duplicate phrases.
- Frequency data T5 is data indicating the number of times a word or phrase appears. Specifically, the frequency data T5 is data in which a word or phrase is associated with the number of occurrences thereof. According to the example of FIG. 14, it is shown that the number of appearances of "This" is 10 and the number of appearances of "is” is 20.
- the duplicate deletion unit 337 may delete the duplicate after adding up the number of occurrences of the duplicate word or phrase.
- Weighted data T6 is data indicating the weight of a specific word or phrase. According to the example of FIG. 14, among the words or phrases included in the frequency data T5, “good”, “this is”, and “now” are weighted with 5, 2, and 4, respectively. There is. Further, the information related to the weighting processing condition is, for example, information related to a condition for uniformly weighting a specific type of word or phrase.
- the calculation unit 339 calculates the appearance degree F4 of each word or each phrase included in the phrase group F based on the phrase group F and the frequency data T5 (A102). Specifically, the calculation unit 339 calculates the appearance degree F4 from the total number of appearances of each word or each phrase included in the phrase group F with reference to the frequency data T5.
- FIG. 15 is a diagram showing an example of a processing result by the control unit 33.
- the intermediate data T17 is an example of the calculated appearance degree F4a.
- the calculation unit 339 includes the words “this", “is”, and “good” included in “this is good”.
- 65 which is the total of the number of appearances (10 times, 20 times, 30 times, respectively) and the number of appearances of the phrase "this is” included in "this is good” (5 times), is calculated by the number of words in this phrase. Divide by 3 and calculate 21.67 as the appearance degree F4a of "this is good".
- the calculation unit 339 calculates the appearance degree F4a after performing rounding. Specifically, for example, the calculation unit 339 calculates the number rounded to the third decimal place as the appearance degree F4a. In this way, the appearance degree F4a is calculated for all the phrases included in the phrase group F.
- the calculation unit 339 may calculate the appearance degree F4 after weighting a specific word or phrase based on the weighting data T6 and the information related to the weighting processing condition.
- FIGS. 14 and 15 An example in which the calculation unit 339 calculates the appearance degree F4b of “this is good” based on the weighted data T6 will be described with reference to.
- the intermediate data T18 is an example of the calculated appearance degree F4b.
- the calculation unit 339 In the weighted data T6, a weight of a value 3 is given to "good” included in “this is good". Therefore, in the frequency data T5, the calculation unit 339 considers that the number of appearances of "good” is 30 times, and the number of appearances of "good” is 90 times by multiplying this by 3. Calculate F4b. That is, the calculation unit 339 includes the number of appearances (10 times, 20 times, 90 times, respectively) of the words “this", “is”, and “good” included in “this is good” and the phrase “this is”. The total of 125, which is the total number of appearances of "" (5 times), is divided by 3, which is the number of words in this phrase, and 41.67 is calculated as the appearance degree F4b of "this is good".
- the appearance degree F4b is calculated for all the phrases included in the phrase group F.
- the calculation unit 339 can calculate the appearance degree F4 by various methods. For example, the calculation unit 339 may divide or multiply by a preset value the total number of occurrences of each word or each phrase included in the phrase group F without dividing by 3, which is the number of words in the phrase. It may be calculated as it is as the appearance degree F4b. Further, for example, the calculation unit 339 may perform a four-rule calculation on the total number of occurrences of each word or each phrase included in the phrase group F with the phrase having the largest number of words among the phrases included in the phrase group F.
- the calculation unit 339 performs natural language processing and then determines the number of appearances of the verb included in the frequency data T5.
- the appearance degree F4 may be calculated by doubling.
- the calculation unit 339 increases the number of appearances of the nouns included in the frequency data T5 by 0.5 times and the appearance degree F4. May be calculated.
- the calculation unit 339 can calculate the appearance degree F4 by freely changing the magnitude of the weight depending on the conditions.
- the sort unit 336 sorts the phrases based on the appearance degree F4 (A103). Specifically, the sort unit 336 sorts the phrases in descending order of the appearance degree F4 included in the phrase group F.
- the sort result S25 is an example of the phrase group F sorted based on the appearance degree F4a.
- the sort result S26 is an example of the phrase group F sorted based on the appearance degree F4b. As a result, the phrase with a large number of occurrences calculated based on the frequency data T5 is shown in the ranking format.
- the sorting unit may sort the phrases counted by the counting unit 335 based on the appearance degree F4.
- the output unit 338 outputs the sort result S25 or the sort result S26 (A104). This ends the information processing in the third embodiment.
- the embodiment of the present embodiment may be a program. This program causes the computer to function as a language learning support device 3. (2) The above program may be pre-installed in the language learning support device 3, or it may be installed in a computer and implemented so as to function as the language learning support device 3 after the fact. (3) The embodiment of the present embodiment may be an information processing method.
- the information processing method includes a word extraction step, a count step, and a sort step.
- word extraction step the words contained in the sentence are extracted.
- the count step the number of occurrences of words and phrases is counted within the set upper limit.
- a phrase is a unit that treats a plurality of extracted words as a combination of a plurality of words arranged in the order of appearance of a sentence.
- the sort step the counted phrases are sorted based on the number of occurrences.
- the language learning support device further includes a setting unit, the setting unit is configured to be able to set an upper limit value of the number of words to be included in the phrase, and the counting unit is a word and a word equal to or less than the set upper limit value.
- a device configured to count the number of occurrences of the phrase.
- the language learning support device further includes a duplicate deletion unit, and when a plurality of the phrases include the same combination of the words, the duplicate deletion unit deletes a part of the plurality of the phrases. It is configured to determine an adopted phrase, and the sort unit is configured to sort the adopted phrase based on the number of occurrences.
- the duplicate deletion unit is configured to delete the rest of the plurality of phrases excluding one adopted phrase.
- the adopted phrase is determined based on the number of words included in the phrase.
- the adopted phrase is the phrase having the maximum or minimum number of words contained in the phrase.
- the number of words included in the adopted phrase is 3 or more and 20 or less.
- the language learning support device further includes a reception unit and a calculation unit, the reception unit is configured to receive a phrase group and frequency data, and the phrase group includes the word or the phrase.
- the frequency data is data indicating the number of occurrences of the word or the phrase
- the calculation unit is based on the phrase group and the frequency data, and the appearance degree of the word or the phrase included in the phrase group.
- the sorting unit is configured to sort the phrases counted by the counting unit based on the degree of appearance.
- the word and the number of occurrences of the phrase are counted, and the phrase is a unit that treats the extracted words as a combination of the words arranged in the order of appearance of the sentence, and is counted in the sort step.
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Machine Translation (AREA)
Abstract
【課題】客観的なデータに基づいた言語学習教材の作成を可能とする技術を提供すること。 【解決手段】本発明の一態様によれば、言語学習支援装置が提供される。この言語学習支援装置は、単語抽出部と、カウント部と、ソート部とを備える。単語抽出部は、文章に含まれる単語を抽出するように構成される。カウント部は、単語及びフレーズの出現回数をカウントするように構成される。フレーズとは、抽出された複数の単語を、文章の登場順に並ぶ複数の単語の組み合わせとして扱う単位である。ソート部は、カウントされたフレーズを出現回数に基づきソートするように構成される。
Description
本発明は、言語学習支援装置、プログラム及び情報処理方法に関する。
教育者が言語学習に関する教材を作成する際、学習者が効率よく言語学習できるように、日常生活やビジネスの中でよく使用される表現を優先的に収録した教材を作成するのが一般的である。特許文献1には、教材の作成を支援する教材作成支援システムが開示されている。
しかしながら、言語学習教材に収録する表現を選択する際、どのような表現が頻繁に使用されているかの判断は、教材作成者の経験則や、推測、勘等に基づいて行われる場合が多く、教材の内容が教材作成者の主観に左右されてしまうという問題が生じていた。
本発明では上記事情を鑑み、客観的なデータに基づいた言語学習教材の作成を可能とする技術を提供することとした。
本発明の一態様によれば、言語学習支援装置が提供される。この言語学習支援装置は、単語抽出部と、カウント部と、ソート部とを備える。単語抽出部は、文章に含まれる単語を抽出するように構成される。カウント部は、単語及びフレーズの出現回数をカウントするように構成される。フレーズとは、抽出された複数の単語を、文章の登場順に並ぶ複数の単語の組み合わせとして扱う単位である。ソート部は、カウントされたフレーズを出現回数に基づきソートするように構成される。
これにより、客観的なデータに基づいた言語学習教材の作成を可能とする技術を提供することができる。
以下、図面を用いて本発明の実施形態について説明する。以下に示す実施形態中で示した各種特徴事項は、互いに組み合わせ可能である。
ところで、本実施形態に登場するソフトウェアを実現するためのプログラムは、コンピュータが読み取り可能な非一時的な記録媒体(Non-Transitory Computer-Readable Medium)として提供されてもよいし、外部のサーバからダウンロード可能に提供されてもよいし、外部のコンピュータで当該プログラムを起動させてクライアント端末でその機能を実現(いわゆるクラウドコンピューティング)するように提供されてもよい。
また、本実施形態において「部」とは、例えば、広義の回路によって実施されるハードウェア資源と、これらのハードウェア資源によって具体的に実現されうるソフトウェアの情報処理とを合わせたものも含みうる。また、本実施形態においては様々な情報を取り扱うが、これら情報は、例えば電圧・電流を表す信号値の物理的な値、0又は1で構成される2進数のビット集合体としての信号値の高低、又は量子的な重ね合わせ(いわゆる量子ビット)によって表され、広義の回路上で通信・演算が実行されうる。
また、広義の回路とは、回路(Circuit)、回路類(Circuitry)、プロセッサ(Processor)、及びメモリ(Memory)等を少なくとも適当に組み合わせることによって実現される回路である。すなわち、特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)、プログラマブル論理デバイス(例えば、単純プログラマブル論理デバイス(Simple Programmable Logic Device:SPLD)、複合プログラマブル論理デバイス(Complex Programmable Logic Device:CPLD)、及びフィールドプログラマブルゲートアレイ(Field Programmable Gate Array:FPGA))等を含むものである。
1.ハードウェア構成(第1の実施形態)
本節では、本実施形態のハードウェア構成について説明する。図1は、第1の実施形態に係る言語学習支援装置3のハードウェア構成を示すブロック図である。言語学習支援装置3は、コンピュータに専用プログラムがインストールされることによって実施される。言語学習支援装置3は、通信部31と、記憶部32と、制御部33と、表示部34と、入力部35とを有し、これらの構成要素が言語学習支援装置3の内部において通信バス30を介して電気的に接続されている。各構成要素についてさらに説明する。
本節では、本実施形態のハードウェア構成について説明する。図1は、第1の実施形態に係る言語学習支援装置3のハードウェア構成を示すブロック図である。言語学習支援装置3は、コンピュータに専用プログラムがインストールされることによって実施される。言語学習支援装置3は、通信部31と、記憶部32と、制御部33と、表示部34と、入力部35とを有し、これらの構成要素が言語学習支援装置3の内部において通信バス30を介して電気的に接続されている。各構成要素についてさらに説明する。
(通信部31)
通信部31は、USB、IEEE1394、Thunderbolt、有線LANネットワーク通信等といった有線型の通信手段が好ましいものの、無線LANネットワーク通信、LTE/3G等のモバイル通信、Bluetooth(登録商標)通信等を必要に応じて含めてもよい。すなわち、これら複数の通信手段の集合として実施することがより好ましい。
通信部31は、USB、IEEE1394、Thunderbolt、有線LANネットワーク通信等といった有線型の通信手段が好ましいものの、無線LANネットワーク通信、LTE/3G等のモバイル通信、Bluetooth(登録商標)通信等を必要に応じて含めてもよい。すなわち、これら複数の通信手段の集合として実施することがより好ましい。
(記憶部32)
記憶部32は、前述の記載により定義される様々な情報を記憶する。これは、例えば、制御部33によって実行される言語学習支援装置3に係る種々のプログラム等を記憶するソリッドステートドライブ(Solid State Drive:SSD)等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報(引数、配列等)を記憶するランダムアクセスメモリ(Random Access Memory:RAM)等のメモリとして実施されうる。また、これらの組合せであってもよい。
記憶部32は、前述の記載により定義される様々な情報を記憶する。これは、例えば、制御部33によって実行される言語学習支援装置3に係る種々のプログラム等を記憶するソリッドステートドライブ(Solid State Drive:SSD)等のストレージデバイスとして、あるいは、プログラムの演算に係る一時的に必要な情報(引数、配列等)を記憶するランダムアクセスメモリ(Random Access Memory:RAM)等のメモリとして実施されうる。また、これらの組合せであってもよい。
(制御部33)
制御部33は、言語学習支援装置3に関連する全体動作の処理・制御を行う。制御部33は、例えば不図示の中央処理装置(Central Processing Unit:CPU)である。制御部33は、記憶部32に記憶された所定のプログラムを読み出すことによって、言語学習支援装置3に係る種々の機能を実現する。すなわち、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されることで、制御部33に含まれる各機能部(図2参照)として実行されうる。これらについては、次節においてさらに詳述する。なお、制御部33は単一であることに限定されず、機能ごとに複数の制御部33を有するように実施してもよい。またそれらの組合せであってもよい。
制御部33は、言語学習支援装置3に関連する全体動作の処理・制御を行う。制御部33は、例えば不図示の中央処理装置(Central Processing Unit:CPU)である。制御部33は、記憶部32に記憶された所定のプログラムを読み出すことによって、言語学習支援装置3に係る種々の機能を実現する。すなわち、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されることで、制御部33に含まれる各機能部(図2参照)として実行されうる。これらについては、次節においてさらに詳述する。なお、制御部33は単一であることに限定されず、機能ごとに複数の制御部33を有するように実施してもよい。またそれらの組合せであってもよい。
(表示部34)
表示部34は、例えば、言語学習支援装置3の筐体に含まれるものであってもよいし、外付けされるものであってもよい。表示部34は、ユーザが操作可能なグラフィカルユーザインターフェース(Graphical User Interface:GUI)の画面を表示する。これは例えば、CRTディスプレイ、液晶ディスプレイ、有機ELディスプレイ及びプラズマディスプレイ等の表示デバイスを、言語学習支援装置3の種類に応じて使い分けて実施することが好ましい。当該表示デバイスは、制御部33における出力部338の制御信号に応答して、表示画面を選択的に表示しうる。これにより、表示部34は、ソート結果Sをユーザが視認可能に表示することができる。
表示部34は、例えば、言語学習支援装置3の筐体に含まれるものであってもよいし、外付けされるものであってもよい。表示部34は、ユーザが操作可能なグラフィカルユーザインターフェース(Graphical User Interface:GUI)の画面を表示する。これは例えば、CRTディスプレイ、液晶ディスプレイ、有機ELディスプレイ及びプラズマディスプレイ等の表示デバイスを、言語学習支援装置3の種類に応じて使い分けて実施することが好ましい。当該表示デバイスは、制御部33における出力部338の制御信号に応答して、表示画面を選択的に表示しうる。これにより、表示部34は、ソート結果Sをユーザが視認可能に表示することができる。
(入力部35)
入力部35は、言語学習支援装置3の筐体に含まれるものであってもよいし、外付けされるものであってもよい。例えば、入力部35は、表示部34と一体となってタッチパネルとして実施されてもよい。タッチパネルであれば、ユーザは、タップ操作、スワイプ操作等を入力することができる。もちろん、タッチパネルに代えて、スイッチボタン、マウス、QWERTYキーボード等を採用してもよい。すなわち、入力部35がユーザによってなされた操作入力を受け付ける。当該入力が命令信号として、通信バス30を介して制御部33に転送され、制御部33が必要に応じて所定の制御や演算を実行しうる。
入力部35は、言語学習支援装置3の筐体に含まれるものであってもよいし、外付けされるものであってもよい。例えば、入力部35は、表示部34と一体となってタッチパネルとして実施されてもよい。タッチパネルであれば、ユーザは、タップ操作、スワイプ操作等を入力することができる。もちろん、タッチパネルに代えて、スイッチボタン、マウス、QWERTYキーボード等を採用してもよい。すなわち、入力部35がユーザによってなされた操作入力を受け付ける。当該入力が命令信号として、通信バス30を介して制御部33に転送され、制御部33が必要に応じて所定の制御や演算を実行しうる。
特に、ユーザは、入力部35を用いてフレーズに含める単語数の上限値や、自然言語処理の可否、採用フレーズ4の単語数、ソート結果Sの表示条件等、文章データT1の処理条件等を入力することができる。
2.機能構成
本節では、本実施形態の機能構成について説明する。図2は、言語学習支援装置3の機能を示す機能ブロック図である。前述の通り、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されることで、制御部33に含まれる各機能部として実行されうる。
本節では、本実施形態の機能構成について説明する。図2は、言語学習支援装置3の機能を示す機能ブロック図である。前述の通り、ソフトウェア(記憶部32に記憶されている)による情報処理がハードウェア(制御部33)によって具体的に実現されることで、制御部33に含まれる各機能部として実行されうる。
具体的には、言語学習支援装置3(制御部33)は、受付部331と、設定部332と、処理部333と、単語抽出部334と、カウント部335と、ソート部336と、重複削除部337と、出力部338とを備える。
(受付部331)
受付部331は、通信部31又は記憶部32を介して情報を受け付け、これを作業メモリに読出可能に構成される。特に、受付部331は、通信部31、記憶部32又は入力部35を介して種々の情報を受け付けるように構成される。具体的には、受付部331は、文章データT1と、文章データT1の処理設定に関する情報とを入力データとして受け付ける。文章データT1、文章データT1、フレーズ群F等の処理設定に関する情報は、言語学習支援装置3における記憶部32に予め記憶されているものを読み出すようにしてもよいし、外部メディアに記憶されたものを読み出すようにしてもよい。あるいはユーザが、入力部35を用いて、これらのデータ又は情報を直接作成してもよいし、通信部31を介して、外部からこれらのデータ又は情報をダウンロードするようにしてもよい。
受付部331は、通信部31又は記憶部32を介して情報を受け付け、これを作業メモリに読出可能に構成される。特に、受付部331は、通信部31、記憶部32又は入力部35を介して種々の情報を受け付けるように構成される。具体的には、受付部331は、文章データT1と、文章データT1の処理設定に関する情報とを入力データとして受け付ける。文章データT1、文章データT1、フレーズ群F等の処理設定に関する情報は、言語学習支援装置3における記憶部32に予め記憶されているものを読み出すようにしてもよいし、外部メディアに記憶されたものを読み出すようにしてもよい。あるいはユーザが、入力部35を用いて、これらのデータ又は情報を直接作成してもよいし、通信部31を介して、外部からこれらのデータ又は情報をダウンロードするようにしてもよい。
(設定部332)
設定部332は、受付部331が受け付けた種々の情報に基づき、言語学習支援装置3による処理条件を設定する。具体的には、例えば、設定部332は、文章データT1の処理設定に関する情報に基づき、フレーズに含める単語数の上限値や、自然言語処理の有無、採用フレーズ4に含まれる単語数、ソート結果Sの表示条件等、文章データT1の処理条件を設定する。設定部332による各種設定は、設定ファイルとして記憶部32に記憶される。すなわち、設定部332は、該処理条件に基づき各種設定を行うことで、受付部331が受け付けた文章データT1の処理条件を、言語学習支援装置3の情報処理に反映する。なお、処理条件の詳細は次節で詳述する。
設定部332は、受付部331が受け付けた種々の情報に基づき、言語学習支援装置3による処理条件を設定する。具体的には、例えば、設定部332は、文章データT1の処理設定に関する情報に基づき、フレーズに含める単語数の上限値や、自然言語処理の有無、採用フレーズ4に含まれる単語数、ソート結果Sの表示条件等、文章データT1の処理条件を設定する。設定部332による各種設定は、設定ファイルとして記憶部32に記憶される。すなわち、設定部332は、該処理条件に基づき各種設定を行うことで、受付部331が受け付けた文章データT1の処理条件を、言語学習支援装置3の情報処理に反映する。なお、処理条件の詳細は次節で詳述する。
(処理部333)
処理部333は、文章データT1を含むファイル及び文章データT1に含まれる単語、記号、数字等を設定部332による設定に基づき処理する。具体的には、文章データT1を含むファイルを結合・分割し、文章データT1の書式を変換し、任意の記号が含まれる単語及びフレーズを削除する。
処理部333は、文章データT1を含むファイル及び文章データT1に含まれる単語、記号、数字等を設定部332による設定に基づき処理する。具体的には、文章データT1を含むファイルを結合・分割し、文章データT1の書式を変換し、任意の記号が含まれる単語及びフレーズを削除する。
(単語抽出部334)
単語抽出部334は、文章中の所定入力に基づき、文章に含まれる単語を抽出する。なお、単語抽出部334は、単語とともに、文章に含まれる記号及び数字の抽出を行うことに留意されたい。
単語抽出部334は、文章中の所定入力に基づき、文章に含まれる単語を抽出する。なお、単語抽出部334は、単語とともに、文章に含まれる記号及び数字の抽出を行うことに留意されたい。
(カウント部335)
カウント部335は、単語及びフレーズの出現回数をカウントするように構成される。また、上限値が設定されている場合、カウント部335は、設定された上限値以下の単語及びフレーズの出現回数をカウントするように構成される。
カウント部335は、単語及びフレーズの出現回数をカウントするように構成される。また、上限値が設定されている場合、カウント部335は、設定された上限値以下の単語及びフレーズの出現回数をカウントするように構成される。
(ソート部336)
ソート部336は、カウントされた単語及びフレーズを出現回数に基づきソートする。また、採用フレーズ4が決定された場合、ソート部336は、採用フレーズ4を出現回数に基づきソートする。また、ソート部は、カウント部335によってカウントされたフレーズを出現度F4に基づきソートしてもよい。これにより、出現回数の多い単語及びフレーズがランキング形式で示されることとなる。
ソート部336は、カウントされた単語及びフレーズを出現回数に基づきソートする。また、採用フレーズ4が決定された場合、ソート部336は、採用フレーズ4を出現回数に基づきソートする。また、ソート部は、カウント部335によってカウントされたフレーズを出現度F4に基づきソートしてもよい。これにより、出現回数の多い単語及びフレーズがランキング形式で示されることとなる。
(重複削除部337)
重複削除部337は、ソート結果Sに含まれる複数のフレーズに同一の単語の組み合わせが含まれる場合、複数のフレーズのうち一部を削除することで、採用フレーズ4を決定するように構成される。
重複削除部337は、ソート結果Sに含まれる複数のフレーズに同一の単語の組み合わせが含まれる場合、複数のフレーズのうち一部を削除することで、採用フレーズ4を決定するように構成される。
(出力部338)
出力部338は、ソート結果Sを出力し、これが言語学習支援装置3の表示部34に表示される。出力部338が出力するソート結果Sとは、例えば、ソート結果S18~ソート結果S22であり、詳細は後述する。
出力部338は、ソート結果Sを出力し、これが言語学習支援装置3の表示部34に表示される。出力部338が出力するソート結果Sとは、例えば、ソート結果S18~ソート結果S22であり、詳細は後述する。
3.情報処理の詳細
本節では、前述した言語学習支援装置3の情報処理について説明する。図3は、言語学習支援装置3の動作の流れを示すアクティビティ図である。以下、図3における各アクティビティに沿って説明をする。
本節では、前述した言語学習支援装置3の情報処理について説明する。図3は、言語学習支援装置3の動作の流れを示すアクティビティ図である。以下、図3における各アクティビティに沿って説明をする。
まず、ユーザは、入力部35を用いて、文章データT1及び文章データT1の処理設定に関する情報を、言語学習支援装置3に予めインストールされた専用プログラムに読み込ませる。受付部331は、文章データT1及び文章データT1の処理設定に関する情報を受け付ける(アクティビティA1)。なお、受付部331は、自然言語処理のなされた文章データT1を受け付けてもよい。
文章データT1のファイル形式は、例えばテキスト形式(.txt又は.csv)である。文章データT1は、複数のファイルからなってもよいし、単一のファイルでもよい。また、文章データT1は、言語コーパスであることが好ましいが、学術論文、新聞、演説等、何らかの言語により構成された資料であれば、種類は問わない。さらに、文章データT1は、数億単語以上で構成されることが好ましいが、これに限定されず、1000単語以下でもよい。文章データT1の処理設定に関する情報とは、例えば、フレーズに含める単語数の上限値、自然言語処理に関する設定、ファイルの分割単位に関する設定等情報である。なお、文章データT1の言語は、特に限られないが、例えば、英語、中国語、フランス語、ドイツ語、スペイン語、ロシア語、ポルトガル語、ヒンドゥー語、アラビア語等である。本実施形態では、英語を例に説明している。
次に、設定部332は、アクティビティA1において受け付けた処理設定に基づき、フレーズに含める単語数の上限値を設定する(アクティビティA2)。また、この際、自然言語処理に係る設定、採用フレーズ4の単語数等、文章データT1の処理条件が設定される。
次に、処理部333は、所定の単語数ごとにファイルを分割する(アクティビティA3)。所定の単語数は、設定部332の処理設定に基づき、例えば、1万語、100万語等である。ファイルが複数ある場合、処理部333は、ファイルの分割前に全てのファイルを結合してから、分割を行うことが好ましい。例えば、ファイルに含まれる単語数の合計が10億語である場合、処理部333は、100万語ごとに1000ファイルに分割する。
その後、処理部333は、アクティビティA2においてなされた設定に基づき、文章データT1に含まれる文字、数字及び記号を、所定の形式に変換する(アクティビティA4)。また、処理部333は、文章データT1に含まれる改行を削除する。具体的には、例えば、処理部333は、文章中の全角文字(英数字及び記号を含む)を、半角文字に変換するとともに、アルファベットの大文字を小文字に変換する。また、処理部333は、文章データT1に含まれる改行を削除する。
図4は、文章データT1と、処理部333による変換処理の結果とを示す図である。図4に示される文章データT1は、アクティビティA1において受け付けた文章データT1である。中間データT10は、処理部333によって、文章データT1に含まれる改行が削除された場合の処理結果である。また、中間データT11は、処理部333によって、文章に含まれる大文字が小文字に変換された場合の処理結果である。これにより、表記のゆれがあることで文章中の同一の意味をもつ文字、記号、数字等が別々にカウント部335によってカウントされることを防ぐことができる。
また、設定部332によって、自然言語処理を行う処理設定がされている場合、処理部333は、文章中の各単語を品詞へ置き換える。中間データT12は、文章の一部“my father’s dragon chapter one my father meets”が変換された結果、「限定詞 限定詞 名詞 名詞 数字 限定詞 名詞 動詞」へと置き換えられた場合の処理結果の例である。なお、中間データT12では、単語の種類に関わらず自然言語処理を行う例を示したが、設定部332の設定に基づき、特定の単語のみについて、かかる処理を行ってもよい。例えば、設定部332が“a”又は“the”のみについて、自然言語処理を行うよう設定していた場合、“a”又は“the”のみ自然言語処理が行われてもよい。
次に、単語抽出部334は、文章中の所定入力(例えばスペース、タブ記号又は改行)に基づき、文章データT1に含まれる単語、記号及び数字(以後、単語等)を抽出する(アクティビティA5)。また、単語等が抽出されると、処理部333は、抽出された単語等を文章の登場順に並べた単語リストを生成するとともに、該単語リストに基づき上限値以下の単語等で構成されるフレーズを含むフレーズリストを生成する(アクティビティA6)。なお、処理部333は、単語とともに抽出した記号及び数字を、それぞれ一単語とみなして単語リスト及びフレーズリストを作成することに留意されたい。
ここで、フレーズとは、抽出された複数の単語等を、文章の登場順に並ぶ複数の単語の組み合わせとして扱う単位である。図5及び図6は、処理部333による変換処理の結果を示す図である。例えば、上限値が2である場合、単語抽出部334によって文章データT1に含まれる単語が抽出された後、処理部333は、単語リスト(例えば、中間データT13)を生成する(図5)。また、処理部333は、抽出した単語を、単語リストに基づき、2単語ごとにフレーズとしてリストアップしたフレーズリスト(例えば、中間データT15)を生成する。
より具体的には、“my”、“father’s”、“dragon”、“chapter”、“one”、が単語として抽出された場合、2単語のフレーズとしては、文章の登場順に“my father’s”、“dragon chapter”と、“father’s dragon”、“chapter one”とがリストアップされる。すなわち、連続している任意の組合せをフレーズとしてリストアップする。より一般化すると、n単語のフレーズの場合は、n通りのリストアップが考えられる。このようにすることで、漏れのないリストアップが実現される。その結果、処理部333によって、文章データT1は、2つのリスト(単語リスト及び2単語のフレーズリスト)に変換される。なお、任意の連続する組合せを列挙して説明するのは煩雑であるため、以下では、連続している任意の組合せのうち、代表的な1つを選択して代表例として説明するものとする。
上限値が3である場合、処理部333は、前述した単語リスト及び2単語を含むフレーズリストに加え、3単語のフレーズを含む3つのフレーズリストを生成する。かかる場合、抽出された単語は文章の登場順に、“my father’s dragon”が3単語のフレーズの代表例としてリストアップされる(不図示)。
上限値が5である場合、前述した3つのリストに加え、4単語を含むフレーズ及び5単語を含むフレーズのフレーズリストを生成し、合わせて5つの単語リスト又はフレーズリストが生成される。なお、本実施形態において、フレーズリストを作成する際、記号及び数字はそれぞれひとつの単語として扱うことに留意されたい。すなわち、単語リストに“little”、“boy”、“.”がリストアップされ、これらが一つのフレーズとして扱われる場合、“little boy .”が3単語のフレーズとみなされる。
単語リスト及びフレーズリストが生成されると、処理部333は、処理設定に基づき、単語とともに抽出された所定の記号と、所定の記号を含むフレーズとを削除する(アクティビティA7)。例えば、設定部332によって、コンマ、ピリオド、クエッションマーク、ダブルクォーテーションマーク等の記号を削除するように設定された場合、処理部333は、中間データT13を生成後、かかる記号を削除して中間データT14を生成する。また、2単語のフレーズで構成されるフレーズリストにおいては、図6に示されるように、処理部333は、中間データT15で示されるフレーズのうち、上記の記号を含む“boy .”“street .”“? ””に係るフレーズを削除し、中間データT16を生成する(図6)。なお、ここで生成された単語リスト(例えば、中間データT14)及びフレーズリスト(例えば、中間データT16)は、テキスト形式で生成されることが好ましい。
所定の記号が削除されると、カウント部335は、設定された上限値以下の単語及びフレーズの出現回数をカウントする(アクティビティA8)。また、出現回数がカウントされると、ソート部336は、カウントされたフレーズを出現回数に基づきソートする。すなわち、ソート部336は、文章中に出現した単語又はフレーズを、それぞれ出現回数の多い順に並べる。図7は、ソート部336によるソート結果Sを示す図である。て表示される。例えば、ソート結果S10は、単語リストに含まれる単語の出現回数が多い順に並べたものである。また、ソート結果S11は、2単語のフレーズリストに含まれるフレーズを出現回数が多い順に並べたものである。
また、複数のフレーズに同一の単語の組み合わせが含まれる場合、重複削除部337は、複数のフレーズのうち一部を削除することで、採用フレーズ4を決定する(アクティビティA9)。ここで、採用フレーズ4は、フレーズに含まれる単語数に基づき決定されることが好ましい。より具体的には、採用フレーズ4は、フレーズに含まれる単語数が最大又は最小のフレーズであることが好ましい。なお、採用フレーズ4を最大のフレーズとするか、最小のフレーズとするかの決定及び採用フレーズ4に含まれる単語数に係る決定は、設定部332によってなされた文章データT1の処理設定に基づき行われる。
ここで、採用フレーズ4とは、重複削除部337によって削除されずに残ったフレーズである。図8は、重複削除前後のソート結果Sを示す図である。図8において、上限値が3に設定されるとともに、採用フレーズ4をフレーズに含まれる単語数が最大のフレーズとする設定がなされた場合の例が示される。例えば、重複削除前のソート結果S12~ソート結果S14を参照すると、文章中に“he”という単語が3回、“he is”というフレーズが2回、“he is a student”というフレーズが2回出現した場合、重複削除部337は、それぞれのソート結果Sで重複している“he”及び“he is”を削除するとともに、採用フレーズ4を“he is a student”に決定し、ソート結果S15~ソート結果S17を生成する。すなわち、複数のフレーズに同一の単語の組み合わせが含まれる場合、重複削除部337は、複数のフレーズのうち、1つの採用フレーズ4を除いた残りを削除する。これにより、ユーザがソート結果Sを学習に用いる際、単語やフレーズの重複のないソート結果Sを確認することが可能となるので、学習者が効率よく言語学習することができる。
ここで、フレーズに含まれる単語数が最大のフレーズを採用フレーズ4とする設定がなされた場合の例として、図8を参照されたい。図8において、ソート結果S12~ソート結果S14において重複する単語又はフレーズがある場合、単語数が最大のソート結果S14以外のソート結果S12及びソート結果S13に含まれるフレーズが削除されることとなる。すなわち、ソート結果S14に含まれるフレーズが、優先的に採用フレーズ4として残される。より具体的には、重複削除前後のソート結果Sを比較すると、“he”、“is”、“a”、”“he is”及び“is a”は、それぞれソート結果S14のフレーズに含まれる単語の組み合わせと重複するものとして削除され、ソート結果S14においてこれらの単語及びフレーズを含む“he is a student”と、“she has the”とが残ることとなる。なお、ソート結果S16の“she is”は、ソート結果S14に含まれるフレーズと重複しないので、削除されず残されることとなる。
また、採用フレーズ4に含まれる単語数は、1を下限とし、上限はないが、3以上20以下であることが好ましい。具体的には、3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20であり、ここで例示した数値の何れか2つの間の範囲内であってもよい。このような構成により、例えば、採用フレーズ4に含まれる単語数が4と設定され、単語数が3~20の各フレーズにおいて、それぞれ同一の単語の組み合わせが含まれる場合、単語数が3及び5~20のフレーズが削除され、単語数が4のフレーズが採用フレーズ4として残されることとなる。その結果、言語学習に適した単語数のフレーズが優先的に採用フレーズ4として残され、学習者はより効率的に言語学習をすることが可能となる。
その後、ソート部336は、採用フレーズ4を出現回数に基づきソートする(アクティビティA10)。そして、自然言語処理が行われていない場合、出力部338は、かかる結果を出力する(アクティビティA11)。そして、表示部34は、出力されたソート結果Sを表示する。これにより、ユーザは、文章中での出現回数の多い単語又はフレーズをランキング形式で確認することが可能となり、学習者は、客観的なデータに基づいた言語学習が可能となる。
図9は、表示部34に表示されるソート結果Sの例である。ソート結果S18、ソート結果S19及びソート結果S20は、それぞれ2単語、3単語、5単語のフレーズにおけるソート結果Sである。該ソート結果Sは、設定部332が設定したソート結果Sの表示設定に基づき表示される。ソート結果Sの表示設定とは、例えば、出現頻度が2回以上の単語及びフレーズのみを表示する設定や、出現頻度が上位10位までの単語及びフレーズのみを表示する設定である。ソート結果S18~ソート結果S22は、出現頻度が3回以上の単語及びフレーズのみを表示する設定に基づき表示されたソート結果Sの例である。
ここで、自然言語処理が行われていた場合、処理部333は、アクティビティA4において品詞に置き換えられた採用フレーズ4に含まれる単語を、所定の文字に変換する(アクティビティA12)。図10は、処理部333による変換処理前後のフレーズを示した図の一例である。図10に示されるように、
処理部333は、文章に含まれる所定の単語が所定の品詞に置換されたフレーズを、所定の文字に変換する。すなわち、処理部333は、“be going to 動詞”、“have to 動詞”は、“be going to do”、“have to do”に変換する(ソート結果S24及びソート結果S24参照)。
処理部333は、文章に含まれる所定の単語が所定の品詞に置換されたフレーズを、所定の文字に変換する。すなわち、処理部333は、“be going to 動詞”、“have to 動詞”は、“be going to do”、“have to do”に変換する(ソート結果S24及びソート結果S24参照)。
その後、出力部338は、ソート結果Sを出力する(アクティビティA13)。なお、自然言語処理が行われている場合であっても、アクティビティA12をスキップして、ソート結果S22のように、各単語が所定の品詞に置き換えられたままの状態でソート結果Sを出力してもよい。
また、ソート結果S21で示されるように、ソート部336は、採用フレーズ4を、単語数に関わらず、出現回数に基づきソートしてもよい。具体的には、アクティビティA10又はアクティビティA12の後、処理部333は、ソート結果S18~ソート結果S20を合算し、かかる処理結果をアクティビティA11又はアクティビティA13において、ソート部336が出現回数に基づきソートしてもよい。
ソート結果S21は、上限値が5と設定された場合に、採用フレーズ4を、それぞれのフレーズに含まれる単語数に関わらずソートした結果である。すなわち、フレーズの単語数別の出現回数のランキングではなく、単語数の異なるソート結果Sをまとめて示した総合ランキングが示される。
このように、第1の実施形態に係る言語学習支援装置3によれば、文章データT1を入力として、実際に使用される頻度に基づいて、単語やフレーズのランキングを生成することができる。このようなランキングを用いることで、より客観的なデータに基づいた言語学習教材の作成を行うことができ、言語学習支援に貢献すると考えられる。また、本実施形態では、専用プログラムをインストールした言語学習支援装置3を使用するため、オフライン環境でも使用可能であり、大容量の文章データT1を扱うことに適している。
4.第2の実施形態
本節では、第2の実施形態に係る言語学習支援装置3及びこれを含むシステム1について説明する。なお、第1の実施形態に係る言語学習支援装置3と同様の構成や特徴については、説明を省略する。図11は、本実施形態に係るシステム1の構成概要を示す図である。システム1は、端末2と、言語学習支援装置3とを備え、これらが電気通信回線を通じて通信可能に構成される。
本節では、第2の実施形態に係る言語学習支援装置3及びこれを含むシステム1について説明する。なお、第1の実施形態に係る言語学習支援装置3と同様の構成や特徴については、説明を省略する。図11は、本実施形態に係るシステム1の構成概要を示す図である。システム1は、端末2と、言語学習支援装置3とを備え、これらが電気通信回線を通じて通信可能に構成される。
端末2は、スマートフォン、タブレット端末、コンピュータ、その他電気通信回線を通じて言語学習支援装置3にアクセス可能なものであれば、その形態は問わない。端末2は、通信部と、記憶部と、制御部と、表示部と、入力部とを有し、これらの構成要素が端末2の内部において通信バスを介して電気的に接続されている。
通信部、記憶部、制御部、表示部及び入力部の具体的な説明については、第1節で説明した言語学習支援装置3における通信部31、記憶部32、制御部33、表示部34及び入力部35の記載を参照されたい。
言語学習支援装置3は、ハードウェア構成として、通信部31と、記憶部32と、制御部33とを有し、これらの構成要素が言語学習支援装置3の内部において通信バス30を介して電気的に接続されている。詳細は、第1節で説明した言語学習支援装置3における通信部31、記憶部32及び制御部33の記載を参照されたい。また、第2の実施形態における言語学習支援装置3(制御部33)は、機能構成として、受付部331と、設定部332と、処理部333と、単語抽出部334と、カウント部335と、ソート部336と、重複削除部337と、出力部338とを備える。
特に、受付部331は、ユーザが使用する端末2からネットワーク及び通信部31を介して種々の情報を受け付けるように構成される。具体的には、受付部331は、端末2から文章データT1と、言語学習支援装置3における文章データT1の処理設定に関する情報とを受け付ける。
また、出力部338は、ソート結果Sを出力し、これが端末2の表示部に表示される。あるいは、出力部338は、ソート結果Sを端末2に表示させるためのレンダリング情報だけを生成してもよい。
このように、第2の実施形態に係るシステム1によれば、文章データT1を入力として、実際に使用される頻度に基づいて、単語やフレーズのランキングを生成することができる。このようなランキングを用いることで、より客観的なデータ基づいた言語学習教材の作成を行うことができ、言語学習支援に貢献すると考えられる。また、本実施形態では、ユーザが端末2を介して、外部サーバである言語学習支援装置3にアクセス可能に構成されており、多くのユーザがより手頃にランキングを生成することができる。
4.第3の実施形態
本節では、第3の実施形態に係る言語学習支援装置3について説明する。ただし、第1の実施形態及び第2の実施形態に係る言語学習支援装置3と同様の構成や特徴については、説明を省略する。図12は、第3の実施形態に係る言語学習支援装置3の機能を示す機能ブロック図である。
具体的には、言語学習支援装置3は、算出部339をさらに備える。
本節では、第3の実施形態に係る言語学習支援装置3について説明する。ただし、第1の実施形態及び第2の実施形態に係る言語学習支援装置3と同様の構成や特徴については、説明を省略する。図12は、第3の実施形態に係る言語学習支援装置3の機能を示す機能ブロック図である。
具体的には、言語学習支援装置3は、算出部339をさらに備える。
図13は、言語学習支援装置3の動作の流れを示すアクティビティ図である。以下、図13における各アクティビティに沿って説明をする。
ユーザは、入力部35を用いて、フレーズ群Fと、頻度データT5と、重み付けデータT6とを入力データとして言語学習支援装置3に予めインストールされた専用プログラムに読み込ませてもよい。また、このとき、ユーザは、重み付けの処理条件に係る情報を、入力データとして読み込ませてもよい。入力データが読み込まれると、受付部331は、これらの入力データを受け付ける(A101)。つまり、受付部331は、フレーズ群Fと、頻度データT5とを受け付ける。受付部331が受け付けた入力データは、記憶部32に記憶される。
図14は、入力データの一例を示す図である。フレーズ群Fは、単語又は2以上の単語を含むフレーズを複数含む。なお、受付部331が、フレーズが重複するフレーズ群Fを受け付けた場合、重複削除部337は、フレーズの重複を削除してもよい。
頻度データT5は、単語又はフレーズの出現回数を示すデータである。具体的には、頻度データT5は、単語又はフレーズと、その出現回数とを対応付けたデータである。図14の例によれば、“This”の出現回数は10、“is”の出現回数は20回であることが示される。なお、受付部331が単語又はフレーズが重複する頻度データT5を受け付けた場合、重複削除部337は、重複する単語又はフレーズの出現回数を合算した上で、重複を削除してもよい。
重み付けデータT6は、特定の単語又はフレーズの重みを示すデータである。図14の例によれば、頻度データT5に含まれる単語又はフレーズのうち、 “good”と、”this is”と、“know”について、それぞれ5と、2と、4と重みが付けられている。また、重み付けの処理条件に係る情報とは、例えば、一律に特定の種類の単語又はフレーズについて重み付けをする条件に係る情報である。
次に、算出部339は、フレーズ群Fと、頻度データT5とに基づき、フレーズ群Fに含まれる各単語又は各フレーズの出現度F4を算出する(A102)。具体的には、算出部339は、頻度データT5を参照して、フレーズ群Fに含まれる各単語又は各フレーズの出現回数の合計から、出現度F4を算出する。
図15は、制御部33による処理結果の一例を示す図である。中間データT17は、算出された出現度F4aの一例である。算出部339は、出現度F4aを算出するフレーズが“this is good”である場合(図15参照)、“this is good”に含まれる単語“this”と、”is”と、”good”との出現回数(それぞれ10回、20回、30回)と、“this is good”に含まれるフレーズ”this is”の出現回数(5回)との合計である65を、このフレーズの単語数である3で割り、21.67を“this is good”の出現度F4aとして算出する。このとき、割り切れない数が算出された場合、算出部339は、端数処理をしてから出現度F4aを算出する。具体的には、例えば、算出部339は、小数点第3位を四捨五入した数を、出現度F4aとして算出する。このようにして、フレーズ群Fに含まれる全てのフレーズについて、出現度F4aを算出する。
また、算出部339は、重み付けデータT6及び重み付けの処理条件に係る情報に基づき、特定の単語又はフレーズについて重み付けを行った上で出現度F4を算出してもよい。以下、図14及び図15
を参照しながら、算出部339が、重み付けデータT6に基づき“this is good”の出現度F4bを算出する例について説明する。中間データT18は、算出された出現度F4bの一例である。
を参照しながら、算出部339が、重み付けデータT6に基づき“this is good”の出現度F4bを算出する例について説明する。中間データT18は、算出された出現度F4bの一例である。
重み付けデータT6では、“this is good”に含まれる“good”について、値3の重みが付けられている。したがって、算出部339は、頻度データT5では、“good”の出現回数が30回とされているところ、これに3を掛けて、“good”の出現回数を、90回であるものとして出現度F4bを算出する。つまり、算出部339は、“this is good”に含まれる単語“this”と、”is”と、”good”との出現回数(それぞれ10回、20回、90回)と、フレーズ”this is”の出現回数(5回)との合計である125を、このフレーズの単語数である3で割り、41.67を“this is good”の出現度F4bとして算出する。このようにして、フレーズ群Fに含まれる全てのフレーズについて、出現度F4bを算出する。ただし、これに限らず、算出部339は、様々な方法により出現度F4を算出することができる。例えば、算出部339は、フレーズの単語数である3で割らずに、フレーズ群Fに含まれる各単語又は各フレーズの出現回数の合計を予め設定された値で割ってもよいし、掛けてもよく、そのまま出現度F4bとして算出してもよい。また、例えば、算出部339は、フレーズ群Fに含まれる各単語又は各フレーズの出現回数の合計を、フレーズ群Fに含まれるフレーズうち最も単語数の多いフレーズで四則演算を行ってもよい。
なお、例えば、受付部331が、一律に動詞を2だけ重み付けする旨の情報を受け付けた場合、算出部339は、自然言語処理を行った上で、頻度データT5に含まれる動詞の出現回数を2倍にして出現度F4を算出してもよい。また、受付部331が、一律に名詞を0.5だけ重み付けする旨の情報を受け付けた場合、算出部339は、頻度データT5に含まれる名詞の出現回数を0.5倍にして出現度F4を算出してもよい。このような構成により、算出部339は、条件によって重みの大小を自由に変えて出現度F4を算出することができる。
その後、ソート部336は、出現度F4に基づき、フレーズをソートする(A103)。具体的には、ソート部336は、フレーズ群Fに含まれる出現度F4の大きい順に、フレーズをソートする。ソート結果S25は、出現度F4aに基づきソートされたフレーズ群Fの一例である。ソート結果S26は、出現度F4bに基づきソートされたフレーズ群Fの一例である。これにより、頻度データT5に基づき算出された出現回数の多いフレーズがランキング形式で示されることとなる。なお、ソート部は、カウント部335によってカウントされたフレーズを出現度F4に基づきソートしてもよい。
そして、出力部338は、ソート結果S25又はソート結果S26を出力する(A104)。これによって第3の実施形態における情報処理は終了する。
6.その他
本実施形態に係るシステム1に関して、以下のような態様を採用してもよい。
本実施形態に係るシステム1に関して、以下のような態様を採用してもよい。
(1)本実施形態の態様は、プログラムであってもよい。このプログラムは、コンピュータを言語学習支援装置3として機能させる。
(2)言語学習支援装置3には、上記のプログラムが予めインストールされていてもよいし、コンピュータにこれをインストールして事後的に言語学習支援装置3として機能するように実施してもよい。
(3)本実施形態の態様は、情報処理方法であってもよい。情報処理方法は、単語抽出ステップと、カウントステップと、ソートステップとを備える。単語抽出ステップでは、文章に含まれる単語を抽出する。カウントステップでは、設定された上限値の範囲内で、単語及びフレーズの出現回数をカウントする。フレーズとは、抽出された複数の単語を、文章の登場順に並ぶ複数の単語の組み合わせとして扱う単位である。ソートステップでは、カウントされたフレーズを出現回数に基づきにソートする。
(2)言語学習支援装置3には、上記のプログラムが予めインストールされていてもよいし、コンピュータにこれをインストールして事後的に言語学習支援装置3として機能するように実施してもよい。
(3)本実施形態の態様は、情報処理方法であってもよい。情報処理方法は、単語抽出ステップと、カウントステップと、ソートステップとを備える。単語抽出ステップでは、文章に含まれる単語を抽出する。カウントステップでは、設定された上限値の範囲内で、単語及びフレーズの出現回数をカウントする。フレーズとは、抽出された複数の単語を、文章の登場順に並ぶ複数の単語の組み合わせとして扱う単位である。ソートステップでは、カウントされたフレーズを出現回数に基づきにソートする。
さらに、次に記載の各態様で提供されてもよい。
前記言語学習支援装置において、設定部をさらに備え、前記設定部は、前記フレーズに含める単語数の上限値を設定可能に構成され、前記カウント部は、設定された前記上限値以下の前記単語及び前記フレーズの出現回数をカウントするように構成される、もの。
前記言語学習支援装置において、重複削除部をさらに備え、前記重複削除部は、複数の前記フレーズに同一の前記単語の組み合わせが含まれる場合、複数の前記フレーズのうち一部を削除することで、採用フレーズを決定するように構成され、前記ソート部は、前記採用フレーズを前記出現回数に基づきソートするように構成される、もの。
前記言語学習支援装置において、前記重複削除部は、複数の前記フレーズのうち、1つの前記採用フレーズを除いた残りを削除するように構成される、もの。
前記言語学習支援装置において、前記採用フレーズは、前記フレーズに含まれる単語数に基づき決定される、もの。
前記言語学習支援装置において、前記採用フレーズは、前記フレーズに含まれる単語数が最大又は最小の前記フレーズである、もの。
前記言語学習支援装置において、前記採用フレーズに含まれる前記単語数は、3以上20以下である、もの。
前記言語学習支援装置において、受付部と、算出部とをさらに備え、前記受付部は、フレーズ群と、頻度データとを受け付けるように構成され、前記フレーズ群は、前記単語又は前記フレーズを含み、前記頻度データは、前記単語又は前記フレーズの出現回数を示すデータであり、前記算出部は、前記フレーズ群と、前記頻度データとに基づき、前記フレーズ群に含まれる前記単語又は前記フレーズの出現度を算出するように構成され、前記ソート部は、カウント部によってカウントされた前記フレーズを前記出現度に基づきソートするように構成される、もの。
プログラムであって、コンピュータを前記言語学習支援装置として機能させる、もの。
情報処理方法であって、単語抽出ステップと、カウントステップと、ソートステップとを備え、前記単語抽出ステップでは、文章に含まれる単語を抽出し、前記カウントステップでは、設定された上限値の範囲内で、前記単語及びフレーズの出現回数をカウントし、前記フレーズとは、抽出された複数の前記単語を、前記文章の登場順に並ぶ複数の前記単語の組み合わせとして扱う単位で、前記ソートステップでは、カウントされた前記フレーズを前記出現回数に基づきソートする、方法。
もちろん、この限りではない。
前記言語学習支援装置において、設定部をさらに備え、前記設定部は、前記フレーズに含める単語数の上限値を設定可能に構成され、前記カウント部は、設定された前記上限値以下の前記単語及び前記フレーズの出現回数をカウントするように構成される、もの。
前記言語学習支援装置において、重複削除部をさらに備え、前記重複削除部は、複数の前記フレーズに同一の前記単語の組み合わせが含まれる場合、複数の前記フレーズのうち一部を削除することで、採用フレーズを決定するように構成され、前記ソート部は、前記採用フレーズを前記出現回数に基づきソートするように構成される、もの。
前記言語学習支援装置において、前記重複削除部は、複数の前記フレーズのうち、1つの前記採用フレーズを除いた残りを削除するように構成される、もの。
前記言語学習支援装置において、前記採用フレーズは、前記フレーズに含まれる単語数に基づき決定される、もの。
前記言語学習支援装置において、前記採用フレーズは、前記フレーズに含まれる単語数が最大又は最小の前記フレーズである、もの。
前記言語学習支援装置において、前記採用フレーズに含まれる前記単語数は、3以上20以下である、もの。
前記言語学習支援装置において、受付部と、算出部とをさらに備え、前記受付部は、フレーズ群と、頻度データとを受け付けるように構成され、前記フレーズ群は、前記単語又は前記フレーズを含み、前記頻度データは、前記単語又は前記フレーズの出現回数を示すデータであり、前記算出部は、前記フレーズ群と、前記頻度データとに基づき、前記フレーズ群に含まれる前記単語又は前記フレーズの出現度を算出するように構成され、前記ソート部は、カウント部によってカウントされた前記フレーズを前記出現度に基づきソートするように構成される、もの。
プログラムであって、コンピュータを前記言語学習支援装置として機能させる、もの。
情報処理方法であって、単語抽出ステップと、カウントステップと、ソートステップとを備え、前記単語抽出ステップでは、文章に含まれる単語を抽出し、前記カウントステップでは、設定された上限値の範囲内で、前記単語及びフレーズの出現回数をカウントし、前記フレーズとは、抽出された複数の前記単語を、前記文章の登場順に並ぶ複数の前記単語の組み合わせとして扱う単位で、前記ソートステップでは、カウントされた前記フレーズを前記出現回数に基づきソートする、方法。
もちろん、この限りではない。
最後に、本発明に係る種々の実施形態を説明したが、これらは、例として提示したものであり、発明の範囲を限定することは意図していない。当該新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。当該実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。
1 :システム
2 :端末
3 :言語学習支援装置
30 :通信バス
31 :通信部
32 :記憶部
33 :制御部
331 :受付部
332 :設定部
333 :変換部
334 :単語抽出部
335 :カウント部
336 :ソート部
337 :重複削除部
338 :出力部
339 :算出部
4 :採用フレーズ
S :ソート結果
S10 :ソート結果
S11 :ソート結果
S12 :ソート結果
S13 :ソート結果
S14 :ソート結果
S15 :ソート結果
S16 :ソート結果
S17 :ソート結果
S18 :ソート結果
S19 :ソート結果
S20 :ソート結果
S21 :ソート結果
S22 :ソート結果
S23 :ソート結果
S24 :ソート結果
S25 :ソート結果
S26 :ソート結果
T1 :文章データ
T5 :頻度データ
T6 :重み付けデータ
T10 :中間データ
T11 :中間データ
T12 :中間データ
T13 :中間データ
T14 :中間データ
T15 :中間データ
T16 :中間データ
T17 :中間データ
T18 :中間データ
F :フレーズ群
F4 :出現度
F4a :出現度
F4b :出現度
2 :端末
3 :言語学習支援装置
30 :通信バス
31 :通信部
32 :記憶部
33 :制御部
331 :受付部
332 :設定部
333 :変換部
334 :単語抽出部
335 :カウント部
336 :ソート部
337 :重複削除部
338 :出力部
339 :算出部
4 :採用フレーズ
S :ソート結果
S10 :ソート結果
S11 :ソート結果
S12 :ソート結果
S13 :ソート結果
S14 :ソート結果
S15 :ソート結果
S16 :ソート結果
S17 :ソート結果
S18 :ソート結果
S19 :ソート結果
S20 :ソート結果
S21 :ソート結果
S22 :ソート結果
S23 :ソート結果
S24 :ソート結果
S25 :ソート結果
S26 :ソート結果
T1 :文章データ
T5 :頻度データ
T6 :重み付けデータ
T10 :中間データ
T11 :中間データ
T12 :中間データ
T13 :中間データ
T14 :中間データ
T15 :中間データ
T16 :中間データ
T17 :中間データ
T18 :中間データ
F :フレーズ群
F4 :出現度
F4a :出現度
F4b :出現度
Claims (10)
- 言語学習支援装置であって、
単語抽出部と、カウント部と、ソート部とを備え、
前記単語抽出部は、文章に含まれる単語を抽出するように構成され、
前記カウント部は、前記単語及びフレーズの出現回数をカウントするように構成され、
前記フレーズとは、抽出された複数の前記単語を、前記文章の登場順に並ぶ複数の前記単語の組み合わせとして扱う単位で、
前記ソート部は、カウントされた前記フレーズを前記出現回数に基づきソートするように構成される、
もの。 - 請求項1に記載の言語学習支援装置において、
設定部をさらに備え、
前記設定部は、前記フレーズに含める単語数の上限値を設定可能に構成され、
前記カウント部は、設定された前記上限値以下の前記単語及び前記フレーズの出現回数をカウントするように構成される、
もの。 - 請求項1又は請求項2に記載の言語学習支援装置において、
重複削除部をさらに備え、
前記重複削除部は、複数の前記フレーズに同一の前記単語の組み合わせが含まれる場合、複数の前記フレーズのうち一部を削除することで、採用フレーズを決定するように構成され、
前記ソート部は、前記採用フレーズを前記出現回数に基づきソートするように構成される、
もの。 - 請求項3に記載の言語学習支援装置において、
前記重複削除部は、複数の前記フレーズのうち、1つの前記採用フレーズを除いた残りを削除するように構成される、
もの。 - 請求項4に記載の言語学習支援装置において、
前記採用フレーズは、前記フレーズに含まれる単語数に基づき決定される、
もの。 - 請求項5に記載の言語学習支援装置において、
前記採用フレーズは、前記フレーズに含まれる単語数が最大又は最小の前記フレーズである、
もの。 - 請求項5又は請求項6に記載の言語学習支援装置において、
前記採用フレーズに含まれる前記単語数は、3以上20以下である、
もの。 - 請求項1~請求項7の何れか1つに記載の言語学習支援装置において、
受付部と、算出部とをさらに備え、
前記受付部は、フレーズ群と、頻度データとを受け付けるように構成され、
前記フレーズ群は、前記単語又は前記フレーズを含み、
前記頻度データは、前記単語又は前記フレーズの出現回数を示すデータであり、
前記算出部は、前記フレーズ群と、前記頻度データとに基づき、前記フレーズ群に含まれる前記単語又は前記フレーズの出現度を算出するように構成され、
前記ソート部は、カウント部によってカウントされた前記フレーズを前記出現度に基づきソートするように構成される、
もの。 - プログラムであって、
コンピュータを請求項1~請求項8の何れか1つに記載の言語学習支援装置として機能させる、
もの。 - 情報処理方法であって、
単語抽出ステップと、カウントステップと、ソートステップとを備え、
前記単語抽出ステップでは、文章に含まれる単語を抽出し、
前記カウントステップでは、設定された上限値の範囲内で、前記単語及びフレーズの出現回数をカウントし、
前記フレーズとは、抽出された複数の前記単語を、前記文章の登場順に並ぶ複数の前記単語の組み合わせとして扱う単位で、
前記ソートステップでは、カウントされた前記フレーズを前記出現回数に基づきソートする、
方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020-098953 | 2020-06-05 | ||
JP2020098953A JP2023110106A (ja) | 2020-06-05 | 2020-06-05 | 言語学習支援装置、プログラム及び情報処理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2021245997A1 true WO2021245997A1 (ja) | 2021-12-09 |
Family
ID=78830783
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2021/006599 WO2021245997A1 (ja) | 2020-06-05 | 2021-02-22 | 言語学習支援装置、プログラム及び情報処理方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP2023110106A (ja) |
WO (1) | WO2021245997A1 (ja) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003066828A (ja) * | 2001-08-28 | 2003-03-05 | Techno Link:Kk | 外国語文章の難易度判定方法、その装置、記録媒体、プログラム |
JP2008282407A (ja) * | 2007-05-11 | 2008-11-20 | Sony United Kingdom Ltd | 情報処理装置 |
JP2015102914A (ja) * | 2013-11-21 | 2015-06-04 | 日本電信電話株式会社 | 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム |
WO2017060994A1 (ja) * | 2015-10-07 | 2017-04-13 | 株式会社日立製作所 | コンテンツを参照するユーザに対して提示する情報を制御するシステム及び方法 |
-
2020
- 2020-06-05 JP JP2020098953A patent/JP2023110106A/ja active Pending
-
2021
- 2021-02-22 WO PCT/JP2021/006599 patent/WO2021245997A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003066828A (ja) * | 2001-08-28 | 2003-03-05 | Techno Link:Kk | 外国語文章の難易度判定方法、その装置、記録媒体、プログラム |
JP2008282407A (ja) * | 2007-05-11 | 2008-11-20 | Sony United Kingdom Ltd | 情報処理装置 |
JP2015102914A (ja) * | 2013-11-21 | 2015-06-04 | 日本電信電話株式会社 | 不理解文判定モデル学習方法、不理解文判定方法、装置、及びプログラム |
WO2017060994A1 (ja) * | 2015-10-07 | 2017-04-13 | 株式会社日立製作所 | コンテンツを参照するユーザに対して提示する情報を制御するシステム及び方法 |
Non-Patent Citations (1)
Title |
---|
ANONYMOUS: ""English word counter" that counts the number of English words", STABUCKY, 3 June 2020 (2020-06-03), XP055880402, Retrieved from the Internet <URL:https://stabucky.com/wp/archives/2193> * |
Also Published As
Publication number | Publication date |
---|---|
JP2023110106A (ja) | 2023-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nguyen et al. | NEU-chatbot: Chatbot for admission of National Economics University | |
JPH06110948A (ja) | 文献を識別し、検索し、分類する方法 | |
US20190303437A1 (en) | Status reporting with natural language processing risk assessment | |
CN110442868A (zh) | 文本处理方法、装置及电子设备 | |
Dombrowski | Preparing Non-English texts for computational analysis | |
TWI475405B (zh) | 電子裝置及其文字輸入介面顯示方法 | |
Park et al. | Enhanced auditory feedback for Korean touch screen keyboards | |
WO2021245997A1 (ja) | 言語学習支援装置、プログラム及び情報処理方法 | |
Sharma et al. | Word prediction system for text entry in Hindi | |
Destaw et al. | Question answering classification for Amharic social media community based questions | |
WO2022039214A1 (ja) | 言語学習支援装置、プログラム及び情報処理方法 | |
KR101018821B1 (ko) | 중국어 문자 생성 방법 및 이에 사용되는 키입력 장치 | |
WO2023171790A1 (ja) | 文章作成支援装置及び文章作成支援プログラム | |
JP2014142762A (ja) | 外国語の発音表記方法および情報表示装置 | |
JP7429974B2 (ja) | 検査装置、学習装置、検査方法、学習器の生産方法、およびプログラム | |
EP4057259A1 (en) | Character input device, character input method, and character input program | |
JP7223450B2 (ja) | 自動翻訳装置及び自動翻訳プログラム | |
EP1221082B1 (en) | Use of english phonetics to write non-roman characters | |
CN114490976B (zh) | 对话摘要训练数据的生成方法、装置、设备及存储介质 | |
Akmuradov et al. | Text Analyzing Algorithm for Speech Synthesizer of Uzbek Language | |
WO2024225334A1 (ja) | 情報処理システム、情報処理プログラム及び情報処理方法 | |
JP2024055744A (ja) | 情報処理システム、情報処理方法及びプログラム | |
KR20170112838A (ko) | 한글 복모음이 완성형으로 배정된 키보드 | |
KR20230129305A (ko) | 중국어 문자를 포함하는 텍스트 조각을 분석하기 위한 방법 및 시스템 | |
JPH01185724A (ja) | 検索装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 21817318 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
32PN | Ep: public notification in the ep bulletin as address of the adressee cannot be established |
Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 21/03/2023) |
|
NENP | Non-entry into the national phase |
Ref country code: JP |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 21817318 Country of ref document: EP Kind code of ref document: A1 |