RU2639684C2 - Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) - Google Patents
Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) Download PDFInfo
- Publication number
- RU2639684C2 RU2639684C2 RU2014135303A RU2014135303A RU2639684C2 RU 2639684 C2 RU2639684 C2 RU 2639684C2 RU 2014135303 A RU2014135303 A RU 2014135303A RU 2014135303 A RU2014135303 A RU 2014135303A RU 2639684 C2 RU2639684 C2 RU 2639684C2
- Authority
- RU
- Russia
- Prior art keywords
- phrase
- source
- target
- word
- features
- Prior art date
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 230000009466 transformation Effects 0.000 claims abstract description 48
- 238000004458 analytical method Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims description 41
- 230000001131 transforming effect Effects 0.000 claims description 33
- 230000000875 corresponding effect Effects 0.000 claims description 22
- 238000006243 chemical reaction Methods 0.000 claims description 21
- 230000002596 correlated effect Effects 0.000 claims description 10
- 230000002085 persistent effect Effects 0.000 claims 1
- 239000000126 substance Substances 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 38
- 238000010586 diagram Methods 0.000 description 10
- 239000013598 vector Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 241000304405 Sedum burrito Species 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 239000008298 dragée Substances 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
Изобретение относится к области обработки текстов. Технический результат заключается в обеспечении более точной обработки текста. Такой результат достигается за счет того, что способ обработки текстов, выполняемый на компьютерном устройстве, содержащем память, на которой хранятся одно или несколько правил трансформации фразы, которые были сгенерированы на основании анализа множеств признаков, в том числе множества признаков слова источника, сопоставленного со словом источника фразы-источника, и множества признаков целевого слова, сопоставленного с целевым словом целевой фразы, включает следующие этапы: получение текстовой фразы; определение того, что сходство текстовой фразы с фразой-источником превышает пороговое значение на основании по меньшей мере грамматического, или по меньшей мере семантического анализа текстовой фразы и фразы-источника; и применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы. 4 н. и 23 з.п. ф-лы, 10 ил.
Description
Область техники, к которой относится изобретение
Данная технология относится к способам обработки текстов, реализуемым на компьютере.
Уровень техники
Технологии преобразования текстовой информации в речевую принимают текстовые фразы в качестве входных данных и генерируют речевые фразы - аудиоданные, кодирующие звуковую речь и соответствующие текстовым фразам - которые могут затем быть «прочитаны вслух» посредством аудиоинтерфейса электронного устройства.
Обычно, текстовые фразы, которые должны быть прочитаны вслух этим способом, преобразовываются в речевые фразы пословно, так, чтобы каждое текстовое слово в текстовой фразе было преобразовано в речевое слово, а речевые слова располагались в таком же порядке, в каком располагаются соответствующие им текстовые слова в текстовой фразе. Таким образом, состав речевой фразы и состав текстовой фразы совпадают слово в слово. Например, текстовая фраза "There are 2000 jelly beans in the jar" (русск. «В банке - 2000 драже») может быть преобразована в речевую фразу, которая была бы произнесена "There are two thousand jelly beans in the jar" (русск. «В банке две тысячи драже»).
Однако в некоторых случаях контекст текстовой фразы является таковым, что речевая фраза, сгенерированная по пословному принципу, может звучать неестественно при произнесении вслух. Приведем простой пример: текстовая фраза "The Tate Modern opened in 2000" (русск. «Тейт Модерн открыт в 2000») может быть преобразована в речевую фразу, которая была бы произнесена как "The Tate Modern opened in two thousand" (русск. «Тейт Модерн открыт в две тысячи»), тогда как говорящий на английском языке сказал бы более естественно "The Tate Modern opened in the year two thousand" (русск. «Тейт Модерн открыт в двухтысячном году»). Следовательно, в некоторых случаях существующее пословное преобразование текстовых фраз приводит к неестественно звучащим речевым фразам, и может являться желательным модифицировать текстовые фразы, чтобы улучшить последующее преобразование текстовой информации в речевую в некоторых контекстах.
Таким образом, существует потребность в более совершенных способах обработки текстов.
Раскрытие изобретения
В данной технологии предложены реализуемые на компьютере способы генерации одного или нескольких правил трансформации фразы, которые могут затем быть применены к текстовой фразе для генерации трансформированной текстовой фразы. Правила трансформации фразы могут быть сгенерированы путем анализа признаков слов во фразе-источнике и признаков слов в целевой фразе для определения преобразования слов во фразе-источнике в слова в целевой фразе.
Возможно применение таких способов для генерации правил трансформации фразы, которые предварительно обрабатывают текстовые фразы в трансформированные текстовые фразы, которые могут затем быть преобразованы в речевые фразы при использовании существующих технологий преобразования текстовой информации в речевую. К примеру, одно или несколько правил трансформации фразы могут быть применены к текстовой фразе "The Tate Modern opened in 2000" {русск. «Тейт Модерн открыт в 2000») для трансформации ее в "The Tate Modern opened in the year two thousand" (русск. «Тейт Модерн открыт в двухтысячном году»). Преобразование трансформированной фразы может создать естественно звучащую речевую фразу.
Другим возможным применением таких способов является генерация правил трансформации фразы для уменьшения длины фраз при сохранении их основного смысла. Например, такие правила могут применяться к фразе "The proud eagle sailed high in the sky" (русск. «Гордый орел парил высоко в небе») для сокращения ее до "The bird flew in the sky" (русск. «Птица летела в небе»). При повторении этого процесса к фразам документа может быть создан автореферат документа.
Специалистам вполне понятно, что описанные выше возможные варианты применения - это лишь два примера среди многих других.
Таким образом, в одном из вариантов осуществления данной технологии предложен способ обработки текстов, выполняемый на компьютерном устройстве, который включает следующие этапы: понимание смысла фразы-источника, состоящей из слов источника; понимание смысла целевой фразы, состоящей из целевых слов; установление соответствия множества признаков слов источника для каждого слова источника; установление соответствия множества признаков целевых слов для каждого целевого слова; анализирование множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова; и на основании преобразования, генерация одного или нескольких правил трансформации фразы, применимых к фразе-источнику, для трансформации ее в целевую фразу.
Возможен вариант осуществления способа, в котором на этапе анализирования множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова определяют сходства между каждым множеством признаков слов источника и каждым множеством признаков целевых слов.
Возможен вариант осуществления способа, в котором: каждое из множеств признаков слов источника включает один или несколько грамматических признаков слова источника, к которому относится это множество признаков; каждое из множеств признаков целевых слов включает один или несколько грамматических признаков целевого слова, к которому относится это множество признаков; и при определении сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов выполняют сравнение соответствующих грамматических признаков каждого из слов источника с соответствующими грамматическими признаками каждого из целевых слов.
Возможен вариант осуществления способа, в котором: каждое из множеств признаков слов источника включает значение слова источника, к которому относится это множество признаков; каждое из множеств признаков целевых слов включает значение целевого слова, к которому относится это множество признаков; и при определении сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов выполняют определение сходства соответствующего значения каждого из слов источника с соответствующим значением каждого из целевых слов.
Возможен вариант осуществления способа, в котором: на этапе анализирования множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова дополнительно выполняют этап подбора одному из множеств признаков слова источника наиболее подобного множества признаков из множеств признаков целевого слова; и на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию первого правила трансформации фразы, применимого к фразе-источнику, которое трансформирует слово источника, соотнесенное с одним из множеств признаков слова источника, в целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова.
Возможен вариант осуществления способа, в котором: слово источника, соотнесенное с одним из множеств признаков слова источника, и целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова, имеют одинаковый корень; и первое правило трансформации фразы применяют к фразе-источнику для видоизменения формы слова источника в форму целевого слова.
Возможен вариант осуществления способа, в котором на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию второго правила трансформации фразы, применяемого к фразе-источнику, которое удаляет по меньшей мере одно слово из фразы-источника.
Возможен вариант осуществления способа, в котором на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию третьего правила трансформации фразы, применяемого к фразе-источнику для добавления в нее по меньшей мере одного слова.
Возможен вариант осуществления способа, в котором дополнительно выполняют следующие этапы: понимание смысла текстовой фразы; и применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
Возможен вариант осуществления способа, в котором текстовая фраза отличается от фразы-источника, а до применения одного или нескольких правил трансформации фразы к текстовой фразе дополнительно выполняют этап определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение.
Возможен вариант осуществления способа, в котором на этапе определения того, что сходство текстовой фразы с фразой-источником превышает пороговое значение, выполняют по меньшей мере грамматический, или по меньшей мере семантический анализ текстовой фразы и фразы-источника.
Некоторые варианты осуществления данной технологии просто применяют одно или несколько правил трансформации фразы, которые были ранее сгенерированы (напр. другим компьютерным устройством). Таким образом, в другом варианте осуществления данной технологии предложен способ обработки текстов, выполняемый на компьютерном устройстве, содержащем память, на которой хранятся одно или несколько правил трансформации фразы, которые были сгенерированы на основании анализа множеств признаков, в том числе множества признаков слова источника, сопоставленного с словом источника фразы-источника, и множества признаков целевого слова, сопоставленного с целевым словом целевой фразы, который включает следующие этапы:
понимание смысла текстовой фразы;
определение того, что сходство текстовой фразы с фразой-источником превышает пороговое значение; и
применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
Возможен вариант осуществления способа, в котором на этапе определения того, что сходство текстовой фразы с фразой-источником превышает пороговое значение, выполняют по меньшей мере грамматический, или по меньшей мере семантический анализ текстовой фразы и фразы-источника.
В другом варианте осуществления данной технологии предложен постоянный машиночитаемый носитель, на котором хранятся программные команды, при выполнении которых одним или несколькими процессорами одного или нескольких электронных устройств осуществляется один или несколько вышеописанных способов. Таким образом, в различных вариантах осуществления настоящей технологии предложен постоянный машиночитаемый носитель, хранящий программные команды для обработки текстов, обеспечивающие, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством:
понимания смысла фразы-источника, состоящей из слов источника;
понимания смысла целевой фразы, состоящей из целевых слов;
установления соответствия множества признаков слов источника для каждого слова источника;
установления соответствия множества признаков целевых слов для каждого целевого слова;
анализа множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова; и
генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику, для трансформации ее в целевую фразу, на основании преобразования.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: определения сходства между каждым множеством признаков слов источника и каждым множеством признаков целевых слов при анализе множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: определения сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов включает сравнение соответствующих грамматических признаков каждого из слов источника с соответствующими грамматическими признаками каждого из целевых слов.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: определения сходства соответствующего значения каждого из слов источника с соответствующим значением каждого из целевых слов при определении сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: подбора одному из множеств признаков слова источника наиболее подобного множества признаков из множеств признаков целевого слова при анализе множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова; и генерации первого правила трансформации фразы, применимого к фразе-источнику, которое трансформирует слово источника, соотнесенное с одним из множеств признаков слова источника, в целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова при генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику, для трансформации ее в целевую фразу.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: применения первого правила трансформации фразы к фразе-источнику для видоизменения формы слова источника в форму целевого слова.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: генерации второго правила трансформации фразы, применяемого к фразе-источнику, которое удаляет по меньшей мере одно слово из фразы-источника при генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: генерации третьего правила трансформации фразы, применяемого к фразе-источнику для добавления в нее по меньшей мере одного слова при генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: понимания смысла текстовой фразы; и применения одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение до применения одного или нескольких правил трансформации фразы к текстовой фразе.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: по меньшей мере грамматического, или по меньшей мере семантического анализа текстовой фразы и фразы-источника при определении того, что сходство текстовой фразы с фразой-источником превышает пороговое значение.
В другом варианте осуществления данной технологии предложен постоянный машиночитаемый носитель, на котором хранятся одно или несколько правил трансформации фразы - сгенерированные на основе анализа множества признаков, в том числе множества признаков слова источника, сопоставленного со словом источника фразы-источника, и множества признаков целевого слова, сопоставленного с целевым словом целевой фразы, - и программные команды, обеспечивающие, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: понимания смысла текстовой фразы; определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение; и применения одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
Возможен вариант осуществления носителя, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: по меньшей мере грамматического, или по меньшей мере семантического анализа текстовой фразы и фразы-источника при определении того, что сходство текстовой фразы с фразой-источником превышает пороговое значение.
В контексте настоящего описания, если не указано иное, термин «компьютерное устройство» включает любое аппаратное и/или программное обеспечение, подходящее для решения соответствующей задачи. Таким образом, некоторыми примерами компьютерных устройств, не имеющими ограничительного характера, могут служить компьютерные процессоры, компьютерные системы (один или несколько серверов, настольные компьютеры, ноутбуки, нетбуки и т.п.), смартфоны, планшеты, а также сетевое оборудование, такое как маршрутизаторы, коммутаторы и шлюзы.
В контексте настоящего описания, если не указано иное, следует понимать, что первое устройство «находится в связи» со вторым устройством, если каждое из устройств способно отправлять информацию другому устройству и получать информацию от него через любую физическую среду или комбинацию физических сред, на любое расстояние и с любой скоростью. В качестве примера, не имеющего ограничительного характера, два цифровых электронных устройства могут быть связаны по компьютерной сети, например, по сети Интернет. В качестве другого примера, не имеющего ограничительного характера, устройства могут работать на одном и том же цифровом электронном аппаратном обеспечении, в этом случае связь может осуществляться с помощью любых средств, доступных на подобном цифровом электронном аппаратном обеспечении, например, с помощью межпроцессного взаимодействия.
В контексте настоящего описания, если не указано иное, термин «машиночитаемый носитель» включает носители абсолютно любого типа и характера, например, помимо прочего, ОЗУ, ПЗУ, диски (компакт диски, DVD-диски, гибкие магнитные диски, жесткие диски и т.д.), USB флеш-накопители, карты памяти, твердотельные накопители и накопители на магнитной ленте.
В контексте настоящего описания, если не указано иное, «указание» информационного элемента может представлять собой сам информационный элемент или указатель, отсылку, ссылку или другой косвенный способ, позволяющий получателю указания определить местоположение сети, памяти, базы данных или местоположение другого машиночитаемого носителя, из которого может быть извлечен информационный элемент. Например, указание файла может включать в себя сам файл (т.е. его содержимое), или же оно может являться уникальным дескриптором файла, относящим файл к определенной файловой системе, или какими-либо другими средствами, которые направляют получателя указания к сетевой папке, адресу памяти, таблице в базе данных или в другое местоположение, в котором можно получить доступ к файлу. Специалистам в данной области техники вполне понятно, что степень точности, необходимая для такого указания, зависит от степени первоначального понимания того, как должна быть интерпретирована информация, которой обмениваются отправитель и получатель указания. Например, если до установления связи между отправителем и получателем понятно, что указание информационного элемента будет иметь вид ключа базы данных для элемента в определенной таблице заданной базы данных, содержащей информационный элемент, то отправка ключа базы данных - это все, что необходимо для эффективной передачи информационного элемента получателю, несмотря на то, что сам информационный элемент не передавался между отправителем и получателем указания.
В контексте настоящего описания, если не указано иное, слова «первый», «второй», «третий» и т.д. используются в качестве прилагательных исключительно для того, чтобы различать существительные, которые они определяют, а не с целью описания какой-либо конкретной связи между этими существительными. Так, например, следует иметь в виду, что использование терминов «первый сервер» и «третий сервер» не подразумевает какого-либо определенного порядка, типа события, хронологии, иерархии или ранжирования (например) серверов/между серверами, равно как и их использование (само по себе) не подразумевает, что некий «второй сервер» должен обязательно существовать в той или иной ситуации. Более того, как указано в этом документе в других контекстах, ссылка на «первый» элемент и «второй» элемент не исключает возможности того, что эти два элемента являются одним и тем же объектом реального мира. Так, например, в некоторых случаях, «первый» сервер и «второй» сервер могут являться одним и тем же программным и/или аппаратным обеспечением, а в других случаях они могут являться различным программным и/или аппаратным обеспечением.
Каждый вариант осуществления данной технологии включает по меньшей мере одну из вышеупомянутых целей. Следует иметь в виду, что некоторые варианты осуществления данной технологии, полученные в результате попыток достичь вышеупомянутой цели, могут удовлетворять и другим целям, отдельно не указанным здесь.
Дополнительные и/или альтернативные признаки, особенности и преимущества вариантов осуществления данной технологии станут очевидными из последующего описания, прилагаемых чертежей и прилагаемой формулы изобретения.
Краткое описание чертежей
Для лучшего понимания настоящей технологии, а также других ее особенностей и дополнительных признаков, дана ссылка на следующее описание, которое должно использоваться вместе с прилагаемыми чертежами, на которых:
на Фиг. 1 показана схема компьютерной системы, пригодной для осуществления данной технологии и/или использования в связи с вариантами осуществления данной технологии.
на Фиг. 2 показана структурная схема примера осуществления данной технологии.
на Фиг. 3 и 4 показаны схемы, иллюстрирующие фразу фразу-источник и целевую фразу, используемые с примером осуществления данной технологии.
на Фиг. 5, 6, 7, 8 показаны схемы, иллюстрирующие различные слова и множества признаков этих слов согласно примеру осуществления данной технологии.
на Фиг. 9 показана схема, иллюстрирующая преобразование фразу-источник и целевую фразу согласно примеру осуществления данной технологии.
на Фиг. 10 показана блок-схема, иллюстрирующая этапы способа, который является вариантом осуществления данной технологии.
Осуществление изобретения
Примеры и используемые здесь условные конструкции предназначены, главным образом, для того, чтобы облегчить понимание принципов данной технологии, а не для установления границ ее объема. Ясно, что специалисты могут разработать различные устройства, отдельно не описанные и не показанные здесь, но которые, тем не менее, воплощают собой принципы данной технологии и находятся в пределах ее объема.
Кроме того, для помощи в понимании, следующее описание может описывать относительно упрощенные варианты осуществления данной технологии. Как будет понятно специалистам, различные варианты осуществления данной технологии могут обладать большей сложностью.
В некоторых случаях могут быть также изложены примеры изменений данной технологии. Это делается лишь для того, чтобы облегчить понимание, а не для определения объема или границ настоящей технологии. Эти изменения не являются исчерпывающим списком, и специалисты могут вносить другие изменения, остающиеся в границах объема настоящей технологии. Кроме того, те случаи, где не были описаны примеры изменений элемента, не следует интерпретировать так, что изменения не возможны, или то, что описано, является единственным вариантом осуществления этого элемента настоящей технологии.
Более того, подразумевается, что все заявленные здесь варианты осуществления технологии, равно как и конкретные их примеры, охватывают ее структурные и функциональные эквиваленты, вне зависимости от того, известны ли они на данный момент или будут разработаны в будущем. Таким образом, специалистам вполне понятно, что представленные здесь блок-схемы представляют собой концептуальные иллюстративные схемы, воплощающие принципы данной технологии. Аналогично, любые блок-схемы, структурные схемы, диаграммы состояний, псевдокоды и т.п. представляют собой различные процессы, которые могут быть представлены на машиночитаемом носителе и, таким образом, выполняться компьютером или процессором, вне зависимости от того, показан ли явно подобный компьютер или процессор, или нет.
Функции различных элементов, показанных на фигурах, в том числе любого функционального блока, обозначенного как «процессор», могут быть обеспечены с помощью специализированного аппаратного обеспечения, а также аппаратного обеспечения, способного выполнять подходящее программное обеспечение. Когда речь идет о процессоре, функции могут обеспечиваться одним выделенным процессором, одним общим процессором или множеством индивидуальных процессоров, некоторые из которых могут быть общими. Более того, использование терминов «процессор» или «контроллер» не подразумевает исключительно аппаратное обеспечение, способное выполнять программное обеспечение, и может включать, помимо прочего, оборудование с цифровым сигнальным процессором (ЦСП), сетевой процессор, интегральную схему специального назначения {англ. ASIC), программируемую пользователем вентильную матрицу (ППВМ), постоянное запоминающее устройство (ПЗУ) для хранения программного обеспечения, оперативное запоминающее устройство (ОЗУ) и энергонезависимое запоминающее устройство. Также может быть включено другое аппаратное обеспечение, стандартное и/или заказное.
Программные модули, или просто, модули, представляющие собой программное обеспечение, могут быть представлены здесь в качестве любой комбинации элементов блок-схемы или других элементов, указывающих на выполнение этапов процесса и/или на текстовое описание. Подобные модули могут выполняться аппаратным обеспечением, показанным в явно выраженной или в неявной форме.
Принимая во внимание эти основные принципы, далее будут рассмотрены некоторые примеры, не имеющие ограничительного характера, которые иллюстрируют различные варианты осуществления данной технологии.
На Фиг. 1 изображена компьютерная система 100, пригодная для использования с некоторыми вариантами осуществления данной технологии, также система 100 содержит различные аппаратные компоненты, в том числе один или несколько одноядерных или многоядерных процессоров, собирательно обозначенных как «процессор 110», твердотельный накопитель 120, оперативное запоминающее устройство 130, интерфейс дисплея 140 и интерфейс ввода/вывода 150. Сообщение между различными компонентами компьютерной системы 100 может осуществляться при помощи одной или нескольких внутренних и/или внешних шин 160 (напр. шины PCI, универсальной последовательной шины, шины стандарта IEEE 1394 ("Firewire"), шины SCSI, шины стандарта Serial-ATA и т.д.), с которыми электронно соединены различные аппаратные компоненты.
Интерфейс дисплея 140 может быть соединен с монитором 142 (напр. при помощи HDMI-кабеля 144), который виден пользователю 170, а интерфейс ввода/вывода 150 может быть соединен с клавиатурой 151 (напр. при помощи USB-кабеля 153) и мышью 152 (напр. при помощи USB-кабеля 154); как клавиатура 151, так и мышь 152 используются пользователем 170.
Согласно вариантам осуществления данной технологии твердотельный накопитель 120 хранит программные команды, пригодные для загрузки в оперативное запоминающее устройство (ОЗУ) 130 и выполнения процессором 110 для обработки текста. Программные команды могут быть, к примеру, частью библиотеки или приложения.
На Фиг. 2 представлена структурная схема примера осуществления данной технологии, которая содержит модуль преобразования слов 230 и модуль генерации правил 250. Модуль преобразования слов 230 принимает фразу-источник 210 и целевую фразу 220 в качестве входных данных и устанавливает соответствие 240 слов источника фразы-источника 210 целевым словам целевой фразы 220. Модуль генерации правил получает преобразование 240 в качестве входной информации и генерирует одно или несколько правил трансформации фразы 260 в качестве выходной информации.
На Фиг. 3 показан пример фразы-источника 210, "The proud eagle sailed high in the sky" (русск. «Гордый орел парил высоко в небе»), которая состоит из слов источника 211-218.
На Фиг. 4 показан пример целевой фразы 220, "The bird flew in the sky" (русск. «Птица летела в небе»), которая состоит из целевых слов 221-226.
На Фиг. 5 показано множество признаков слова источника 213, "eagle" (русск. «орел»), из фразы-источника 210, включающее грамматические признаки 2131 и значение 2132 слова источника 213. Грамматические признаки 2131 включают часть речи 21311 слова источника 213 со значением «имя существительное» в этом случае. Значение 2132 содержит одно или несколько значений, кодирующих семантические признаки слова источника 213, например вектор слова, сгенерированный хорошо известным алгоритмом word2vec.
Подобным образом, на Фиг. 6 показано множество признаков целевого слова 222, "bird" (русск. «птица»), из целевой фразы 220, включающее грамматические признаки 2221 и значение 2222 целевого слова 222. Грамматические признаки 2221 включают часть речи 22211 слова источника 222, которая также имеет значение «имя существительное». Значение 2222 содержит одно или несколько значений, кодирующих семантические признаки слова источника 222, например вектор слова, сгенерированный хорошо известным алгоритмом word2vec. В тех вариантах осуществления, в которых значение 2132 слова источника 213 и значение 2222 целевого слова 222 представлены в виде векторов, может измеряться расстояние между этими векторами для определения семантического сходства между словом источника 213 и целевым словом 222.
Подобным образом, на Фиг. 7 показано множество признаков слова источника 214, "sailed" (русск. «»), из фразы-источника 210, включающее грамматические признаки 2141 и значение 2142 слова источника 214. Грамматические признаки 2141 включают часть речи 21411 слова источника 214 (со значением «глагол») и время глагола 21412 (со значением «прошедшее»). Так же, как и выше, значение 2142 содержит одно или несколько значений, кодирующих семантические признаки слова источника 214.
На Фиг. 8 показано множество признаков целевого слова 223, "flew" (русск. «летела»), из целевой фразы 220, включающее грамматические признаки 2231 и значение 2232 целевого слова 223. Грамматические признаки 2231 включают часть речи 22311 слова источника 223 (со значением «глагол») и время глагола 22312 (со значением «прошедшее»). Как сказано выше, в некоторых вариантах осуществления, значения 2142 и 2232 представлены в виде векторов, а расстояние между ними может измеряться для определения семантического сходства между словом источника 214 и целевым словом 223.
На Фиг. 9 показано преобразование 240 слов источника 211-218 фразы-источника 210 на целевые слова 221-226 целевой фразы 220. Слово источника 211 ("the" - определенный артикль) преобразуется в целевое слово 221 ("the"), слово источника 213 ("eagle" - «орел») преобразуется в целевое слово 222 ("bird" - «птица»), слово источника 214 ("sailed" - «») преобразуется в целевое слово 223 ("flew" - «летела»), слово источника 216 ("in" - «в») преобразуется в целевое слово 224 ("in"), слово источника 217 ("the") преобразуется в целевое слово 225 ("the"), а слово источника 218 ("sky" - «небо») преобразуется в целевое слово 226 ("sky"). Можно заметить, что ни слово источника 212 ("proud" - «гордый») ни слово источника 215 ("high" - «высоко») не преобразуются в какое-либо из целевых слов 221-226. Вместо этого преобразование 240 указывает на то, что эти слова источника 212 и 216 должны опускаться. Результатом этого является то, что целевая фраза 220 содержит только шесть слов, на два меньше, чем фраза-источник 210, которая содержит восемь слов.
В противоположность этому в других вариантах осуществления (не показаны) преобразование 240 может указывать на то, что целевые слова должны быть добавлены во фразу-источник 210 для генерации целевой фразы 220. Это было бы верным, например, в случае, описанном выше в уровне техники, в котором фраза-источник "The Tate Modern opened in 2000" (русск. «Тейт Модерн открыт в 2000») преобразуется в целевую фразу "The Tate Modern opened in the year two thousand" (русск. «Тейт Модерн открыт в двухтысячном году») с добавлением слов "the year" (русск. «году») для генерации целевой фразы.
Фиг. 10 представляет собой блок-схему, иллюстрирующую этапы примера способа 300, который является вариантом осуществления данной технологии. Способ 300 может выполняться, например, процессором 110 компьютерной системы 100, изображенной на Фиг. 1.
На шаге 310 выполняется понимание смысла фразы-источника 210, состоящей из слов источника 211-218. В качестве примеров, не имеющих ограничительного характера, фраза-источник 210 может быть получена от пользователя 170 на Фиг. 1, который может набрать входную фразу 210 на клавиатуре 151, или же фраза-источник 210 может быть получена через сетевой интерфейс компьютерной системы 100 (не показан).
На шаге 320 выполняется понимание смысла целевой фразы 220, состоящей из целевых слов 221-226. В качестве примеров, не имеющих ограничительного характера, целевая фраза 220 может быть опять-таки получена от пользователя 170 через клавиатуру 151, или через сетевой интерфейс компьютерной системы 100 (не показан).
На шаге 330 выполняется установление соответствия множества признаков для каждого из слов источника 211-218. Множество признаков каждого из слов источника 211-218 может включать один или несколько грамматических признаков (напр. 2131 на Фиг. 5) этого слова источника, значение (напр. 2132 на Фиг. 5) этого слова источника и/или один или несколько других признаков (не указаны) этого слова источника.
Шаг 330 может включать определение грамматических признаков слов источника 211-218 посредством грамматического анализа слов источника 211-218, который может дополнительно включать анализ контекста, в котором используются слова источника 211-218 (т.е. сама фраза-источник 210 и, дополнительно, какой-либо дополнительный контекстуальный текст, находящийся перед и/или после фразы-источника 210 в более объемном тексте, например документе).
Шаг 330 может включать определение значений слов источника 211-218 посредством семантического анализа слов источника 211-218 (напр. при помощи существующего алгоритма, например word2vec).
На шаге 340 выполняется установление соответствия множества признаков для каждого из целевых слов 221-226. Множество признаков каждого из целевых слов 221-226 может включать один или несколько грамматических признаков (напр. 2221 на Фиг. 6) этого целевого слова, значение (напр. 2222 на Фиг. 6) этого целевого слова и/или один или несколько других признаков (не указаны) этого целевого слова.
Шаг 340 может включать определение грамматических признаков целевых слов 221-226 посредством грамматического анализа целевых слов 221-226, который может дополнительно включать анализ контекста, в котором используются слова источника 221-226 (т.е. сама целевая фраза 210 и, дополнительно, какой-либо дополнительный контекстуальный текст, находящийся перед и/или после целевой фразы 210 в более объемном тексте, например документе).
Шаг 340 может включать определение значений целевых слов 221-226 посредством семантического анализа целевых слов 221-226 (напр. при помощи существующего алгоритма, например word2vec).
На шаге 350 выполняется анализ множеств признаков слов источника и множеств признаков целевых слов для определения преобразования 240 слов источника (напр. 211-218) фразы-источника 210 на целевые слова (напр. 221-228) целевой фразы 220. Это может включать определение сходства между каждым из множеств слов источника и каждым из множеств целевых слов. В тех вариантах осуществления, в которых множества признаков одного или нескольких слов источника (напр. 211-218) содержат грамматические признаки слов источника, определение сходства множеств признаков слов источника с множествами признаков целевых слов может включать сравнение соответствующих грамматических признаков каждого из слов источника с соответствующими грамматическими признаками каждого из целевых слов. В тех вариантах осуществления, в которых множества признаков одного или нескольких слов источника (напр. 211-218) содержат значения слов источника, определение сходства множеств признаков слов источника с множествами признаков целевых слов может включать определение сходства соответствующего значения каждого из слов источника с соответствующим значением каждого из целевых слов.
Шаг 350 может включать осуществление выбора наиболее подобного множества признаков целевого слова, относящегося к целевым словам (напр. 221-226) целевой фразы 220, для одного из множеств признаков слова источника, относящегося к словам-источникам (напр. к одному из 211-218) фразы-источника 210. Самое подобное из множеств признаков целевых слов может являться множеством, которое имеет грамматические признаки, наиболее подобные грамматическим признакам слов источника, или множеством, которое имеет значение, наиболее подобное значению слов источника, или множеством, которое имеет другой признак, наиболее подобный этому признаку слов источника, или множеством, которое имеет самое высокое средневзвешенное значение сходства различных признаков с различными признаками множества слов источника.
На шаге 360 выполняется генерация одного или нескольких правил трансформации фразы 260, применимых к фразе-источнику 210, для трансформации фразы-источника 210 в целевую фразу 220 на основании преобразования 240. Например, может быть проанализировано преобразование 240, изображенное на Фиг. 9, для определения того, что, т.к. слово источника 212 ("proud", русск. «гордый») не преобразуется в какое-либо из целевых слов 221-226, должно генерироваться правило трансформации фразы для удаления второго слова (напр. 212) фразы-источника 210. В других случаях, как в примере с «Тейт Модерн», может генерироваться правило трансформации фразы для добавления одного или нескольких слов (напр. "the year", русск. «году») к фразе.
В других случаях (не показаны) одно или несколько сгенерированных правил трансформации фразы 260 могут использоваться для трансформации слова источника, относящегося к одному из множеств признаков целевого слова, в целевое слово, относящегося к наиболее подобному из множеств признаков целевого слова. В некоторых таких случаях слово источника и целевое слово, в которое должно быть трансформировано слово источника, имеют одинаковый корень, и правило трансформации фразы изменяет лишь форму слова источника в форму целевого слова. Например, время глагола слова источника "flying" (русск. «летает») может быть изменено на время глагола целевого слова "flew" (русск. «летал»). В некоторых языках, например русском, имена существительные подвергаются трансформациям формы в зависимости от контекста, в котором они используются (напр. в зависимости от того, является ли существительное субъектом или объектом действия). Таким образом, правила трансформации фразы 260, которые изменяют формы слов источника в формы целевых слов, могут использоваться для осуществления структурных изменений фразы-источника 210 для трансформации ее в целевую фразу 220.
В некоторых вариантах осуществления после того, как были сгенерированы одно или несколько правил трансформации фразы 260, они могут применяться к текстовой фразе, которая может быть или может не быть идентичной фразе-источнику 210, на основании которой были сгенерированы одно или несколько правил трансформации фразы 260. Следовательно, различные дополнительные варианты осуществления способа 300 могут включать этапы понимания смысла текстовой фразы (напр. получения текстовой фразы от пользователя 170 через клавиатуру 151 или сетевой интерфейс компьютерной системы 100), а затем применения одного или нескольких правил трансформации фразы 160 к текстовой фразе для генерации трансформированной текстовой фразы.
В тех вариантах осуществления, в которых текстовая фраза не идентична фразе-источнику 210, способ 300 может дополнительно включать этап определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение. Например, на основании семантического анализа фраза "The Tate Modern was opened to the public in 2000" (русск. «Тейт Модерн был открыт для публики в 2000») может считаться в достаточной степени подобной фразе-источнику "The Tate Modern opened in 2000" {русск. «Тейт Модерн открыт в 2000»), чтобы применялось правило трансформации фразы для добавления "the year" (русск. «году») перед «2000», с тем чтобы сгенерировать трансформированную текстовую фразу "The Tate Modern was opened to the public in the year 2000" (русск. «Тейт Модерн был открыт для публики в 2000 году»).
Специалистам вполне понятно, что возможны изменения и улучшения описанных выше вариантов осуществления данной технологии. Предшествующее описание имеет иллюстративный, а не ограничительный характер. Соответственно, объем данной технологии ограничивается только объемом прилагаемой формулы изобретения.
Claims (72)
1. Способ обучения для привидения фразы-источника в целевую фразу для последующей обработки текстов, выполняемый на компьютерном устройстве, включающий следующие этапы:
получение фразы-источника, состоящей из слов источника;
получение целевой фразы, состоящей из целевых слов;
установление соответствия множества признаков слов источника для каждого слова источника;
установление соответствия множества признаков целевых слов для каждого целевого слова;
анализирование множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова, включающее
определение сходства между каждым множеством признаков слов источника и каждым множеством признаков целевых слов, где
каждое из множеств признаков слов источника включает один или несколько грамматических признаков слова источника, к которому относится это множество признаков;
каждое из множеств признаков целевых слов включает один или несколько грамматических признаков целевого слова, к которому относится это множество признаков;
причем при определении сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов выполняют сравнение соответствующих грамматических признаков каждого из слов источника с соответствующими грамматическими признаками каждого из целевых слов; и,
на основании преобразования, генерация одного или нескольких правил трансформации фразы, применимых к фразе-источнику, для трансформации ее в целевую фразу.
2. Способ по п. 1, в котором:
каждое из множеств признаков слов источника включает значение слова источника, к которому относится это множество признаков;
каждое из множеств признаков целевых слов включает значение целевого слова, к которому относится это множество признаков; и
при определении сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов выполняют определение сходства соответствующего значения каждого из слов источника с соответствующим значением каждого из целевых слов.
3. Способ по п. 1, в котором:
на этапе анализирования множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова дополнительно выполняют этап подбора одному из множеств признаков слова источника наиболее подобного множества признаков из множеств признаков целевого слова; и
на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию первого правила трансформации фразы, применимого к фразе-источнику, которое трансформирует слово источника, соотнесенное с одним из множеств признаков слова источника, в целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова.
4. Способ по п. 2, в котором:
на этапе анализирования множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова дополнительно выполняют этап подбора одному из множеств признаков слова источника наиболее подобного множества признаков из множеств признаков целевого слова; и
на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию первого правила трансформации фразы, применимого к фразе-источнику, которое трансформирует целевое слово, соотнесенное с одним из множеств признаков слова источника, в целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова.
5. Способ по п. 3, в котором:
слово источника, соотнесенное с одним из множеств признаков слова источника, и целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова, имеют одинаковый корень; и
первое правило трансформации фразы применяют к фразе-источнику для видоизменения формы слова источника в форму целевого слова.
6. Способ по п. 4, в котором:
слово источника, соотнесенное с одним из множеств признаков слова источника, и целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова, имеют одинаковый корень; и
первое правило трансформации фразы применяют к фразе-источнику для видоизменения формы слова источника в форму целевого слова.
7. Способ по п. 1, в котором на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию второго правила трансформации фразы, применяемого к фразе-источнику, которое удаляет по меньшей мере одно слово из фразы-источника.
8. Способ по п. 1, в котором на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию третьего правила трансформации фразы, применяемого к фразе-источнику для добавления в нее по меньшей мере одного слова.
9. Способ по п. 7, в котором на этапе генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу, выполняют генерацию третьего правила трансформации фразы, применяемого к фразе-источнику для добавления в нее по меньшей мере одного слова.
10. Способ по п. 1, в котором дополнительно выполняют следующие этапы:
получение текстовой фразы; и
применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
11. Способ по п. 7, в котором дополнительно выполняют следующие этапы:
получение текстовой фразы; и
применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
12. Способ по п. 9, в котором дополнительно выполняют следующие этапы:
получение текстовой фразы; и
применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
13. Способ по п. 10, в котором текстовая фраза отличается от фразы-источника, а до применения одного или нескольких правил трансформации фразы к текстовой фразе дополнительно выполняют этап определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение.
14. Способ по любому из пп. 11-12, в котором текстовая фраза отличается от фразы-источника, а до применения одного или нескольких правил трансформации фразы к текстовой фразе дополнительно выполняют этап определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение.
15. Способ по п. 13, в котором на этапе определения того, что сходство текстовой фразы с фразой-источником превышает пороговое значение, выполняют по меньшей мере грамматический или по меньшей мере семантический анализ текстовой фразы и фразы-источника.
16. Способ по п. 14, в котором на этапе определения того, что сходство текстовой фразы с фразой-источником превышает пороговое значение, выполняют по меньшей мере грамматический или по меньшей мере семантический анализ текстовой фразы и фразы-источника.
17. Способ обработки текстов, выполняемый на компьютерном устройстве, содержащем память, на которой хранятся одно или несколько правил трансформации фразы, которые были сгенерированы на основании анализа множеств признаков, в том числе множества признаков слова источника, сопоставленного со словом источника фразы-источника, и множества признаков целевого слова, сопоставленного с целевым словом целевой фразы, который включает следующие этапы:
получение текстовой фразы;
определение того, что сходство текстовой фразы с фразой-источником превышает пороговое значение на основании по меньшей мере грамматического или по меньшей мере семантического анализа текстовой фразы и фразы-источника; и применение одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
18. Постоянный машиночитаемый носитель, хранящий программные команды обучения для привидения фразы-источника в целевую фразу для последующей обработки текстов, команды следующей обработки текстов, команды, обеспечивающие, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством:
получения фразы-источника, состоящей из слов источника;
получения целевой фразы, состоящей из целевых слов;
установления соответствия множества признаков слов источника для каждого слова источника;
установления соответствия множества признаков целевых слов для каждого целевого слова;
анализа множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова, включающего:
определение сходства между каждым множеством признаков слов источника и каждым множеством признаков целевых слов при анализе множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова, включающее сравнение соответствующих грамматических признаков каждого из слов источника с соответствующими грамматическими признаками каждого из целевых слов; и
генерацию одного или нескольких правил трансформации фразы, применимых к фразе-источнику, для трансформации ее в целевую фразу, на основании преобразования.
19. Носитель по п. 18, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством
определения сходства соответствующего значения каждого из слов источника с соответствующим значением каждого из целевых слов при определении сходства каждого из множеств признаков слов источника с каждым из множеств признаков целевых слов.
20. Носитель по п. 18, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством:
подбора одному из множеств признаков слова источника наиболее подобного множества признаков из множеств признаков целевого слова при анализе множеств признаков слов источника и множеств признаков целевых слов для определения преобразования слов источника в целевые слова; и
генерации первого правила трансформации фразы, применимого к фразе-источнику, которое трансформирует слово источника, соотнесенное с одним из множеств признаков слова источника, в целевое слово, соотнесенное с наиболее подобным множеством признаков целевого слова при генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику, для трансформации ее в целевую фразу.
21. Носитель по п. 20, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством
применения первого правила трансформации фразы к фразе-источнику для видоизменения формы слова источника в форму целевого слова.
22. Носитель по п. 18, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством генерации второго правила трансформации фразы, применяемого к фразе-источнику, которое удаляет по меньшей мере одно слово из фразы-источника при генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу.
23. Носитель по п. 18, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством генерации третьего правила трансформации фразы, применяемого к фразе-источнику для добавления в нее по меньшей мере одного слова при генерации одного или нескольких правил трансформации фразы, применимых к фразе-источнику для трансформации ее в целевую фразу.
24. Носитель по п. 18, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством:
получения текстовой фразы; и
применения одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
25. Носитель по п. 24, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение до применения одного или нескольких правил трансформации фразы к текстовой фразе.
26. Носитель по п. 25, в котором программные команды для обработки текстов обеспечивают, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством: по меньшей мере грамматического или по меньшей мере семантического анализа текстовой фразы и фразы-источника при определении того, что сходство текстовой фразы с фразой-источником превышает пороговое значение.
27. Постоянный машиночитаемый носитель, на котором хранятся одно или несколько правил трансформации фразы, сгенерированные на основе анализа множества признаков, в том числе множества признаков слова источника, сопоставленного со словом источника фразы-источника, и множества признаков целевого слова, сопоставленного с целевым словом целевой фразы, и программные команды, обеспечивающие, при их выполнении на компьютерном устройстве, выполнение компьютерным устройством:
понимания смысла текстовой фразы;
определения того, что сходство между текстовой фразой и фразой-источником превышает пороговое значение на основании по меньшей мере грамматического или по меньшей мере семантического анализа текстовой фразы и фразы-источника при определении того, что сходство текстовой фразы с фразой-источником превышает пороговое значение; и
применения одного или нескольких правил трансформации фразы к текстовой фразе для генерации трансформированной текстовой фразы.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2014135303A RU2639684C2 (ru) | 2014-08-29 | 2014-08-29 | Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) |
EP14900381.6A EP3186804A4 (en) | 2014-08-29 | 2014-11-25 | Method for text processing |
PCT/IB2014/066336 WO2016030730A1 (en) | 2014-08-29 | 2014-11-25 | Method for text processing |
US14/921,189 US9898448B2 (en) | 2014-08-29 | 2015-10-23 | Method for text processing |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
RU2014135303A RU2639684C2 (ru) | 2014-08-29 | 2014-08-29 | Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) |
Publications (2)
Publication Number | Publication Date |
---|---|
RU2014135303A RU2014135303A (ru) | 2016-03-20 |
RU2639684C2 true RU2639684C2 (ru) | 2017-12-21 |
Family
ID=55398802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
RU2014135303A RU2639684C2 (ru) | 2014-08-29 | 2014-08-29 | Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) |
Country Status (4)
Country | Link |
---|---|
US (1) | US9898448B2 (ru) |
EP (1) | EP3186804A4 (ru) |
RU (1) | RU2639684C2 (ru) |
WO (1) | WO2016030730A1 (ru) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2685044C1 (ru) * | 2018-07-03 | 2019-04-16 | Федеральное государственное бюджетное учреждение "Институт теоретической и экспериментальной физики имени А.И. Алиханова Национального исследовательского центра "Курчатовский институт" (НИЦ "Курчатовский институт"- ИТЭФ) | Способ определения контекста слова и текстового файла |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10176819B2 (en) * | 2016-07-11 | 2019-01-08 | The Chinese University Of Hong Kong | Phonetic posteriorgrams for many-to-one voice conversion |
JP2020527804A (ja) * | 2017-07-18 | 2020-09-10 | コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. | コード化された医療語彙のマッピング |
CN117744654A (zh) * | 2017-07-26 | 2024-03-22 | 舒辅医疗 | 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统 |
US10915707B2 (en) * | 2017-10-20 | 2021-02-09 | MachineVantage, Inc. | Word replaceability through word vectors |
US10747833B2 (en) | 2017-10-30 | 2020-08-18 | Nio Usa, Inc. | Personalized news recommendation engine |
CN110489750A (zh) * | 2019-08-12 | 2019-11-22 | 昆明理工大学 | 基于双向lstm-crf的缅甸语分词及词性标注方法及装置 |
CN111832318B (zh) * | 2020-07-16 | 2023-03-21 | 平安科技(深圳)有限公司 | 单语句自然语言处理方法、装置、计算机设备及可读存储介质 |
CN112395408B (zh) * | 2020-11-19 | 2023-11-07 | 平安科技(深圳)有限公司 | 停用词表生成方法、装置、电子设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070016401A1 (en) * | 2004-08-12 | 2007-01-18 | Farzad Ehsani | Speech-to-speech translation system with user-modifiable paraphrasing grammars |
RU2368946C2 (ru) * | 2003-11-12 | 2009-09-27 | Майкрософт Корпорейшн | Система для идентификации перефразирования с использованием технологии машинного перевода |
EA016427B1 (ru) * | 2009-08-07 | 2012-04-30 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ синтеза речи |
US20130030787A1 (en) * | 2011-07-25 | 2013-01-31 | Xerox Corporation | System and method for productive generation of compound words in statistical machine translation |
US20130173255A1 (en) * | 1999-05-28 | 2013-07-04 | Fluential, Llc | Methods for Creating A Phrase Thesaurus |
US8798986B2 (en) * | 2006-03-13 | 2014-08-05 | Newtalk, Inc. | Method of providing a multilingual translation device for portable use |
Family Cites Families (41)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4916614A (en) * | 1986-11-25 | 1990-04-10 | Hitachi, Ltd. | Sentence translator using a thesaurus and a concept-organized co- occurrence dictionary to select from a plurality of equivalent target words |
EP0598598B1 (en) | 1992-11-18 | 2000-02-02 | Canon Information Systems, Inc. | Text-to-speech processor, and parser for use in such a processor |
US5634084A (en) | 1995-01-20 | 1997-05-27 | Centigram Communications Corporation | Abbreviation and acronym/initialism expansion procedures for a text to speech reader |
US6424983B1 (en) * | 1998-05-26 | 2002-07-23 | Global Information Research And Technologies, Llc | Spelling and grammar checking system |
US6345243B1 (en) * | 1998-05-27 | 2002-02-05 | Lionbridge Technologies, Inc. | System, method, and product for dynamically propagating translations in a translation-memory system |
DE19910621C2 (de) * | 1999-03-10 | 2001-01-25 | Thomas Poetter | Vorrichtung und Verfahren zum Verbergen von Informationen und Vorrichtung und Verfahren zum Extrahieren von Informationen |
AU2931600A (en) * | 1999-03-15 | 2000-10-04 | British Telecommunications Public Limited Company | Speech synthesis |
US20020120451A1 (en) * | 2000-05-31 | 2002-08-29 | Yumiko Kato | Apparatus and method for providing information by speech |
US6885985B2 (en) * | 2000-12-18 | 2005-04-26 | Xerox Corporation | Terminology translation for unaligned comparable corpora using category based translation probabilities |
US7054803B2 (en) * | 2000-12-19 | 2006-05-30 | Xerox Corporation | Extracting sentence translations from translated documents |
US20020173961A1 (en) * | 2001-03-09 | 2002-11-21 | Guerra Lisa M. | System, method and computer program product for dynamic, robust and fault tolerant audio output in a speech recognition framework |
WO2002093417A1 (en) * | 2001-05-17 | 2002-11-21 | University Of Southern California | Statistical method for building a translation memory |
US7313513B2 (en) * | 2002-05-13 | 2007-12-25 | Wordrake Llc | Method for editing and enhancing readability of authored documents |
US20040215461A1 (en) | 2003-04-24 | 2004-10-28 | Visteon Global Technologies, Inc. | Text-to-speech system for generating information announcements |
US20050267757A1 (en) | 2004-05-27 | 2005-12-01 | Nokia Corporation | Handling of acronyms and digits in a speech recognition and text-to-speech engine |
GB2415518A (en) * | 2004-06-24 | 2005-12-28 | Sharp Kk | Method and apparatus for translation based on a repository of existing translations |
US8831928B2 (en) * | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8201156B1 (en) * | 2007-06-08 | 2012-06-12 | Emc Corporation | Automatic generation of message IDS |
US8914278B2 (en) * | 2007-08-01 | 2014-12-16 | Ginger Software, Inc. | Automatic context sensitive language correction and enhancement using an internet corpus |
US8615388B2 (en) * | 2008-03-28 | 2013-12-24 | Microsoft Corporation | Intra-language statistical machine translation |
US20090326938A1 (en) * | 2008-05-28 | 2009-12-31 | Nokia Corporation | Multiword text correction |
EP2300939A4 (en) * | 2008-06-09 | 2016-03-30 | Nat Res Council Canada | METHOD AND SYSTEM FOR USING ALIGNMENT MEANS IN TRANSLATION MATCHING |
CN101667176A (zh) * | 2008-09-01 | 2010-03-10 | 株式会社东芝 | 基于短语的统计机器翻译方法和系统 |
US20100145676A1 (en) * | 2008-12-09 | 2010-06-10 | Qualcomm Incorporated | Method and apparatus for adjusting the length of text strings to fit display sizes |
US8463806B2 (en) * | 2009-01-30 | 2013-06-11 | Lexisnexis | Methods and systems for creating and using an adaptive thesaurus |
GB2468278A (en) * | 2009-03-02 | 2010-09-08 | Sdl Plc | Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation |
US9262403B2 (en) * | 2009-03-02 | 2016-02-16 | Sdl Plc | Dynamic generation of auto-suggest dictionary for natural language translation |
US8478581B2 (en) * | 2010-01-25 | 2013-07-02 | Chung-ching Chen | Interlingua, interlingua engine, and interlingua machine translation system |
JP5752150B2 (ja) * | 2010-02-01 | 2015-07-22 | ジンジャー ソフトウェア、インコーポレイティッド | 特に小型キーボード装置向けのインターネットコーパスを用いた文脈感応型自動言語訂正 |
US8571870B2 (en) * | 2010-02-12 | 2013-10-29 | Nuance Communications, Inc. | Method and apparatus for generating synthetic speech with contrastive stress |
US8447610B2 (en) * | 2010-02-12 | 2013-05-21 | Nuance Communications, Inc. | Method and apparatus for generating synthetic speech with contrastive stress |
US8949128B2 (en) * | 2010-02-12 | 2015-02-03 | Nuance Communications, Inc. | Method and apparatus for providing speech output for speech-enabled applications |
US9110883B2 (en) * | 2011-04-01 | 2015-08-18 | Rima Ghannam | System for natural language understanding |
US9064006B2 (en) * | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US9164983B2 (en) * | 2011-05-27 | 2015-10-20 | Robert Bosch Gmbh | Broad-coverage normalization system for social media language |
RU2460154C1 (ru) * | 2011-06-15 | 2012-08-27 | Александр Юрьевич Бредихин | Способ автоматизированной обработки текста и компьютерное устройство для реализации этого способа |
US9245253B2 (en) * | 2011-08-19 | 2016-01-26 | Disney Enterprises, Inc. | Soft-sending chat messages |
CN104239286A (zh) * | 2013-06-24 | 2014-12-24 | 阿里巴巴集团控股有限公司 | 同义短语的挖掘方法和装置及搜索相关内容的方法和装置 |
JP6417649B2 (ja) * | 2013-08-22 | 2018-11-07 | 株式会社リコー | 文章処理装置、文章表示システム、プログラム |
US9817813B2 (en) * | 2014-01-08 | 2017-11-14 | Genesys Telecommunications Laboratories, Inc. | Generalized phrases in automatic speech recognition systems |
US20150286632A1 (en) * | 2014-04-03 | 2015-10-08 | Xerox Corporation | Predicting the quality of automatic translation of an entire document |
-
2014
- 2014-08-29 RU RU2014135303A patent/RU2639684C2/ru not_active Application Discontinuation
- 2014-11-25 WO PCT/IB2014/066336 patent/WO2016030730A1/en active Application Filing
- 2014-11-25 EP EP14900381.6A patent/EP3186804A4/en not_active Withdrawn
-
2015
- 2015-10-23 US US14/921,189 patent/US9898448B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130173255A1 (en) * | 1999-05-28 | 2013-07-04 | Fluential, Llc | Methods for Creating A Phrase Thesaurus |
RU2368946C2 (ru) * | 2003-11-12 | 2009-09-27 | Майкрософт Корпорейшн | Система для идентификации перефразирования с использованием технологии машинного перевода |
US20070016401A1 (en) * | 2004-08-12 | 2007-01-18 | Farzad Ehsani | Speech-to-speech translation system with user-modifiable paraphrasing grammars |
US8798986B2 (en) * | 2006-03-13 | 2014-08-05 | Newtalk, Inc. | Method of providing a multilingual translation device for portable use |
EA016427B1 (ru) * | 2009-08-07 | 2012-04-30 | Общество с ограниченной ответственностью "Центр речевых технологий" | Способ синтеза речи |
US20130030787A1 (en) * | 2011-07-25 | 2013-01-31 | Xerox Corporation | System and method for productive generation of compound words in statistical machine translation |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2685044C1 (ru) * | 2018-07-03 | 2019-04-16 | Федеральное государственное бюджетное учреждение "Институт теоретической и экспериментальной физики имени А.И. Алиханова Национального исследовательского центра "Курчатовский институт" (НИЦ "Курчатовский институт"- ИТЭФ) | Способ определения контекста слова и текстового файла |
Also Published As
Publication number | Publication date |
---|---|
EP3186804A4 (en) | 2018-04-25 |
WO2016030730A1 (en) | 2016-03-03 |
US9898448B2 (en) | 2018-02-20 |
EP3186804A1 (en) | 2017-07-05 |
RU2014135303A (ru) | 2016-03-20 |
US20160232142A1 (en) | 2016-08-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
RU2639684C2 (ru) | Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты) | |
US11004448B2 (en) | Method and device for recognizing text segmentation position | |
JP6909832B2 (ja) | オーディオにおける重要語句を認識するための方法、装置、機器及び媒体 | |
US10606946B2 (en) | Learning word embedding using morphological knowledge | |
JP7100747B2 (ja) | 学習データ生成方法および装置 | |
US9766868B2 (en) | Dynamic source code generation | |
US9619209B1 (en) | Dynamic source code generation | |
US20180039911A1 (en) | Method and system of selecting training features for a machine learning algorithm | |
WO2018086519A1 (zh) | 一种特定文本信息的识别方法及装置 | |
US20200184012A1 (en) | Natural Language Document Summarization Using Hyperbolic Embeddings | |
US10592542B2 (en) | Document ranking by contextual vectors from natural language query | |
US10417285B2 (en) | Corpus generation based upon document attributes | |
US20180336185A1 (en) | Natural language processing of formatted documents | |
US9678947B2 (en) | Pattern identification and correction of document misinterpretations in a natural language processing system | |
US10223349B2 (en) | Inducing and applying a subject-targeted context free grammar | |
WO2023061106A1 (zh) | 用于语言翻译的方法、设备、装置和介质 | |
US11010566B2 (en) | Inferring confidence and need for natural language processing of input data | |
US20190095525A1 (en) | Extraction of expression for natural language processing | |
KR102260396B1 (ko) | 범용 신경망 기계번역기를 활용한 하이브리드 번역 시스템 | |
US20200004784A1 (en) | Index generation method, data retrieval method, apparatus of index generation | |
US11289095B2 (en) | Method of and system for translating speech to text | |
CN115858776A (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 | |
WO2020059506A1 (ja) | 学習装置、抽出装置及び学習方法 | |
JP7494935B2 (ja) | 推定装置、推定方法、および、推定プログラム | |
US11645054B2 (en) | Mapping natural language and code segments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
HE9A | Changing address for correspondence with an applicant | ||
FA92 | Acknowledgement of application withdrawn (lack of supplementary materials submitted) |
Effective date: 20161129 |
|
HE9A | Changing address for correspondence with an applicant | ||
FZ9A | Application not withdrawn (correction of the notice of withdrawal) |
Effective date: 20171027 |