KR20230153868A - Representative keyword extraction method for online conference summary - Google Patents
Representative keyword extraction method for online conference summary Download PDFInfo
- Publication number
- KR20230153868A KR20230153868A KR1020220053843A KR20220053843A KR20230153868A KR 20230153868 A KR20230153868 A KR 20230153868A KR 1020220053843 A KR1020220053843 A KR 1020220053843A KR 20220053843 A KR20220053843 A KR 20220053843A KR 20230153868 A KR20230153868 A KR 20230153868A
- Authority
- KR
- South Korea
- Prior art keywords
- topic
- face
- representative
- keyword
- keywords
- Prior art date
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 32
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000004458 analytical method Methods 0.000 claims description 14
- 241000220225 Malus Species 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 235000021016 apples Nutrition 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
비대면 회의의 회의 내용에 기초하여 연관어를 자동으로 추출하는 방법이 제공된다. 본 발명의 바람직한 실시예에 따른 비대면 회의 요약을 위한 대표 키워드 추출 방법은, 회의 텍스트 중의 문서 내에서 함께 쓰이는 빈도에 따라 관련 단어를 추출하여 회의 대화에 포함된 주제들을 추출하는, 공기 정보(Co-occurrence)를 활용한 토픽 추출 단계; 및 추출된 각 주제와 단어 사이의 연관관계를 분석하여 대표 키워드를 선정하는 LDA(Latent Dirichlet Allocation) 기반의 통계적 토픽 모델링(Topic Modeling) 단계를 포함한다.A method for automatically extracting related words based on the meeting contents of a non-face-to-face meeting is provided. A representative keyword extraction method for non-face-to-face meeting summary according to a preferred embodiment of the present invention is to extract topics included in the meeting conversation by extracting related words according to the frequency of use together within the document in the meeting text, and extracting air information (Co Topic extraction step using -occurrence); And it includes a statistical topic modeling step based on LDA (Latent Dirichlet Allocation) that selects representative keywords by analyzing the correlation between each extracted topic and word.
Description
본 발명은 비대면 회의 요약을 위한 대표 키워드 추출 방법에 관한 것으로서, 더욱 상세하게는 비대면 회의의 회의 내용에 기초하여 대표 키워드를 자동으로 추출하는 방법에 관한 것이다. The present invention relates to a method of extracting representative keywords for summarizing non-face-to-face meetings, and more specifically, to a method of automatically extracting representative keywords based on the meeting contents of a non-face-to-face meeting.
팬데믹 이후 비대면 화상회의가 급증하고 있으며, 이를 위한 다양한 화상회의 솔루션들이 등장하고 있다. 일부 솔루션들은 화상회의에서 기록된 내용을 편집하여 영상, 음성 및 텍스트가 포함된 멀티미디어 회의록을 생성할 수 있게 되었다.Since the pandemic, non-face-to-face video conferencing has been rapidly increasing, and various video conferencing solutions are emerging. Some solutions allow you to edit recorded content from video conferences to create multimedia meeting minutes containing video, audio, and text.
종래의 화상 회의 시스템을 통한 회의록 생성 과정을 보면, 회의 시작부터 종료까지의 영상 및 음성을 각각 녹화, 녹음하여 회의록 생성에 필요한 자료를 수집하고, 수집된 데이터를 종류별로 저장한다. 저장된 데이터는 시간을 기준으로 취합되며, 사용자는 취합된 데이터에서 발언 내용, 키워드 등을 편집하여 회의록을 생성한다.Looking at the process of creating meeting minutes through a conventional video conference system, video and audio from the start of the meeting to the end of the meeting are recorded and recorded, the data necessary to create the meeting minutes are collected, and the collected data is stored by type. The stored data is collected based on time, and the user creates meeting minutes by editing remarks, keywords, etc. from the collected data.
한편, 이러한 기본적인 기능 이외에도 회의록 작성과 관련하여 다양한 기능을 추가하려는 시도가 있었다. 예를 들면, 등록특허 10-2061291호는 참여자의 기준 성량 데이터와 음향신호의 성량을 분석하여 회의 참여자들을 식별해서 발언 내용을 기록하는 구성을 제안하고 있다. 등록특허 10-1290439호는 회의록에서 중요 문장을 추출하고 이들 문장간의 관계를 파악하여 트리 구조의 회의록 요약본을 생성한다. Meanwhile, in addition to these basic functions, there have been attempts to add various functions related to meeting minutes. For example, Registered Patent No. 10-2061291 proposes a configuration that identifies meeting participants and records their remarks by analyzing the standard voice data of participants and the voice volume of sound signals. Registered Patent No. 10-1290439 extracts important sentences from the meeting minutes and determines the relationships between these sentences to generate a tree-structured summary of the minutes.
회의록 요약 자동 생성 서비스는 다양한 분야에서 활용 가치가 높다. 효과적으로 커뮤니케이션 가능하며 편리함 또한 존재하기 때문에 기존에는 인력으로 대체하여 이루어졌었던 서비스이다. 그러나 딥러닝 등의 AI 등장으로 큰 리소스를 들이지 않아도 쉽게 사용할 수 있는 서비스가 되었다.The automatic meeting minutes summary generation service has great utility in various fields. Because it allows for effective communication and is also convenient, it is a service that was previously provided by human resources. However, with the advent of AI such as deep learning, it has become a service that can be easily used without investing large resources.
회의록 자동 요약은 화상회의 환경의 다중 화자 음성인식 기술을 이용하여 자연어 분석, 화행, 대화 유형 등을 분석한 다음에 이루어진다. 회의록 자동 요약은 일반적으로 발화 이해, 대화 관리, 요약 생성의 3가지 단계를 거치게 된다. 요약 생성을 위해서는 대화의 주제에 따른 최적의 키워드를 추출하는 것이 선행되어야 한다. Automatic summary of meeting minutes is performed after analyzing natural language, speech acts, and conversation types using multi-speaker voice recognition technology in a video conference environment. Automatic summarization of meeting minutes generally involves three steps: speech understanding, dialogue management, and summary generation. To create a summary, extracting optimal keywords according to the topic of the conversation must be preceded.
본 발명은 이러한 점을 감안하여 이루어진 것으로서, 비대면 회의의 회의록 요약을 위한 대표 키워드 추출 방법을 제공하는 것을 목적으로 한다.The present invention was made with these points in mind, and its purpose is to provide a method for extracting representative keywords for summarizing meeting minutes of non-face-to-face meetings.
본 발명의 바람직한 실시예에 따른 비대면 회의 요약을 위한 대표 키워드 추출 방법은, 회의 텍스트 중의 문서 내에서 함께 쓰이는 빈도에 따라 관련 단어를 추출하여 회의 대화에 포함된 주제들을 추출하는, 공기 정보(Co-occurrence)를 활용한 토픽 추출 단계; 및 추출된 각 주제와 단어 사이의 연관관계를 분석하여 대표 키워드를 선정하는 LDA(Latent Dirichlet Allocation) 기반의 통계적 토픽 모델링(Topic Modeling) 단계를 포함한다.A representative keyword extraction method for non-face-to-face meeting summary according to a preferred embodiment of the present invention is to extract topics included in the meeting conversation by extracting related words according to the frequency of use together within the document in the meeting text, and extracting air information (Co Topic extraction step using -occurrence); And it includes a statistical topic modeling step based on LDA (Latent Dirichlet Allocation) that selects representative keywords by analyzing the correlation between each extracted topic and word.
상기 공기 정보를 활용한 토픽 추출 단계는, 단어들이 같은 문서 내에서 함께 쓰이는 빈도(이하, "공기 빈도"라 함)를 조사하는 단계와, 공기 빈도가 소정의 임계값 이상인 단어쌍(word pair)을 연관어로 등록하는 단계와, 연관어 정보로부터 회의 대화 내의 토픽들을 추출하는 토픽 추출 단계를 포함할 수 있다. The topic extraction step using the air information includes examining the frequency with which words are used together in the same document (hereinafter referred to as "air frequency"), and determining word pairs whose air frequency is greater than a predetermined threshold. It may include a step of registering as a related word, and a topic extraction step of extracting topics in the conference conversation from the related word information.
일 실시예에서, 상기 토픽 추출 단계에서 문서별로 대표 단어를 선정하고 전체 대화에서 대표 단어로 선정된 횟수가 소정 횟수 이상인 대표 단어들을 토픽으로 선정할 수 있다. 다른 실시예에서 상기 토픽 추출 단계에서 공기 빈도가 소정 조건을 만족하는 단어쌍을 토픽으로 선정할 수 있다. In one embodiment, in the topic extraction step, representative words may be selected for each document, and representative words that have been selected as representative words a predetermined number of times or more in all conversations may be selected as topics. In another embodiment, in the topic extraction step, a word pair whose air frequency satisfies a predetermined condition may be selected as a topic.
일 실시예에서, 상기 LDA 기반의 통계적 토픽 모델링 단계는, 키워드간의 연관도를 계산하여 소정 조건을 만족하는 키워드들을 군집화하는 단계와, 각 주제에 대한 각 키워드의 영향도를 계산하고, 각 주제 내에서 가장 영향도가 높은 키워드를 해당 주제의 대표 주제 키워드로 선정하는 단계와, 선정된 대표 주제 키워드 중에서 전체 문서를 대표하는 키워드인 대표 키워드를 선정하는 대표 키워드 선정단계를 포함한다.In one embodiment, the LDA-based statistical topic modeling step includes calculating the degree of association between keywords and clustering keywords that satisfy predetermined conditions, calculating the influence of each keyword on each topic, and calculating the degree of influence of each keyword within each topic. It includes a step of selecting the keyword with the highest influence as the representative topic keyword of the topic, and a representative keyword selection step of selecting a representative keyword that represents the entire document from among the selected representative topic keywords.
상기 키워드 간의 연관도는 전체 문서에서 두 키워드가 동시에 등장한 문서의 수로 정의될 수 있다. 소정 조건을 만족하는 키워드들을 군집화하는 것은, 연관도가 소정 기준 이상인 키워드끼리 군집화하는 것일 수 있다. The degree of correlation between the keywords can be defined as the number of documents in which two keywords appear simultaneously in all documents. Clustering keywords that satisfy a predetermined condition may mean clustering keywords with a degree of relevance greater than or equal to a predetermined standard.
키워드의 주제에 대한 상기 영향도는, 문장 내에 해당 키워드가 있을 때 해당 주제가 되는 확률로 정의될 수 있다. The degree of influence of a keyword on a topic can be defined as the probability of becoming a topic when the keyword is present in a sentence.
일 실시예에서, 상기 대표 키워드 선정단계에서, 대표 주제 키워드들 중에서 영향도가 가장 높은 키워드를 대표 키워드로 선정한다. In one embodiment, in the representative keyword selection step, the keyword with the highest influence among representative topic keywords is selected as the representative keyword.
일 실시예에서, 상기 공기 정보를 활용한 토픽 추출 단계 전에, 발화된 문장에 대해서 화행 및 의도 분석을 수행하여 키워드 분석에 필요한 단어를 추출하는 단계을 더 구비한다.In one embodiment, before the topic extraction step using the air information, a step of extracting words required for keyword analysis by performing speech act and intention analysis on the uttered sentence is further provided.
본 발명에 따르면 문장 내에서 함께 쓰이는 빈도에 따라 회의 대화에 포함된 주제들을 추출하고 각 주제에 대한 키워드들의 영향도를 계산하여 대표 키워드를 선정함으로써, 회의록 요약을 위한 키워드를 효율 좋게 추출할 수 있다.According to the present invention, keywords for meeting minutes summary can be efficiently extracted by extracting topics included in meeting conversations according to the frequency of use together in sentences, calculating the influence of keywords on each topic, and selecting representative keywords. .
도 1은 본 발명이 적용될 수 있는 비대면 회의의 회의록 요약 환경을 설명하기 위한 네트워크 다이아그램이다.
도 2는 일반적인 회의록 요약 생성 과정을 보여주는 흐름도이다.
도 3은 본 발명의 비대면 화상회의 요약을 위한 대표 키워드 추출 방법을 수행하기 위한 동작 흐름을 보여주는 흐름도이다.
도 4는 공기정보(Co-occurrence)를 활용한 토픽 추출 과정을 보여주는 흐름도이다.
도 5는 회의 발화로부터 단어들을 추출한 예를 보여주는 도면이다.
도 6은 공기정보(Co-occurrence)를 활용하여 관련 단어를 추출하는 과정을 설명하기 위한 도면이다.
도 7는 LDA 기반의 통계적 토픽 모델링 과정을 보여주는 흐름도이다.
도 8은 LDA 기반의 통계적 토픽 모델링 과정을 설명하기 위한 설명도이다.Figure 1 is a network diagram illustrating a meeting minutes summary environment of a non-face-to-face meeting to which the present invention can be applied.
Figure 2 is a flowchart showing a general meeting minutes summary generation process.
Figure 3 is a flowchart showing the operation flow for performing the representative keyword extraction method for summarizing a non-face-to-face video conference of the present invention.
Figure 4 is a flowchart showing the topic extraction process using co-occurrence.
Figure 5 is a diagram showing an example of extracting words from a conference speech.
Figure 6 is a diagram to explain the process of extracting related words using co-occurrence.
Figure 7 is a flowchart showing the LDA-based statistical topic modeling process.
Figure 8 is an explanatory diagram to explain the LDA-based statistical topic modeling process.
본 발명에서는 화상회의의 키워드를 추출하기 위하여 하나의 문서 내에서 함께 쓰이는 빈도에 따라 관련 단어를 추출하여 회의 대화에 포함된 주제들을 추출한다. 이 방법은 공기 정보(Co-occurence)를 활용하여 수행될 수 있다. 다음으로 각 주제에 대한 키워드들의 영향도를 계산하여 대표 키워드를 추출한다. 여기에는 LDA(Latent Dirichlet Allocation) 기반의 통계적 토픽 모델링(Topic Modeling) 기법이 적용될 수 있다. In the present invention, in order to extract video conference keywords, related words are extracted according to the frequency with which they are used together in one document, and topics included in the conference conversation are extracted. This method can be performed utilizing co-occurence. Next, the influence of keywords on each topic is calculated and representative keywords are extracted. Here, a statistical topic modeling technique based on LDA (Latent Dirichlet Allocation) can be applied.
이하, 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the drawings.
도 1은 본 발명이 적용될 수 있는 비대면 회의의 회의록 요약 환경을 설명하기 위한 네트워크 다이아그램이다.Figure 1 is a network diagram illustrating a meeting minutes summary environment of a non-face-to-face meeting to which the present invention can be applied.
회의참여자 중의 한 명이 비대면 회의 서버(20)에 접속하여 회의를 개설한다. 본 발명에서는 회의 개설시에 회의의 유형을 설정할 수 있다. 회의 개설자가 개설된 회의에 접속할 수 있는 링크를 회의참여자들에게 전송하면, 회의참여자들은 개인용 컴퓨터, 태블릿 PC, 스마트폰 등의 단말장치(30a, .., 30n)를 사용하여 해당 링크를 통해 비대면 회의 서버(20)에 접속한다. One of the meeting participants connects to the non-face-to-face meeting server 20 and opens a meeting. In the present invention, the type of meeting can be set when establishing a meeting. When the meeting initiator sends a link to access the established meeting to the meeting participants, the meeting participants use the terminal devices 30a, .., 30n such as personal computers, tablet PCs, and smartphones to connect to the meeting through the link. Connect to the face-to-face conference server 20.
회의가 시작되면 회의록 작성장치(10)는 회의를 동영상 녹화 또는 오디오 녹음 등의 방법으로 기록하고, 회의 음성을 STT(Speech To Text) 기능을 이용하여 텍스트로 변환한다. 회의록 작성장치(10)는 변환된 텍스트를 분석하여 회의록 요약을 생성한다. When a meeting starts, the meeting minutes recording device 10 records the meeting through video recording or audio recording, and converts the meeting audio into text using the STT (Speech To Text) function. The meeting minutes writing device 10 analyzes the converted text and generates a summary of the meeting minutes.
회의 요약을 자동적으로 생성하는 과정은 도 2에 도시한 것처럼 대화분석단계(S10), 연관정보 구조화 단계(S20), 요약생성단계(S30)의 3단계를 거칠 수 있다. 대화분석단계(S10)에서는 회의 텍스트 내의 사용자 발화를 자연어 처리하여 사용자 의도를 기계가 이해할 수 있는 의미 구조로 변환하고, 연관정보 구조화 단계(S20)에서 사용자 발화의 의미구조를 기반으로 연관어를 추출하고 최적의 키워드를 추출한 후에, 요약생성단계(S30)에서 이를 토대로 회의록 요약문을 자동 생성한다. As shown in FIG. 2, the process of automatically generating a meeting summary may go through three stages: a conversation analysis stage (S10), a related information structuring stage (S20), and a summary generation stage (S30). In the conversation analysis step (S10), the user's utterances in the meeting text are processed into natural language to convert the user's intention into a semantic structure that can be understood by the machine, and in the related information structuring step (S20), related words are extracted based on the semantic structure of the user's utterances. After extracting the optimal keywords, a summary of the meeting minutes is automatically generated based on them in the summary generation step (S30).
본 발명은 연관정보 구조화 단계(S20)에서 회의 대화로부터 연관어와 최적의 키워드들을 추출하는 방법에 관한 것으로서, 도 3에 도시한 것처럼 공기정보(Co-occurrence)를 활용한 토픽 추출 단계(S100)와 LDA(Latent Dirichlet Allocation) 기반의 통계적 토픽 모델링(Topic Modeling) 단계(S200)를 포함한다. 이하의 설명에서는 "토픽"과 "주제"를 혼용하여 사용한다.The present invention relates to a method of extracting related words and optimal keywords from a conference conversation in the related information structuring step (S20), including a topic extraction step (S100) using co-occurrence as shown in FIG. It includes a statistical topic modeling step (S200) based on LDA (Latent Dirichlet Allocation). In the following description, “topic” and “subject” are used interchangeably.
한편, 단계 S100과 단계 S200을 수행하기 전에, 발화된 문장에 대해서 화행 및 의도 분석을 수행하여 키워드 분석에 필요한 단어를 추출하는 과정을 수행할 수 있다. 화행 및 의도 분석은, 문장 내의 형태소, 개체명식별 정보를 사용하여 의도 및 화행 지식베이스을 기반으로 학습된 화행분석을 통해 질문, 진술, 요청 등 말의 행위 정보를 분석한다. 이는 회의구성요소를 결정짓는 회의 요약의 중요한 단서 정보가 된다. 의도분석은 대상 정보를 나타내는 개체명과 행위를 나타내는 화행분석 결과를 기반으로 대상과 행위가 결합된 발화 의도를 명확하게 식별하게 된다. 화행 및 의도 분석 방법으로는, 예를 들면 등록특허 10-2285232, 공개특허 10-2019-0061706 등에 기재된 방법이 사용될 수 있으며, 본 발명은 특정 화행 및 의도 분석 방법에 한정되지 않는다. Meanwhile, before performing steps S100 and S200, a process of extracting words required for keyword analysis can be performed by performing speech act and intention analysis on the uttered sentence. Speech act and intention analysis analyzes speech act information such as questions, statements, and requests through speech act analysis learned based on the intention and speech act knowledge base using morphemes and entity name identification information in sentences. This serves as an important clue to the meeting summary that determines the meeting components. Intention analysis clearly identifies the utterance intention combining the object and action based on the entity name representing the target information and the result of the speech act analysis representing the action. As a method for analyzing speech acts and intentions, for example, methods described in Patent Registration No. 10-2285232, Publication Patent No. 10-2019-0061706, etc. can be used, and the present invention is not limited to a method for analyzing specific speech acts and intentions.
도 5는 회의 중에 발화된 각 문장에 대해서 의도 및 화행 분석을 수행하여 키워드 분석에 필요한 단어들을 추출한 예를 보여준다. 도 5는 문장(sentence)별로 단어를 추출한 예를 보여주고 있지만, 한사람이 한번에 발화한 복수의 문장, 즉, 문단(paragraph)별로 단어를 추출하도록 구성할 수도 있다. 이하에서는, 이와 같이 추출 대상이 된 문장 또는 문단을 문서로 총칭하여 설명한다.Figure 5 shows an example of extracting words necessary for keyword analysis by performing intention and speech act analysis on each sentence uttered during a meeting. Figure 5 shows an example of extracting words by sentence, but it can also be configured to extract words by multiple sentences uttered by one person at once, that is, by paragraph. Hereinafter, the sentences or paragraphs that have been extracted in this way will be collectively referred to as documents.
공기 정보(Co-occurrence)를 활용한 토픽 추출 단계(S100)에서는 회의 텍스트에 포함된 단어를 분석하여 대화의 주제들을 추출한다. 공기 정보(Co-occurrence)를 활용한 토픽 추출 단계(S100)는 도 4에 도시된 것처럼 함께 출현한 단어 빈도를 계산하는 단계(S110), 계산 결과에 따라 연관어를 등록하는 단계(S120), 연관어 정보로부터 토픽을 추출하는 단계(S130)를 포함한다. In the topic extraction step (S100) using co-occurrence, the topics of conversation are extracted by analyzing words included in the meeting text. The topic extraction step (S100) using co-occurrence includes calculating the frequency of words that appear together as shown in FIG. 4 (S110), registering related words according to the calculation results (S120), It includes a step of extracting a topic from related word information (S130).
함께 출현한 단어 빈도를 계산하는 단계(S110)에서는 단어들이 같은 문서 내에서 함께 쓰이는 빈도(이하, "공기 빈도"라 함)를 조사한다. 예를 들어, 회의 텍스트에 100개의 문서가 있고, "마케팅"이라는 단어와 "홍보"라는 단어가 15개의 문서에서 같이 출현했다면 두 단어 사이의 공기 빈도는 15%가 된다.In the step of calculating the frequency of words appearing together (S110), the frequency with which words are used together in the same document (hereinafter referred to as "air frequency") is investigated. For example, if there are 100 documents in the meeting text, and the words "marketing" and "public relations" appear together in 15 documents, the air frequency between the two words is 15%.
이와 같이 모든 문서에 대해서 단어들 사이의 공기 빈도를 조사한 후에는, 조사된 결과로부터 공기 빈도가 소정의 임계값 이상인 단어쌍(word pair)을 연관어로 등록한다(S120). 도 6을 참조하면, 단어A는 문서 1 내지 문서 3에서 모두 단어C 및 단어D와 함께 쓰이고 있으므로, 단어A, 단어C, 단어D를 연관어라고 판단한다. 예를 들어 "블랙프라이데이"라는 단어가 "가전제품"이라는 단어와 함께 쓰이는 경우가 많았다면 "블랙프라이데이"와 "가전제품"을 연관어로 등록한다. 보다 구체적으로는, 임계값이 5%이고 "블랙프라이데이"와 "가전제품"의 공기 빈도가 15%라면, "블랙프라이데이"와 "가전제품"의 단어쌍을 연관어로 등록하는 것이다.After examining the air frequency between words for all documents in this way, word pairs whose air frequency is more than a predetermined threshold are registered as associated words from the search results (S120). Referring to FIG. 6, since word A is used together with word C and word D in all documents 1 to 3, word A, word C, and word D are determined to be related words. For example, if the word “Black Friday” is often used together with the word “home appliances,” register “Black Friday” and “home appliances” as related words. More specifically, if the threshold is 5% and the air frequency of “Black Friday” and “home appliances” is 15%, the word pair “Black Friday” and “home appliances” is registered as an associated word.
본 발명에서는, 문서에 함께 등장하는 빈도가 소정 횟수 이상인 단어들을 묶어서 이들이 하나의 주제(토픽)를 이룬다고 가정한다. 단계 S130에서 연관어 정보로부터 회의 대화 내의 토픽들을 추출해낸다. In the present invention, it is assumed that words that appear together in a document more frequently than a predetermined number of times are grouped together to form one subject (topic). In step S130, topics in the conference conversation are extracted from the related word information.
일 실시예에서, 문장별로 대표 단어를 선정하고 전체 대화에서 대표 단어로 선정된 횟수가 소정 횟수 이상이 대표 단어들을 토픽으로 선정할 수 있다. 즉, 각 문장 단위로 주제가 있다고 가정하고, 가장 많이 출현한 주제들을 회의의 토픽으로 정할 수 있다. 다른 실시예에서, 공기 빈도가 소정 조건(예를 들면, 임계값을 넘눈지 여부)을 만족하는 단어쌍을 토픽으로 선정할 수도 있다. 다른 실시예에서, 공기 빈도가 가장 높은 소정 갯수의 단어쌍 중에서 출현빈도가 소정 조건을 만족하는 단어들을 토픽으로 선정할 수도 있다. In one embodiment, representative words may be selected for each sentence, and representative words that have been selected as representative words in the entire conversation a predetermined number of times or more may be selected as topics. In other words, assuming that each sentence has a topic, the most frequently occurring topics can be selected as the meeting topics. In another embodiment, a word pair whose air frequency satisfies a predetermined condition (for example, whether it exceeds a threshold) may be selected as a topic. In another embodiment, words whose frequency of occurrence satisfies a predetermined condition among a predetermined number of word pairs with the highest air frequency may be selected as topics.
LDA 기반의 통계적 토픽 모델링 단계(S200)에서는 추출된 토픽 수에 맞추어 LDA 기반의 통계적 토픽 모델링을 수행한다. LDA 기반의 통계적 토픽 모델링 단계(S200)는 추출된 주제와 단어 사이의 연관관계를 분석하여 대표 키워드를 선정한다. 이 과정에 대해서 도 7 및 도 8을 참조하여 설명한다.In the LDA-based statistical topic modeling step (S200), LDA-based statistical topic modeling is performed according to the number of extracted topics. The LDA-based statistical topic modeling step (S200) selects representative keywords by analyzing the correlation between extracted topics and words. This process will be described with reference to FIGS. 7 and 8.
먼저, 문서 내에 나타난 키워드간의 연관도를 계산하여 소정 조건을 만족하는 키워드끼리 군집화한다(단계 S210). 일 실시예에서, 키워드 간의 연관도는 전체 문서에서 A와 B가 동시에 등장한 문서의 수로 정의할 수 있다. 일 실시예에서, 소정 조건을 만족하는 키워드끼리 군집화하는 것은, 연관도가 소정 기준 이상인 키워드끼리 군집화하는 것일 수 있다. 도 8의 예에서는 3개의 주제에 대해서 키워드들이 군집화된 경우를 보여주고 있다. First, the degree of correlation between keywords appearing in the document is calculated and keywords that satisfy predetermined conditions are clustered (step S210). In one embodiment, the degree of association between keywords can be defined as the number of documents in which A and B appear simultaneously in all documents. In one embodiment, clustering keywords that satisfy a predetermined condition may mean clustering keywords whose relevance is greater than or equal to a predetermined standard. The example in Figure 8 shows a case where keywords are clustered around three topics.
다음으로, 각 주제에 속한 키워드들에 대해서 각 키워드의 해당 주제에 대한 영향도를 계산하고, 가장 영향도가 높은 키워드를 해당 주제의 "대표 주제 키워드"로 선정한다(단계 S220). 키워드의 주제에 대한 영향도는, 문장 내에 해당 키워드가 있을 때 해당 주제가 되는 확률로 정의될 수 있다. 즉, 각 주제에 대해서 어떤 단어가 있을 때 어떤 주제가 되는 지를 확률적으로 계산하여 각 키워드의 영향도를 계산한다.Next, the influence of each keyword on the topic is calculated for the keywords belonging to each topic, and the keyword with the highest influence is selected as the "representative topic keyword" of the topic (step S220). The influence of a keyword on a topic can be defined as the probability of becoming a topic when the keyword is present in a sentence. In other words, for each topic, the influence of each keyword is calculated by probabilistically calculating what topic it will be when a certain word is present.
예를 들어, "사과", "먹기", "깎기"라는 단어가 있는 경우에, "사과먹기", "사과깎기"라는 2개의 토픽이 있다는 전제 하에 전체 문서(2개의 문장) 내에 사과 2번, 깎기 1번, 먹기 1번이 등장했다고 가정하면, "사과깎기"라는 토픽 1개에 대해 "사과"와 "깎기"의 기여도는 50:50으로 측정된다. 여기에 "사과 맛있게 깎기"라는 문장이 추가로 등장하여 "사과깎기"라는 주제에 포함되게 되면, "맛있게"의 "사과깎기"에 대한 영향도는 20%, "사과"와 "깎기"는 각각 40%가 된다. 이런 식으로 모든 문서에 대해 각 키워드의 영향도를 계산한다. 이러한 과정을 거쳐서 최종적으로 각 주제에 대해서 가장 영향도가 높은 키워드를 선정할 수 있다. 즉, 어떤 주제라면 어떤 단어가 가장 높은 확률로 있을 지가 계산된다. 각 주제별로 영향도가 가장 높은 키워드를 해당 주제의 대표 주제 키워드로 선정한다. For example, if there are words "apple", "eating", and "cutting", apple number 2 in the entire document (2 sentences), assuming there are 2 topics "eating apple" and "cutting apple". , Assuming that 1 peeling and 1 eating appear, the contribution of “apple” and “peeling” to the topic “peeling apples” is measured as 50:50. If the sentence “peeling an apple deliciously” appears additionally and is included in the topic “peeling an apple,” the influence of “deliciously” on “peeling an apple” is 20%, and “apple” and “peeling” each have an influence of 20%. It becomes 40%. In this way, the influence of each keyword is calculated for all documents. Through this process, the most influential keywords for each topic can be ultimately selected. In other words, for any topic, which word has the highest probability is calculated. The keyword with the highest impact for each topic is selected as the representative topic keyword for that topic.
도 8에서 하나의 주제에 키워드들이 군집화되어 있다(81). 도 8에서 주제 1에 대해서는 영향도 0.05로 해당 주제 내에서 영향도가 가장 높은 키워드 A가, 주제 2에 대해서는 영향도 0.03인 키워드 B가, 주제 3에 대해서는 영향도 0.04인 키워드 C가 대표 주제 키워드(82)로 선정되었다.In Figure 8, keywords are clustered in one topic (81). In Figure 8, for topic 1, keyword A with the highest influence within the topic with an influence of 0.05 is the representative topic keyword, for topic 2, keyword B with an influence of 0.03 is the representative topic keyword, and for topic 3, keyword C with an influence of 0.04 is the representative topic keyword. (82) was selected.
다음으로, 선정된 "대표 주제 키워드" 중에서 회의의 전체 문서를 대표하는 키워드인 "대표 키워드"를 선정한다(단계 S230). 일 실시예에서, 대표 주제 키워드들 중에서 영향도가 가장 높은 키워드를 대표 키워드로 선정한다. 도 8의 예에서는 키워드 A의 영향도가 가장 높으므로 회의를 대표하는 대표 키워드로 선정되었다.Next, a “representative keyword” that represents all documents of the meeting is selected from the selected “representative topic keywords” (step S230). In one embodiment, the keyword with the highest influence among representative topic keywords is selected as the representative keyword. In the example of Figure 8, keyword A had the highest influence and was therefore selected as a representative keyword representing the meeting.
이러한 과정을 거쳐서 선정된 "대표 주제 키워드"와 "대표 키워드"는 문서의 메타 정보로 등록하여 검색 및 서비스에 활용될 수 있다. 또한, 요약 정보를 생성하는데에 "대표 주제 키워드"와 "대표 키워드"를 활용할 수도 있다. 예를 들면 대표 키워드에 대응되는 요약 템플릿을 이용하여 회의의 요약 정보를 생성할 수 있다.The “representative topic keywords” and “representative keywords” selected through this process can be registered as meta information of the document and used for searches and services. Additionally, “representative topic keywords” and “representative keywords” can be used to generate summary information. For example, summary information of a meeting can be created using a summary template corresponding to representative keywords.
이상, 본 발명을 몇가지 예를 들어 설명하였으나, 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술 분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터 또는 프로세서가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터 또는 프로세서에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. Above, the present invention has been described with several examples. However, even though all the components constituting the embodiments of the present invention are described as being combined or operated in combination, the present invention is not necessarily limited to these embodiments. Within the scope of the purpose of the present invention, all of the components may be operated by selectively combining one or more of them. In addition, although all of the components may be implemented as a single independent hardware, a program module in which some or all of the components are selectively combined to perform some or all of the functions of one or more pieces of hardware. It may also be implemented as a computer program having. The codes and code segments that make up the computer program can be easily deduced by a person skilled in the art of the present invention. Such a computer program can be stored in a computer-readable storage medium (computer readable media) and read and executed by a computer or processor, thereby implementing embodiments of the present invention.
이상에서 기재된 "포함하다", "구성하다" 또는 "가지다" 등의 용어는, 특별히 반대되는 기재가 없는 한, 해당 구성 요소가 내재할 수 있음을 의미하는 것이므로, 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것으로 해석되어야 한다. Terms such as “include,” “comprise,” or “have,” as used above, unless specifically stated to the contrary, mean that the corresponding component may be present, and do not exclude other components. It should be interpreted that it may further include other components.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.The above description is merely an illustrative explanation of the technical idea of the present invention, and various modifications and variations will be possible to those skilled in the art without departing from the essential characteristics of the present invention. Accordingly, the embodiments disclosed in the present invention are not intended to limit the technical idea of the present invention, but are for illustrative purposes, and the scope of the technical idea of the present invention is not limited by these embodiments. The scope of protection of the present invention should be interpreted in accordance with the claims below, and all technical ideas within the equivalent scope should be construed as being included in the scope of rights of the present invention.
10
회의록 작성장치,
20
비대면 회의 서버,
30a, .., 30n
단말장치.10 Meeting minutes recording device,
20 non-face-to-face conference servers,
30a, .., 30n terminal device.
Claims (11)
회의 텍스트 중의 문서 내에서 함께 쓰이는 빈도에 따라 관련 단어를 추출하여 회의 대화에 포함된 주제들을 추출하는, 공기 정보(Co-occurrence)를 활용한 토픽 추출 단계; 및
추출된 각 주제와 단어 사이의 연관관계를 분석하여 대표 키워드를 선정하는 LDA(Latent Dirichlet Allocation) 기반의 통계적 토픽 모델링(Topic Modeling) 단계
를 포함하는 비대면 회의 요약을 위한 대표 키워드 추출 방법.
As a representative keyword extraction method for summarizing meeting minutes on a meeting minutes writing server,
A topic extraction step using co-occurrence, in which topics included in the conference conversation are extracted by extracting related words according to the frequency with which they are used together in the document of the conference text; and
Statistical topic modeling step based on LDA (Latent Dirichlet Allocation) to select representative keywords by analyzing the correlation between each extracted topic and word.
Representative keyword extraction method for non-face-to-face meeting summary including.
단어들이 같은 문서 내에서 함께 쓰이는 빈도(이하, "공기 빈도"라 함)를 조사하는 단계와,
공기 빈도가 소정의 임계값 이상인 단어쌍(word pair)을 연관어로 등록하는 단계와,
연관어 정보로부터 회의 대화 내의 토픽들을 추출하는 토픽 추출 단계
를 포함하는, 비대면 회의 요약을 위한 대표 키워드 추출 방법.
The method of claim 1, wherein the topic extraction step using the air information includes:
A step of examining the frequency with which words are used together in the same document (hereinafter referred to as “air frequency”);
registering a word pair whose air frequency is greater than or equal to a predetermined threshold as an associated word;
Topic extraction step of extracting topics in conference conversations from related word information
Representative keyword extraction method for non-face-to-face meeting summary, including.
상기 토픽 추출 단계는, 문서별로 대표 단어를 선정하고 전체 대화에서 대표 단어로 선정된 횟수가 소정 횟수 이상인 대표 단어들을 토픽으로 선정하는 것인,
비대면 회의 요약을 위한 대표 키워드 추출 방법.
According to paragraph 2,
In the topic extraction step, representative words are selected for each document and representative words that have been selected as representative words a predetermined number of times in all conversations are selected as topics.
Representative keyword extraction method for non-face-to-face meeting summary.
상기 토픽 추출 단계는, 공기 빈도가 소정 조건을 만족하는 단어쌍을 토픽으로 선정하는 것인,
비대면 회의 요약을 위한 대표 키워드 추출 방법.
According to paragraph 2,
The topic extraction step is to select a word pair whose air frequency satisfies a predetermined condition as a topic,
Representative keyword extraction method for non-face-to-face meeting summary.
키워드간의 연관도를 계산하여 소정 조건을 만족하는 키워드들을 군집화하는 단계와,
각 주제에 대한 각 키워드의 영향도를 계산하고, 각 주제 내에서 가장 영향도가 높은 키워드를 해당 주제의 대표 주제 키워드로 선정하는 단계와,
선정된 대표 주제 키워드 중에서 전체 문서를 대표하는 키워드인 대표 키워드를 선정하는 대표 키워드 선정단계
를 포함하는, 비대면 회의 요약을 위한 대표 키워드 추출 방법.
The method of claim 2, wherein the LDA-based statistical topic modeling step is,
A step of calculating the degree of correlation between keywords and clustering keywords that satisfy predetermined conditions;
Calculating the influence of each keyword on each topic and selecting the keyword with the highest influence within each topic as the representative topic keyword for the topic;
Representative keyword selection step of selecting representative keywords that represent the entire document from among the selected representative topic keywords.
Representative keyword extraction method for non-face-to-face meeting summary, including.
상기 키워드 간의 연관도는 전체 문서에서 두 키워드가 동시에 등장한 문서의 수로 정의되는, 비대면 회의 요약을 위한 대표 키워드 추출 방법.
According to clause 5,
A representative keyword extraction method for summarizing non-face-to-face meetings in which the degree of correlation between the keywords is defined as the number of documents in which two keywords appear simultaneously in all documents.
소정 조건을 만족하는 키워드들을 군집화하는 것은, 연관도가 소정 기준 이상인 키워드끼리 군집화하는 것인, 비대면 회의 요약을 위한 대표 키워드 추출 방법.
According to clause 6,
Clustering keywords that satisfy a predetermined condition is a method of extracting representative keywords for summarizing non-face-to-face meetings, which involves clustering keywords with a degree of relevance higher than a predetermined standard.
문장 내에 해당 키워드가 있을 때 해당 주제가 되는 확률로 정의되는, 비대면 회의 요약을 위한 대표 키워드 추출 방법.
The method of claim 5, wherein the degree of influence on the topic of the keyword is:
A representative keyword extraction method for summarizing non-face-to-face meetings, defined as the probability of becoming a topic when the keyword is present in a sentence.
대표 주제 키워드들 중에서 영향도가 가장 높은 키워드를 대표 키워드로 선정하는 것인, 비대면 회의 요약을 위한 대표 키워드 추출 방법.
The method of claim 5, wherein the representative keyword selection step is,
A representative keyword extraction method for summarizing non-face-to-face meetings, which involves selecting the keyword with the highest impact among representative topic keywords as the representative keyword.
상기 공기 정보를 활용한 토픽 추출 단계 전에, 발화된 문장에 대해서 화행 및 의도 분석을 수행하여 키워드 분석에 필요한 단어를 추출하는 단계을 더 구비하는 비대면 회의 요약을 위한 대표 키워드 추출 방법.
According to any one of claims 1 to 9,
A representative keyword extraction method for summarizing a non-face-to-face meeting, further comprising the step of extracting words required for keyword analysis by performing speech act and intent analysis on the uttered sentence before the topic extraction step using the public information.
상기 문서는 회의 대화 중의 하나의 문장인, 비대면 회의 요약을 위한 대표 키워드 추출 방법.
According to any one of claims 1 to 9,
The above document is a representative keyword extraction method for summarizing non-face-to-face meetings, which is one sentence from a meeting conversation.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220053843A KR20230153868A (en) | 2022-04-29 | 2022-04-29 | Representative keyword extraction method for online conference summary |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220053843A KR20230153868A (en) | 2022-04-29 | 2022-04-29 | Representative keyword extraction method for online conference summary |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20230153868A true KR20230153868A (en) | 2023-11-07 |
Family
ID=88747295
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220053843A KR20230153868A (en) | 2022-04-29 | 2022-04-29 | Representative keyword extraction method for online conference summary |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20230153868A (en) |
-
2022
- 2022-04-29 KR KR1020220053843A patent/KR20230153868A/en not_active Application Discontinuation
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102703668B1 (en) | System, Apparatus and Method For Processing Natural Language, and Computer Readable Recording Medium | |
KR102041621B1 (en) | System for providing artificial intelligence based dialogue type corpus analyze service, and building method therefor | |
JP4024678B2 (en) | Program classification method and apparatus based on transcript information syntax | |
US20030187632A1 (en) | Multimedia conferencing system | |
US9483582B2 (en) | Identification and verification of factual assertions in natural language | |
US10169466B2 (en) | Persona-based conversation | |
JP2017534941A (en) | Orphan utterance detection system and method | |
US20230163988A1 (en) | Computer-implemented system and method for providing an artificial intelligence powered digital meeting assistant | |
JP2012113542A (en) | Device and method for emotion estimation, program and recording medium for the same | |
US10102289B2 (en) | Ingesting forum content | |
CN109992651B (en) | Automatic identification and extraction method for problem target features | |
JP2017167726A (en) | Conversation analyzer, method and computer program | |
US20160171900A1 (en) | Determining the Correct Answer in a Forum Thread | |
Heaton et al. | Language models as emotional classifiers for textual conversation | |
JP2011123565A (en) | Faq candidate extracting system and faq candidate extracting program | |
US12101439B2 (en) | System and method for identifying themes in interactive communications | |
KR20230153868A (en) | Representative keyword extraction method for online conference summary | |
CN113111658B (en) | Method, device, equipment and storage medium for checking information | |
CN117336572A (en) | Video abstract generation method, device, computer equipment and storage medium | |
Pontes et al. | Lia-rag: a system based on graphs and divergence of probabilities applied to speech-to-text summarization | |
US20230394854A1 (en) | Video-based chapter generation for a communication session | |
Ahed et al. | An enhanced twitter corpus for the classification of Arabic speech acts | |
US10546060B2 (en) | Pronoun mapping for sub-context rendering | |
KR20230102475A (en) | Method for summarizing minutes for an online meeting | |
US12034556B2 (en) | Engagement analysis for remote communication sessions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal |