JP7309811B2 - データ注釈方法、装置、電子機器および記憶媒体 - Google Patents
データ注釈方法、装置、電子機器および記憶媒体 Download PDFInfo
- Publication number
- JP7309811B2 JP7309811B2 JP2021181414A JP2021181414A JP7309811B2 JP 7309811 B2 JP7309811 B2 JP 7309811B2 JP 2021181414 A JP2021181414 A JP 2021181414A JP 2021181414 A JP2021181414 A JP 2021181414A JP 7309811 B2 JP7309811 B2 JP 7309811B2
- Authority
- JP
- Japan
- Prior art keywords
- annotation
- data
- column
- attribute
- elements
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24573—Query processing with adaptation to user needs using data annotations, e.g. user-defined metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/169—Annotation, e.g. comment data or footnotes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2237—Vectors, bitmaps or matrices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Library & Information Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Quality & Reliability (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
- Image Analysis (AREA)
- Facsimiles In General (AREA)
Description
データ注釈要素および注釈操作行列が含まれるデータ注釈因子を確定することと、
前記データ注釈要素に応じて注釈待ちデータを取得することと、
前記注釈操作行列に応じて前記注釈待ちデータに対して注釈を行うことと、を含む。
データ注釈要素および注釈操作行列が含まれる注釈因子を確定することに用いられるデータ注釈因子確定モジュールと、
前記データ注釈要素に応じて注釈待ちデータを取得することに用いられる注釈待ちデータ取得モジュールと、
前記注釈操作行列に応じて前記注釈待ちデータに対して注釈を行うことに用いられる注釈待ちデータ注釈モジュールと、を備える。
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されるメモリと、を備える電子機器であって、
前記メモリには前記少なくとも1つのプロセッサに実行可能な命令が記憶されており、前記命令が前記少なくとも1つのプロセッサに実行されることで、第1の態様の実施例に提供されるデータ注釈方法を前記少なくとも1つのプロセッサに実行させることができる電子機器を提供する。
データ注釈要素および注釈操作行列が含まれるデータ注釈因子を確定することに用いられるデータ注釈因子確定モジュール310と、
前記データ注釈要素に応じて注釈待ちデータを取得することに用いられる注釈待ちデータ取得モジュール320と、
前記注釈操作行列に応じて前記注釈待ちデータに対して注釈を行うことに用いられる注釈待ちデータ注釈モジュール330と、を備える。
Claims (11)
- コンピュータによって実行されるデータ注釈方法であって、
データ注釈要素および注釈操作行列が含まれるデータ注釈因子を確定することと、
前記データ注釈要素に応じて注釈待ちデータを取得することと、
前記注釈操作行列に応じて前記注釈待ちデータに対して注釈を行うことと、を含み、
前記データ注釈要素に応じて注釈待ちデータを取得することは、
前記データ注釈要素の要素タイプに応じて目標要素タイプを確定することと、
前記目標要素タイプに応じて前記注釈待ちデータを取得することと、を含む、
データ注釈方法。 - データ注釈因子を確定することは、
前記データ注釈要素の要素タイプを確定することと、
前記注釈操作行列の行要素の行数量と列要素の列数量を確定することと、を含み、
前記要素タイプは、オーディオデータ要素、ビデオデータ要素、ピクチャデータ要素、テキストデータ要素およびウェブページデータ要素を含み、
前記注釈操作行列の行要素が前記注釈待ちデータを確定することに用いられ、
前記注釈操作行列の列要素が前記注釈待ちデータにマッチングする注釈属性を確定することに用いられる、
請求項1に記載のデータ注釈方法。 - 前記注釈操作行列に応じて前記注釈待ちデータに対して注釈を行うことは、
前記注釈待ちデータに応じて前記注釈操作行列における各行要素に対応する注釈待ちサブデータおよび各列要素に対応する注釈属性を確定することと、
前記注釈操作行列の行要素と各前記注釈待ちサブデータとのマッピング関係を構築することと、
行要素と列要素との間、行要素と行要素との間、又は列要素と列要素との間の属性制約関係を構築することと、
各前記列要素に対応する注釈属性および前記属性制約関係に応じて各前記注釈待ちサブデータに対して注釈を行うことと、を含み、
前記属性制約関係は、対応関係、包含関係、被包含関係、相互排他関係および連動関係を含む、
請求項1に記載のデータ注釈方法。 - データクレンジングシナリオに適用され、
前記注釈操作行列の行数量を第1の数量、前記注釈操作行列の列数量を第2の数量とする場合、
前記注釈操作行列における各列要素に対応する注釈属性を確定することは、
第1の列要素の注釈属性をデータフィルタリングに確定することと、
第2の列要素の注釈属性をフィルタリングタイプに確定することと、を含み、
行要素と列要素との間の属性制約関係を構築することは、
前記行要素と前記列要素との対応関係を構築することを含む、
請求項3に記載のデータ注釈方法。 - データ切り取りシナリオに適用され、
前記注釈操作行列の行数量を第3の数量、前記注釈操作行列の列数量を第2の数量とする場合、
前記注釈操作行列における各列要素に対応する注釈属性を確定することは、
第1の列要素の注釈属性をデータ番号に確定することと、
第2の列要素の注釈属性を、注釈待ちサブデータのうちのいくつかのセグメントであるデータの目標セグメントに確定することと、
第3の列要素の注釈属性をデータタイトルに確定することと、
第4の列要素の注釈属性をデータセグメント時間長に確定することと、を含み、
行要素と列要素との間の属性制約関係を構築することは、
前記行要素と前記列要素との対応関係を構築することを含む、
請求項3に記載のデータ注釈方法。 - データ抽出シナリオに適用され、
前記注釈操作行列の行数量を第3の数量、前記注釈操作行列の列数量を第2の数量とする場合、
前記注釈操作行列における各列要素に対応する注釈属性を確定することは、
第1の列要素の注釈属性をデータ番号に確定することと、
第2の列要素の注釈属性をデータ開始及び終了位置に確定することと、
第3の列要素の注釈属性を、注釈待ちサブデータから抽出されたデータコンテンツであるデータ抽出コンテンツに確定することと、
第4の列要素の注釈属性を、各前記データ抽出コンテンツに対応するタイプであるデータ抽出タイプに確定することと、
第5の列要素の注釈属性を、データ自体のカラー又は背景カラーであるデータ抽出カラーに確定することと、を含み、
行要素と列要素との間の属性制約関係を構築することは、
前記行要素と前記列要素との対応関係を構築することを含み、
列要素と列要素との間の属性制約関係を構築することは、
目標列要素間の連動関係を構築することを含む、
請求項3に記載のデータ注釈方法。 - データ識別シナリオに適用され、
前記注釈操作行列の行数量を第3の数量、前記注釈操作行列の列数量を第2の数量とする場合、
前記注釈操作行列における各列要素に対応する注釈属性を確定することは、
第1の列要素の注釈属性をデータ番号に確定することと、
第2の列要素の注釈属性をデータ開始及び終了時間に確定することと、
第3の列要素の注釈属性を、注釈待ちサブデータを識別し得られたコンテンツであるデータ識別コンテンツに確定することと、
第4の列要素の注釈属性をデータセグメント時間長に確定することと、
第5の列要素の注釈属性を、注釈待ちサブデータに含まれているキャラクタコンテンツであるデータキャラクタに確定することと、を含み、
行要素と列要素との間の属性制約関係を構築することは、
前記行要素と前記列要素との対応関係を構築することを含む、
請求項3に記載のデータ注釈方法。 - データ注釈要素および注釈操作行列が含まれるデータ注釈因子を確定することに用いられるデータ注釈因子確定モジュールと、
前記データ注釈要素に応じて注釈待ちデータを取得することに用いられる注釈待ちデータ取得モジュールと、
前記注釈操作行列に応じて前記注釈待ちデータに対して注釈を行うことに用いられる注釈待ちデータ注釈モジュールと、を備え、
前記データ注釈要素に応じて注釈待ちデータを取得することは、
前記データ注釈要素の要素タイプに応じて目標要素タイプを確定することと、
前記目標要素タイプに応じて前記注釈待ちデータを取得することと、を含む、
データ注釈装置。 - 少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサと通信接続されるメモリと、を備え、
前記メモリに、前記少なくとも1つのプロセッサに実行可能な命令が記憶され、
前記命令は、前記少なくとも1つのプロセッサが請求項1~7のいずれか1項に記載のデータ注釈方法を実行可能であるように、前記少なくとも1つのプロセッサに実行される、
電子機器。 - 請求項1~7のいずれか1項に記載のデータ注釈方法をコンピュータに実行させるためのコンピュータ命令が記憶されている、
非一時的なコンピュータ可読記憶媒体。 - プロセッサによって実行されると、請求項1~7のいずれか1項に記載のデータ注釈方法を実現する、コンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011449187.5 | 2020-12-09 | ||
CN202011449187.5A CN112528610B (zh) | 2020-12-09 | 2020-12-09 | 一种数据标注方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022091686A JP2022091686A (ja) | 2022-06-21 |
JP7309811B2 true JP7309811B2 (ja) | 2023-07-18 |
Family
ID=74998711
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021181414A Active JP7309811B2 (ja) | 2020-12-09 | 2021-11-05 | データ注釈方法、装置、電子機器および記憶媒体 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220019592A1 (ja) |
EP (1) | EP3961433A3 (ja) |
JP (1) | JP7309811B2 (ja) |
KR (1) | KR20210125448A (ja) |
CN (1) | CN112528610B (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113157170B (zh) * | 2021-03-25 | 2022-09-20 | 北京百度网讯科技有限公司 | 数据的标注方法和装置 |
CN113449142A (zh) * | 2021-06-30 | 2021-09-28 | 北京百度网讯科技有限公司 | 信息处理方法及装置、电子设备、存储介质及产品 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180211273A1 (en) | 2017-01-24 | 2018-07-26 | Ranjan Dutta | Database conditional field access |
JP2019046108A (ja) | 2017-08-31 | 2019-03-22 | 大日本印刷株式会社 | 管理装置、制御方法及びプログラム |
JP2020101968A (ja) | 2018-12-21 | 2020-07-02 | 株式会社 日立産業制御ソリューションズ | マルチラベルデータ学習支援装置、マルチラベルデータ学習支援方法およびマルチラベルデータ学習支援プログラム |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020019837A1 (en) * | 2000-08-11 | 2002-02-14 | Balnaves James A. | Method for annotating statistics onto hypertext documents |
JP3557162B2 (ja) * | 2000-09-07 | 2004-08-25 | 株式会社東芝 | データ抽出方法、データ抽出装置および記録媒体 |
US20040260717A1 (en) * | 2003-06-20 | 2004-12-23 | International Business Machines Corporation | Universal annotation server and interface |
JP2006048286A (ja) * | 2004-08-03 | 2006-02-16 | Sony Corp | 情報処理装置および方法、並びにプログラム |
US20150033109A1 (en) * | 2013-07-26 | 2015-01-29 | Alex Marek | Presenting mutlimedia objects with annotations |
JP6582530B2 (ja) * | 2015-05-11 | 2019-10-02 | 富士通株式会社 | 支援プログラム、支援方法および支援装置 |
US11151100B2 (en) * | 2016-10-17 | 2021-10-19 | Sap Se | Performing data quality functions using annotations |
US11036725B2 (en) * | 2017-08-14 | 2021-06-15 | Science Applications International Corporation | System and method for computerized data processing, analysis and display |
US10521734B2 (en) * | 2018-04-20 | 2019-12-31 | Sas Institute Inc. | Machine learning predictive labeling system |
US11556710B2 (en) * | 2018-05-11 | 2023-01-17 | International Business Machines Corporation | Processing entity groups to generate analytics |
CN110866936B (zh) * | 2018-08-07 | 2023-05-23 | 创新先进技术有限公司 | 视频标注方法、跟踪方法、装置、计算机设备及存储介质 |
CN109785942A (zh) * | 2019-01-24 | 2019-05-21 | 邃蓝智能科技(上海)有限公司 | 一种医疗影像数据的快速辅助标注及存储方法和系统 |
CN110598743A (zh) * | 2019-08-12 | 2019-12-20 | 北京三快在线科技有限公司 | 一种目标对象的标注方法和装置 |
CN110750965B (zh) * | 2019-09-16 | 2023-06-30 | 平安科技(深圳)有限公司 | 英文文本序列标注方法、系统及计算机设备 |
CN111598120A (zh) * | 2020-03-31 | 2020-08-28 | 宁波吉利汽车研究开发有限公司 | 数据标注方法、设备及装置 |
CN111488925B (zh) * | 2020-04-07 | 2023-10-20 | 北京百度网讯科技有限公司 | 一种数据标注方法、装置、电子设备及存储介质 |
CN111524503B (zh) * | 2020-04-15 | 2023-01-17 | 上海明略人工智能(集团)有限公司 | 音频数据的处理方法、装置、音频识别设备和存储介质 |
CN111695053A (zh) * | 2020-06-12 | 2020-09-22 | 上海智臻智能网络科技股份有限公司 | 序列标注方法、数据处理设备、可读存储介质 |
CN111754978B (zh) * | 2020-06-15 | 2023-04-18 | 北京百度网讯科技有限公司 | 韵律层级标注方法、装置、设备和存储介质 |
CN111860304B (zh) * | 2020-07-17 | 2024-04-30 | 北京百度网讯科技有限公司 | 一种图像标注方法、电子装置、设备及存储介质 |
US20220405295A1 (en) * | 2021-06-17 | 2022-12-22 | Sap Se | Metadata integration based on scope function definition |
-
2020
- 2020-12-09 CN CN202011449187.5A patent/CN112528610B/zh active Active
-
2021
- 2021-09-27 KR KR1020210127081A patent/KR20210125448A/ko not_active Application Discontinuation
- 2021-09-30 EP EP21200298.4A patent/EP3961433A3/en not_active Withdrawn
- 2021-10-01 US US17/449,752 patent/US20220019592A1/en not_active Abandoned
- 2021-11-05 JP JP2021181414A patent/JP7309811B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180211273A1 (en) | 2017-01-24 | 2018-07-26 | Ranjan Dutta | Database conditional field access |
JP2019046108A (ja) | 2017-08-31 | 2019-03-22 | 大日本印刷株式会社 | 管理装置、制御方法及びプログラム |
JP2020101968A (ja) | 2018-12-21 | 2020-07-02 | 株式会社 日立産業制御ソリューションズ | マルチラベルデータ学習支援装置、マルチラベルデータ学習支援方法およびマルチラベルデータ学習支援プログラム |
Non-Patent Citations (1)
Title |
---|
LIUBIMOV, N et al.,"Introducing Label Studio, a swiss army knife of data labeling",Towards Data Science [online],2020年01月28日,[retrieved on 2022.12.01], Retrieved from the Internet: <URL: https://towardsdatascience.com/introducing-label-studio-a-swiss-army-knife-of-data-labeling-140c1be92881> |
Also Published As
Publication number | Publication date |
---|---|
EP3961433A3 (en) | 2022-03-30 |
US20220019592A1 (en) | 2022-01-20 |
CN112528610A (zh) | 2021-03-19 |
KR20210125448A (ko) | 2021-10-18 |
EP3961433A2 (en) | 2022-03-02 |
CN112528610B (zh) | 2023-11-14 |
JP2022091686A (ja) | 2022-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108628830B (zh) | 一种语义识别的方法和装置 | |
WO2024098623A1 (zh) | 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统 | |
JP7309811B2 (ja) | データ注釈方法、装置、電子機器および記憶媒体 | |
CN118070072A (zh) | 基于人工智能的问题处理方法、装置、设备及存储介质 | |
JP2023002690A (ja) | セマンティックス認識方法、装置、電子機器及び記憶媒体 | |
JP2024502400A (ja) | グラフ・ニューラル・ネットワークを用いたポータブル・ドキュメント・フォーマットの表形式データの自動描写及び抽出 | |
CN112582073B (zh) | 医疗信息获取方法、装置、电子设备和介质 | |
CN110807097A (zh) | 分析数据的方法和装置 | |
CN114880498B (zh) | 事件信息展示方法及装置、设备和介质 | |
CN117992569A (zh) | 基于生成式大模型生成文档的方法、装置、设备及介质 | |
CN115186738B (zh) | 模型训练方法、装置和存储介质 | |
CN113360672B (zh) | 用于生成知识图谱的方法、装置、设备、介质和产品 | |
CN114627343A (zh) | 深度学习模型的训练方法、图像处理方法、装置及设备 | |
JP2022068146A (ja) | データ注釈方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
CN110795424B (zh) | 特征工程变量数据请求处理方法、装置及电子设备 | |
CN114118937A (zh) | 基于任务的信息推荐方法、装置、电子设备及存储介质 | |
CN114490969A (zh) | 基于表格的问答方法、装置以及电子设备 | |
CN113138760A (zh) | 一种页面生成方法、装置、电子设备和介质 | |
CN112560466A (zh) | 链接实体关联方法、装置、电子设备和存储介质 | |
CN112527290A (zh) | 基于生物特征信息搭建页面的方法和装置 | |
CN113360712B (zh) | 视频表示的生成方法、装置和电子设备 | |
CN117171429B (zh) | 热点内容处理方法、装置、电子设备及介质 | |
CN112560462B (zh) | 事件抽取服务的生成方法、装置、服务器以及介质 | |
CN115982358B (zh) | 文档拆分方法、装置、终端设备和计算机可读存储介质 | |
CN115471840B (zh) | 生成、模型的训练、识别方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211105 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221213 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230310 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230620 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230705 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7309811 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |