FR3085785A1

FR3085785A1 - Procedes et appareil pour generer une empreinte numerique d'un signal audio par voie de normalisation

Info

Publication number: FR3085785A1
Application number: FR1858041A
Authority: FR
Inventors: Robert Coover; Zafar Rafii
Original assignee: Gracenote Inc
Current assignee: Gracenote Inc
Priority date: 2018-09-07
Filing date: 2018-09-07
Publication date: 2020-03-13
Anticipated expiration: 2038-09-07
Also published as: AU2019335404B2; AU2022275486B2; CN113614828B; AU2019335404A1; AU2022275486A1; KR20240108548A; EP4372748A3; EP3847642A1; WO2020051451A1; EP4372748A2; JP7346552B2; CA3111800A1; KR20210082439A; EP3847642A4; CN113614828A; FR3085785B1; JP2021536596A; US20200082835A1; EP3847642B1

Abstract

Des procédés, des appareils, des systèmes et des articles de fabrication sont divulgués pour générer des empreintes numériques audio par voie de normalisation. Un procédé exemplaire pour la génération d'empreintes numériques de données audio inclut la réception d'un signal audio dans des composants de fréquence incluant un premier composant de fréquence de signal audio à l'intérieur d'un premier bac de fréquences et un deuxième composant de fréquence de signal audio à l'intérieur d'un deuxième bac de fréquences, la détermination d'une première caractéristique du premier composant de fréquence de signal audio et d'une deuxième caractéristique du deuxième composant de fréquence de signal audio et la normalisation du signal audio pour générer ainsi des valeurs d'énergie normalisées, la normalisation du signal audio incluant (1) la normalisation du premier composant de fréquence de signal audio en ayant recours à la première caractéristique et (2) la normalisation du deuxième composant de fréquence de signal audio en ayant recours à la deuxième caractéristique. L'exemple inclut par ailleurs la sélection d'une des valeurs d'énergie normalisées et la génération d'une empreinte numérique du signal audio en utilisant la valeur sélectionnée parmi les valeurs d'énergie sélectionnée.

Description

PROCÉDÉS ET APPAREIL POUR GÉNÉRER UNE EMPREINTE NUMÉRIQUE D’UN SIGNAL AUDIO PAR VOIE DE NORMALISATION

DOMAINE DE L’INVENTION [0001] Cette invention concerne de façon générale des signaux audio et, plus particulièrement, des procédés et un appareil pour générer une empreinte numérique d’un signal audio par voie de normalisation.

CONTEXTE [0002] L’information audio (par ex. les sons, le langage, la musique, etc.) peut être représentée sous forme de données numériques (par ex., électroniques, optiques, etc.) L’audio qui est capturé (par ex., via un microphone) peut être numérisé, stocké électroniquement, traité et/ou catalogué. Une façon de cataloguer l’information audio est de générer des empreinte numériques audio. Les empreintes numériques audio sont des résumés numériques d’information audio qui sont créées en prenant un échantillon de signal audio. Historiquement les empreintes numériques audio ont été utilisées pour identifier l’audio et/ou vérifier l’authenticité de l’audio.

RESUME DE L’INVENTION [0003] Selon un premier aspect, un procédé pour générer des empreintes numérique audio est fourni, comprenant : la réception d’un signal audio ayant des composants de fréquence incluant un premier composant de fréquence de signal audio à l’intérieur d’une première classe de fréquences et un deuxième composant de fréquence de signal audio à l’intérieur d’une deuxième classe de fréquences ; la détermination d’une première caractéristique du premier composant de fréquence de signal audio et une deuxième caractéristique du deuxième composant de fréquence de signal audio ; la normalisation du signal audio pour générer ainsi des valeurs d’énergie normalisées, la normalisation du signal audio incluant (1) la normalisation du premier composant de fréquence de signal audio en ayant recours à la première caractéristique et (2) la normalisation du deuxième composant de fréquence de signal audio en ayant recours à la deuxième caractéristique ; la sélection d’une des valeurs d énergie normalisées ; et la génération d’une empreinte numérique du signal audio en utilisant la valeur sélectionnée parmi les valeurs d’énergie.

[0004] Dans un mode de réalisation, les composants de fréquence de signal audio sont à l’intérieur d’une pluralité de classes de fréquences successifs incluant la première classe de fréquences et la deuxième classe de fréquences. Dans un autre mode de réalisation, le premier composant de fréquence de signal audio est associé à un premier laps de temps et le deuxième composant de fréquence de signal audio est associé un deuxième laps de temps.

[0005] Dans un autre mode de réalisation, le premier laps de temps et le deuxième laps de temps sont inclus dans une pluralité de laps de temps, la pluralité de laps de temps correspondant à une durée complète du signal audio. Dans un autre mode de réalisation, chacun des composants de fréquence de signal audio correspond à (1) une combinaison unique d un laps de temps de la pluralité de laps de temps et (2) à une classe de fréquences de la pluralité des classes de fréquences.

[0006] Dans un autre mode de réalisation, la division du signal audio en une première classe de fréquences et une deuxième classe de fréquences inclut de mettre en œuvre une transformation rapide de Fourier (FFT). Dans un autre mode de réalisation, la sélection de l’extremum d’énergie est pondérée sur la base d’une catégorie du signal audio, la catégorie du signal audio incluant au moins l’une des catégories suivantes : la musique, le langage humain, les effets sonores ou la publicité.

[0007] Dans un autre mode de réalisation, la selection de ladite une des valeurs d énergie normalisées comprend la comparaison de ladite valeur sélectionnée parmi les valeurs d’énergie normalisées avec une ou plusieurs autres des valeurs d’énergie normalisées générées.

[0008] Dans un autre mode de réalisation, la sélection de ladite une des valeurs d’énergie normalisées comprend l’identification d’un extremum parmi les valeurs d’énergie normalisées. Dans un autre mode de réalisation, la détermination de la première énergie caractéristique comprend la détermination d’une énergie moyenne du premier composant de frequence de signal audio et la determination d’une deuxième énergie caractéristique comprenant la détermination d’une énergie moyenne du deuxième composant de fréquence de signal audio.

[0009] Selon un deuxième aspect, un appareil est fourni, comprenant : un séparateur de bandes de fréquences pour recevoir un signal audio ayant des composants de fréquence de signal qui inclut un premier composant de fréquence de signal audio à l’intérieur d’une premier classe de fréquences et un deuxième composant de fréquence de signal audio à l’intérieur d’une deuxième classe de fréquences ; un déterminateur de caractéristiques audio pour déterminer une première caractéristique du premier composant de fréquence de signal audio et une deuxième caractéristique du deuxième composant de fréquence de signal audio ,un normalisateur de signal pour normaliser le signal audio générant ainsi des valeurs d énergie normalisées, la normalisation du signal audio incluant (1) la normalisation du premier composant de fréquence de signal audio en ayant recours à la première caractéristique et (2) la normalisation du deuxième composant de fréquence de signal audio en ayant recours à la deuxième caractéristique ; un sélecteur de points pour sélectionner une des valeurs d’énergie normalisées ; et un générateur d’empreintes numériques pour générer une empreinte numérique de la valeur sélectionnée parmi les valeurs d’énergie sélectionnées.

[0010] Dans un mode de réalisation, les composants de fréquence de signal audio sont à 1 intérieur de la pluralité de classes de fréquences successifs incluant la première classe de fréquences et la deuxième classe de fréquences. Dans un autre mode de réalisation, le premier composant de fréquence de signal audio est associé à un premier laps de temps et le deuxième composant de fréquence de signal audio est associé à un deuxième laps de temps, une pluralité de laps de temps correspondant à une durée complète du signal audio, le premier laps de temps et le deuxième laps de temps sont inclus dans la pluralité des laps de temps [0011] Dans un autre mode de réalisation, chacun des composants de fréquence de signal audio correspond à une combinaison unique entre (1) un laps de temps de la pluralité des laps de temps et (2) une classe de fréquences de la pluralité des classes de fréquences.

[0012] Dans un troisième aspect, un support de stockage lisible par ordinateur est fourni, incluant des instructions lisibles par ordinateur qui lorsqu’elles sont exécutées, amènent une machine à mettre en œuvre le procédé décrit dans les présentes.

BRÈVE DESCRIPTION DES DESSINS [0013] La FIG. 1 est un exemple de système permettant d’implémenter les enseignements de cette invention.

[0014] La FIG. 2 est un exemple d’implémentation du processeur audio de la FIG. 1.

[0015] Les FIGS.3A-3B décrivent, à titre d’exemple, un spectrogramme non traité, généré par le séparateur exemplaire de bande de fréquence de la FIG. 2 [θθ16] La FIG. 3C décrit un exemple de spectrogramme normalisé généré par le normalisateur de signal de la FIG. 2.

[0017] La FIG. 4 est un exemple de spectrogramme non traité de la FIG. 3 divisé en composants fixes de fréquence de signal audio.

[0018] La FIG. 5 est un exemple d’un spectrogramme normalisé, généré par le normalisateur de signal de la FIG. 2 à partir des composants fixes de fréquence de signal audio de la FIG. 4.

[0019] La FIG. 6 est un exemple de spectrogramme normalisé et pondéré, généré par le sélecteur de points de la FIG. 2 à partir du spectrogramme normalisé de la FIG. 5.

[0020] Les FIGS. 7 et 8 sont des organigrammes représentatifs d’instructions lisibles par machine qui peuvent être exécutées pour implémenter le processeur audio de la FIG. 2.

[0021] La FIG. 8 est un diagramme bloc d’une plateforme de traitement exemplaire structurée pour exécuter les instructions de la FIG. 7 afin d’implémenter le processeur audio de la FIG. 2.

[0022] Les figures ne sont pas à l’échelle. De façon générale, des numéros de référence identiques seront utilisés dans tous le/les dessin(s) et la description écrite qui les accompagnent pour faire référence à des parties identiques ou similaires.

DESCRIPTION DÉTAILLÉE [0023] Historiquement, la technologie de prise d’empreintes numériques audio a fait usage des parties les plus fortes (par ex., les parties ayant le plus d’énergie) d’un signal audio pour créer des empreintes numériques dans un segment de temps. Cependant, dans certains cas, ce procédé est sévèrement limité. Dans certains exemples, les parties les plus fortes d’un signal audio peuvent être associées à du bruit (par ex. de l’audio non désiré) plutôt qu à 1 audio présentant un intérêt. Par exemple, si un utilisateur essaie de générer l’empreinte numérique d’une chanson dans un restaurant bruyant, les parties les plus fortes d’un signal audio capturé peuvent être des conversations entre les clients du restaurant et non de la musique. Dans cet exemple, plusieurs des échantillons de signal audio feraient partie de la conversation et non de la musique, d’où l’efficacité réduite des empreintes numériques générées. Une autre limitation potentielle de la technologie antérieure de prise d’empreinte numérique est, notamment dans la musique, que l’audio dans la bande de fréquence des graves a tendance à être très bruyant. Dans certains exemples, il en résulte que des portions d’échantillons du signal audio sont principalement dans la bande de fréquence des graves.

Par conséquent, les empreintes numériques générées en utilisant les procédés existants n’incluent pas habituellement d’échantillons provenant de toutes les parties du spectre audio qui peuvent être reconnues, particulièrement dans les bandes de haute fréquence (par ex. les bandes aigües, etc.).

[0024] Les procédés exemplaires et les appareils divulgués dans les présentes surmontent les problèmes ci-dessus en générant des empreintes numériques à partir d’un signal audio qui utilise une moyenne de normalisation. Un procédé exemplaire inclut la normalisation d’un ou de plusieurs bacs de fréquences-temps du signal audio en ayant recours à la caractéristique audio de la zone audio environnante. Tel qu’il est utilisé dans les présentes, « un bac de fréquences-temps » est une portion d’un signal audio correspondant à une classe de fréquences spécifique (par ex. une classe FFT) à un moment spécifique (par ex. trois secondes dans le signal audio) ; « bac » et « classe » sont utilisés dans les présentes comme synonymes. Dans certains exemples, la normalisation est pondérée par une catégorie audio du signal audio. Dans certains exemples, une empreinte numérique est générée en sélectionnant des points à partir de bacs de fréquences-temps normalisés.

[0025] Un autre procédé exemplaire inclut la division d’un signal audio en deux ou plus de deux composants de fréquence de signal audio. Tel qu’il est utilisé dans les présentes, « un composant de fréquence de signal audio » est une portion d’un signal audio correspondant à une bande de fréquence et à un laps de temps. Dans certains exemples, un composant de fréquence de signal audio peut être composé d’une pluralité de bacs de fréquences-temps. Dans certains exemples, une caractéristique audio est déterminée pour une partie du composant de fréquence de signal audio. Dans cet exemple, chacun des composants de fréquence de signal audio est normalisé en ayant recours à la caractéristique audio associée (par ex., une moyenne d’audio, etc.). Dans certains exemples, une empreinte numérique est générée en sélectionnant des points dans les composants de fréquence de signal audio normalisé.

[0026] La FIG. 1 est un système exemplaire 100 sur lequel les enseignements de cette invention peuvent être implémentés. Le système exemplaire 100 inclut une source audio exemplaire 102, un microphone exemplaire 104 qui capture le son dans la source audio 102 et le convertit en signal audio exemplaire 106. Un processeur audio exemplaire 108 reçoit le signal audio 106 et génère une empreinte numérique exemplaire 110.

[0027] La source d’audio exemplaire 102 émet un son physique. La source audio exemplaire peut être un haut-parleur (par ex. un transducteur électroacoustique, etc.), un spectacle en direct, une conversation et/ou toute autre source audio appropriée. La source audio exemplaire 102 peut inclure de l’audio désiré (devant faire l’objet d’empreintes numériques) et peut aussi inclure de l’audio indésirable (du bruit).

[0028] Le microphone exemplaire 104 est un transducteur qui convertit le son émis par la source audio 102 en signal audio 106. Dans certains exemples, le microphone 104 peut être un composant d un ordinateur, d’un dispositif mobile (un smartphone, une tablette, etc.), un dispositif de navigation ou un dispositif portable (par ex. une montre connectée, etc.).

Dans certains exemples, le microphone peut inclure une conversion de l’audio vers le numérique pour numériser le signal audio 106. Dans d’autres exemples, le processeur audio 108 peut numériser le signal audio 106.

[0029] Le signal audio exemplaire 106 est une représentation numérisée du son émis par la source audio 102. Dans certains exemples, le signal audio 106 peut être sauvegardé sur un ordinateur avant d’être traité par le processeur audio 108. Dans certains exemples, le signal audio 106 peut être transféré sur un réseau au processeur audio exemplaire 108.

[0030] Le processeur audio exemplaire 108 convertit le signal audio exemplaire 106 en une empreinte numérique exemplaire 110. Ainsi qu’expliqué ci-dessous, dans l’exemple divulgué dans les présentes, le processeur audio 108 divise le signal audio 106 en bacs de fréquences et/ou en laps de temps et, par la suite, détermine l’énergie moyenne de certains des composants de fréquence de signal audio créés. Dans certains exemples, le processeur audio 108 peut normaliser un composant de fréquence de signal audio en utilisant l’énergie moyenne associée de la zone audio environnante de chaque bac de fréquences-temps. Dans d’autres exemples, toute autre caractéristique audio pertinente peut être déterminée et utilisée pour normaliser chaque bac de fréquences-temps. Dans certains exemples, les empreintes numériques 110 peuvent être générées en sélectionnant les énergies les plus hautes parmi les composants de fréquence de signal audio normalisé. Autrement, tout autre moyen approprié peut être utilisé pour générer les empreintes numériques 110. Une implémentation exemplaire du processeur audio 108 est décrite ci-dessous conjointement avec la FIG. 2.

[0031] L’empreinte numérique exemplaire 110 est un résumé numérique condensé du signal audio 106 qui peut être utilisé pour identifier et/ou vérifier le signal audio 106. Par exemple, l’empreinte numérique 110 peut être générée en prenant des échantillons de portions du signal audio 106 et en traitant ces portions. Dans certains exemples, les empreintes numériques 110 peuvent inclure des échantillons des portions d’énergie les plus hautes du signal audio 106. Dans certains exemples, les empreintes numériques 110 peuvent être indexées dans une base de données qui peut être utilisée pour comparaison avec d’autres empreintes numériques.

[0032] La FIG. 2 est un exemple d’implémentation du processeur audio 108 de la FIG. 1. Le processeur audio exemplaire 108 inclut un séparateur exemplaire de bandes de fréquences 202, un déterminateur exemplaire de caractéristiques audio 204, un normalisateur de signal 206, un sélecteur exemplaire de points 208 et un générateur exemplaire d’empreintes numériques 210.

[0033] Le séparateur exemplaire de bande de fréquences 202 divise un signal audio (par ex. le signal audio numérisé 106 de la FIG. 1) en bacs de fréquences-temps et/ou en composants de fréquence de signal audio. Par exemple, le séparateur de bandes de fréquences 202 peut effectuer une transformation rapide de Fourier (FFT) sur le signal audio 106 pour transformer le signal audio 106 dans le domaine de fréquence. En outre, le séparateur exemplaire de bandes de fréquences 202 peut diviser le signal audio transformé 106 en deux ou plusieurs bacs de fréquences (par ex. en utilisant une fonction de Hamming, une fonction de Harm, etc.). Dans cet exemple, chaque composant de fréquence de signal audio est associé à un bac de fréquences des deux ou plusieurs bacs de fréquences. De plus ou autrement, le séparateur de bandes de fréquences 202 peut agréger le signal audio 106 en un ou plusieurs laps de temps (par ex., la durée de l’audio, des segments de six secondes, des segments d’une seconde, etc.). Dans d’autres exemples, le séparateur de bandes de fréquences 202 peut utiliser toute technique appropriée pour transformer le signal audio 106 (par ex., une transformation discrète de Fourier, une transformation de fenêtres temporelles de Fourier, une transformation par ondelette, une transformation discrète de Walsh Hadamard, une transformation discrète en cosinus, etc.). Dans certains exemples, le séparateur de bandes de fréquences 202 peut être mis en œuvre par un ou plusieurs filtres de passe-bande (BPFs). Dans certains exemples, le rendement du séparateur exemplaire de bandes de fréquences 202 peut être représenté par un spectrogramme. Un rendement exemplaire du séparateur de bandes de fréquences 202 est discuté ci-dessous conjointement avec les FIGS. 3A-B et 4.

[0034] Le déterminateur exemplaire de caractéristiques audio 204 détermine les caractéristiques audio d une portion de signal audio (par ex., un composant de fréquence de signal audio, une zone audio entourant un bac de fréquences-temps, etc.). Par exemple, le déterminateur de caractéristiques audio 204 peut déterminer l’énergie moyenne (par ex., la puissance moyenne, etc.) de certains du/des composant(s) de fréquence de signal audio. De plus ou autrement, le déterminateur de caractéristique audio 204 peut déterminer d’autres caractéristiques d une portion du signal audio (par ex., l’énergie en mode, l’énergie médiane, la puissance de mode, la puissance médiane, la puissance moyenne, l’amplitude moyenne, etc.).

[0035] Le normalisateur exemplaire de signal 206 normalise un ou plusieurs bacs de fréquences-temps par une caractéristique audio associée de la zone audio environnante. Par exemple, le normalisateur de signal 206 peut normaliser un bac de fréquences-temps en ayant recours à une énergie moyenne de la zone audio environnante. Dans d’autres exemples, le normalisateur de signal 206 normalise certains des composants de fréquence de signal audio en ayant recours à une caractéristique audio associée. Par exemple, le normalisateur de signal 206 peut normaliser chaque composant de fréquence de signal audio en utilisant l’énergie moyenne associée à ce composant de signal audio. Dans certains exemples, le rendement du normalisateur de signal 206 (par ex. les composants de fréquence de signal audio normalisé) peut être représenté sous forme d’un spectrogramme. Des rendements exemplaires du normalisateur de signal 206 sont discutés ci-dessous conjointement avec les FIGS. 3C et 5.

[0036] Le sélecteur exemplaire de points 208 sélectionne un ou plusieurs points des composants de fréquence audio normalisés. Par exemple, le sélecteur exemplaire de points 208 peut sélectionner une pluralité de maxima d’énergie parmi les composants de fréquence de signal audio normalisé. Dans d’autres exemples, le sélecteur de points 208 peut sélectionner un quelconque des autres points pertinents des composants de fréquence de signal audio. En outre ou autrement, le sélecteur de points 208 peut pondérer la sélection sur la base d’une catégorie du signal audio 106. Par exemple, le sélecteur de points 208 peut pondérer la sélection de points en bandes de fréquence communes de musique (par ex., basses, aigües, etc.) s’il s’avère que la musique est la catégorie du signal audio. Le générateur exemplaire d’empreintes numériques 210 génère des empreintes numériques (par ex. l’empreinte numérique 110) en utilisant les points sélectionnés par le sélecteur de points 208. Le générateur exemplaire d’empreintes numériques 210 peut générer des empreintes numériques à partir des points sélectionnés en utilisant tout procédé approprié.

[0037] Alors qu’une manière exemplaire d’implémentation du processeur audio 108 de la FIG. 1 est illustrée à la FIG. 2, un ou plusieurs des éléments, processus, et/ou dispositifs illustrés dans la FIG. 2 peuvent être combinés, divisés, réarrangés, omis, éliminés et/ou implémentés de toute autre façon. Par ailleurs, le séparateur exemplaire de bandes de fréquences 202, le déterminateur exemplaire de caractéristiques audio 204, le normalisateur exemplaire de signal 206, le sélecteur exemplaire de points 208 et un générateur exemplaire d empreintes numériques 210 et/ou, de façon plus générale, le processeur audio exemplaire 108 de la FIG. 1 peuvent être implémenté avec du matériel, des logiciels, des micrologiciels et/ou une quelconque combinaison de matériel, de logiciel et/ou de micrologiciel. Par exemple, l’un quelconque parmi le séparateur exemplaire de bandes de fréquences 202, le déterminateur exemplaire de caractéristiques audio 204, le normalisateur exemplaire de signal 206, le sélecteur exemplaire de points 208 et un générateur exemplaire d empreintes numériques 210 et/ou, de façon plus générale, le processeur audio exemplaire 108 pourrait être implémenté par un ou plusieurs circuits numériques ou analogues, circuits logiques, processeurs programmables, contrôleurs programmables, unités de traitement graphique (GPUs), processeurs de signal numérique (DSPs), circuits intégrés pour application spécifique (ASICs), dispositifs logiques programmables (PLDs), et/ou dispositifs logiques programmables par l’utilisateur (FPLDs). Au cours de la lecture d’une quelconque des revendications relatives à l’appareil ou au système de ce brevet pour couvrir une pure implémentation d’un logiciel et/ou d’un micrologiciel, au moins un élément parmi le séparateur exemplaire de bandes de fréquences 202, le déterminateur exemplaire de caractéristiques audio 204, le normalisateur exemplaire de signal 206, le sélecteur exemplaire de points 208 et un générateur exemplaire d’empreintes numériques 210 est/sont précisément défini(s) dans les présentes comme incluant un dispositif de stockage lisible par ordinateur non transitoire, un disque numérique versatile (DVD), un disque compact (CD), un disque Blu-ray, etc., qui incluent le logiciel et/ou micrologiciel. Par ailleurs le processeur audio exemplaire 106 de la FIG. 1 peut inclure un ou plusieurs éléments, processus et/ou dispositifs en supplément, ou à la place de ceux qui sont illustrés dans la FIG. 2, et/ou peuvent inclure plus d’un ou un quelconque des éléments, processus et dispositifs illustrés. Telle qu elle est utilisée dans les présentes, la locution « en communication » incluant des variations de celle-ci, englobe la communication directe et/ou la communication indirecte par un ou plusieurs composants intermédiaires et ne nécessite par une communication directe physique (par ex. filaire) et/ou une communication constante, mais inclut plutôt en plus une communication sélective à des intervalles périodiques, des intervalles programmés, des intervalles apériodiques et/ou des événements ponctuels.

[0038] Les FIGS. 3A-3B décrivent un spectrogramme exemplaire non traité 300 généré par le séparateur exemplaire de bandes de fréquences de la FIG. 2. Dans l’exemple illustré de la FIG. 3A, le spectrogramme exemplaire non traité 300 inclut un exemple d’un premier bac de fréquences-temps 3 04A délimité par le temps et la fréquence définis par une première zone audio exemplaire 306 A. Dans l’exemple illustré de la FIG. 3B, le spectrogramme exemplaire non traité inclut un deuxième bac exemplaire de fréquencetemps 304B et une zone audio exemplaire 306B. Le spectrogramme exemplaire non traité 300 des FIGS. 3A et 3B et le spectrogramme normalisé 302 incluent chacun un axe vertical exemplaire 308 dénotant des bacs de fréquences et un axe horizontal exemplaire 310 dénotant des bacs de temps. FIGS. 3 A et 3B illustrent les régions audio exemplaires 306A et 306B dans lesquelles la caractéristique audio de normalisation est dérivée et utilisée pour normaliser les premier et deuxième bacs de fréquences-temps 304A et 304B, respectivement. Dans l’exemple illustré, chaque bac de fréquences-temps du spectrogramme non traité 300 est normalisé pour générer le spectrogramme normalisé 302. Dans d’autres exemples, certains des bacs de fréquences-temps du spectrogramme non traité 300 sont normalisés pour générer le spectrogramme normalisé 302.

[0039] L axe vertical exemplaire 308 a des unites de bacs de fréquences générées par une transformation rapide de Fourier (FFT) et a une longueur de 1024 bacs FFT. Dans d autres exemples, l’axe vertical exemplaire 308 peut être mesuré par une quelconque autre technique appropriée de mesure de fréquence (par ex. Hertz, un autre algorithme de transformation, etc.). Dans certains exemples, l’axe vertical 308 englobe la totalité de bandes de fréquences du signal audio 106. Dans d’autres exemples, l’axe vertical 308 peut englober une portion du signal audio 106.

[0040] Dans les exemples illustrés, l’axe horizontal exemplaire 310 représente un laps de temps du spectrogramme non traité 300 qui a une longueur totale de 11,5 secondes. Dans 1 exemple illustré, 1 axe horizontal 310a comme unites des intervalles de soixantequatre millisecondes (ms). Dans d’autres exemples, l’axe horizontal 310 peut être mesuré dans toute autre unité appropriée (par ex., 1 seconde, etc.). Par exemple, l’axe horizontal 310 englobe la durée complète de l’audio. Dans d’autres exemples, l’axe horizontal 310 peut englober une portion du signal audio 106.

[0041] Dans l’exemple illustré de la FIG. 3A, le premier bac de fréquencestemps 304A est associé à une intersection entre un bac de fréquences et un bac de temps du spectrogramme non traité 300 ainsi qu’à une portion du signal audio 106 associée à cette intersection. La première zone audio exemplaire 3 06A inclut les bacs de fréquences-temps à l’intérieur d’une distance prédéfinie du premier bac exemplaire de fréquence-temps 304A. Par exemple, le déterminateur de caractéristiques audio 204 peut déterminer la longueur verticale de la première zone audio 306A (par ex., la longueur de la première zone audio 306A le long de 1 axe vertical 308, etc.) sur la base d’un ensemble de nombres de bacs FFT (par ex., 5 bacs, 11 bacs, etc.). De façon similaire, le déterminateur de caractéristiques audio 204 peut déterminer la longueur horizontale de la première zone audio 306A (par ex., la longueur de la première zone audio 306A le long de l’axe horizontal 310, etc.). Dans 1 exemple illustré, la première zone audio 306A est un carré. Autrement, la première zone audio 3 06A peut être d une quelconque taille et forme et peut contenir une quelconque combinaison pertinente de bacs de fréquences-temps à l’intérieur du spectrogramme non traité 300. Le déterminateur exemplaire de caractéristiques audio 204 peut ensuite déterminer une caractéristique audio des bacs de fréquences-temps contenus à l’intérieur de la première zone audio 306A (par ex. l’énergie moyenne, etc.). En utilisant la caractéristique audio déterminée, le normalisateur exemplaire de signal 206 de la FIG. 2 peut normaliser une valeur associée du premier bac de fréquences-temps 304A (par ex., l’énergie du premier bac de fréquences-temps 304A peut être normalisée par l’énergie moyenne de chaque bac de fréquences-temps à l’intérieur de la première zone audio 306A).

[0042] Dans l’exemple illustré de la FIG. 3B, le deuxième bac de fréquencestemps 304B est associé à une intersection entre un bac de fréquences et un bac de temps du spectrogramme non traité 300 et à une portion du signal audio 106 associé à l’intersection. La deuxième zone audio exemplaire 306B inclut les bacs de fréquences-temps à une distance prédéfinie du deuxième bac exemplaire de fréquence-temps 304B.De façon similaire le déterminateur de caractéristique audio 204 peut déterminer la longueur horizontale de la deuxième zone audio 306B (par ex. la longueur de la deuxième zone audio 306B le long de 1 axe horizontal 310, etc.). Dans l’exemple illustré, la deuxième zone audio 306B est un carré. Autrement, la deuxième zone audio 306B peut être d’une quelconque taille et forme appropriée et peut contenir une quelconque combinaison de bacs de fréquences-temps à 1 intérieur du spectrogramme non traité 300. Dans certains exemples, la deuxième zone audio 306B peut chevaucher la première zone audio 306A (par ex., elle contient certains des mêmes bacs de fréquences-temps, elle peut être déplacée sur l’axe horizontal 310, elle peut être déplacée sur l’axe vertical 308, etc.). Dans certains exemples, la deuxième zone audio 306B peut être de la meme taille et forme que la première zone audio 3 06A. Dans d autres exemples, la deuxième zone audio 306B peut être de taille et de forme différente de la première zone audio 306A. Le déterminateur exemplaire de caractéristiques audio 204 peut ensuite déterminer une caractéristique audio des bacs de fréquences-temps contenus avec la deuxième zone audio 306B (par ex. l’énergie moyenne, etc.). En utilisant la caractéristique audio déterminée, le normalisateur exemplaire de signal 206 de la FIG. 2 peut normaliser une valeur associée du deuxième bac de fréquencestemps 304B (par ex., l’énergie du deuxième bac de fréquences-temps 304B peut être normalisée en ayant recours à 1 énergie moyenne de chaque bac de fréquences-temps à l’intérieur de la deuxième zone audio 306B).

[0043] La FIG. 3C décrit un exemple de spectrogramme normalisé 302 généré par le normalisateur de signal de la FIG. 2 en normalisant une pluralité de bacs de fréquencestemps du spectrogramme non traité 300 des FIGS. 3A-3B. Par exemple, certains ou tous les bacs de fréquences-temps du spectrogramme non traité 300 peuvent être normalisés comme les bacs de fréquences-temps 3 04A et 304B. Un processus exemplaire pour générer le spectrogramme normalisé est décrit par référence à la FIG. 7.

[0044] La FIG. 4 illustre le spectrogramme exemplaire non traité 300 de la FIG. 3 divisé en composants fixes de fréquence de signal audio. Le spectrogramme exemplaire non traité 300 est généré en traitant le signal audio 106 avec une transformation rapide de Fourrier (FFT). Dans d’autres exemples, un quelconque autre procédé peut être utilisé pour générer le spectrogramme non traité 300. Dans cet exemple, le spectrogramme non traité 300 est divisé en composants exemplaires de fréquence de signal audio 402. Le spectrogramme exemplaire non traité 400 inclut l’axe vertical exemplaire 308 de la FIG. 3 et 1 axe horizontal exemplaire 310 de la FIG. 3. Dans l’exemple illustré, les composants exemplaires de fréquence de signal audio 402 ont chacun une bande de fréquence exemplaire 408 et un laps de temps exemplaire 410. Les composants exemplaires de fréquence de signal audio 402 incluent un premier composant exemplaire de fréquence de signal audio 412A et un deuxième composant exemplaire de fréquence de signal audio 412B.Dans 1 exemple illustré, les portions plus sombres du spectrogramme non traité 300 représentent des portions du signal 106 avec des énergies plus fortes.

[0045] Les composants exemplaires de fréquence de signal audio 402 sont chacun associés à une combinaison unique de bandes de fréquence successives (par ex., un bac de fréquences, etc.) et à des laps de temps successifs. Dans l’exemple illustré, chacun des composants de fréquence de signal audio 402 a un bac de fréquences de taille égale (par ex., la bande de fréquence 408). Dans d’autres.exemples, certains ou tous les composants de fréquence de signal audio 402 peuvent avoir des bacs de fréquences de taille différente. Dans l’exemple illustré, chacun des composants de fréquence de signal audio 402 a une durée égale (par ex., le laps de temps 410). Dans d’autres exemples, certains ou tous les composants de fréquence de signal audio 402 peuvent avoir des durées différentes. Dans l’exemple illustré, les composants de fréquence de signal audio 402 composent l’intégralité du signal audio 106. Dans d’autres exemples, les composants de fréquence de signal audio 402 peuvent inclure une portion du signal audio 106.

[0046] Dans l’exemple illustré, le premier composant de fréquence de signal audio 412A est dans la bande aiguë du signal audio 106 et n’a pas de points d’énergie visibles. Le premier composant exemplaire de fréquence de signal audio 412A est associé à un bac de fréquences entre le bac 768 FFT et le bac 896 FFT et à un laps de temps entre 10 024 ms et 11 520 ms. Dans certains exemples, il y a des portions du signal audio 106 à l’intérieur du premier composant de fréquence de signal audio 412 A. Dans cet exemple, les portions du signal audio 106 à l’intérieur du composant de fréquence de signal audio 412A ne sont pas visibles en raison de l’énergie comparativement plus forte de l’audio à l’intérieur du spectre des graves du signal audio 106 (par ex., l’audio dans le deuxième composant de fréquence de signal audio 412B, etc.). Le deuxième composant de fréquence de signal audio 412B se situe dans la bande des graves du signal audio 106 et des points d’énergie visibles. Le deuxième composant exemplaire de fréquence de signal audio 412B est associé à un bac de fréquences entre le bac 128 FFT et le bac 256 FFT et un laps de temps entre 10 024 ms et 11 520 ms. Dans certains exemples, dû au fait que les portions du signal audio 106 à 1 intérieur du spectre des graves (par ex. le deuxième composant de fréquence de signal audio 412B, etc.) ont une énergie comparativement forte, les empreintes numériques générées à partir du spectrogramme non traité 300 incluraient un nombre disproportionné d’échantillons provenant du spectre des graves.

[0047] La FIG. 5 est un exemple d’un spectrogramme normalisé 500 généré par le normalisateur de signal de la FIG. 2 à partir des composants fixes de fréquence de signal audio de la FIG. 4. Le spectrogramme normalisé exemplaire 500 inclut l’axe vertical exemplaire 308 de la FIG. 3 et l’axe horizontal exemplaire 310 de la FIG. 3. Le spectrogramme normalisé exemplaire 500 est divisé en composants exemplaires de fréquence de signal audio 502. Dans l’exemple illustré, les composants de fréquence de signal audio 502 ont chacun une bande exemplaire de fréquence 408 et un laps de temps exemplaire 410. Les composants exemplaires de fréquence de signal audio 502 incluent un premier composant exemplaire de fréquence de signal audio 504A et un deuxième composant exemplaire de fréquence de signal audio 504 B. Dans certains exemples, le premier et le deuxième composant de fréquence de signal audio 5 04A et 504B correspondent aux mêmes bacs de fréquences et au même laps de temps que le premier et le deuxième composant de fréquence de signal audio 412A et 412B de la FIG. 3. Dans l’exemple illustré, les portions plus sombres du spectrogramme normalisé 500 représentent des zones du spectre audio avec des énergies plus fortes.

[0048] Le spectrogramme normalisé exemplaire 500 est généré par la normalisation du spectrogramme non traité 300 en normalisant chaque composant de fréquence de signal audio 402 de la FIG. 4 en ayant recours à une caractéristique audio associée. Par exemple, le déterminateur de caractéristiques audio 204 peut déterminer une caractéristique audio (par ex. l’énergie moyenne, etc.) du premier composant de fréquence de signal audio 412A. Dans cet exemple, le normalisateur de signal 206 peut ensuite normaliser le premier composant de fréquence de signal audio 412A en ayant recours à la caractéristique audio déterminée pour créer le composant de fréquence de signal audio exemplaire 402A. De façon similaire, le deuxième composant de fréquence de signal audio 402B peut être généré en normalisant le deuxième composant de fréquence de signal audio 412B de la FIG. 4 en ayant recours à une caractéristique audio associée au deuxième composant de fréquence de signal audio 412 B. Dans d autres exemples, le spectrogramme normalise 500 peut être généré en normalisant une portion des composants de signal audio 402. Dans d’autres exemples, tout autre procédé approprié peut être utilisé pour générer le spectrogramme normalisé exemplaire 500.

[0049] Dans l’exemple illustré de la FIG. 5, le premier composant de fréquence de signal audio 504A (par ex., le premier composant de fréquence de signal audio 412A de la FIG.4 après avoir été traité par le normalisateur de signal 206, etc.) a des points d’énergie visibles sur le spectrogramme normalisé 500. Par exemple, parce que le premier composant de fréquence de signal audio 504A a été normalisé par l’énergie du premier composant de fréquence de signal audio 412A, des portions précédemment cachées du signal audio 106 (par ex. par comparaison au premier composant de fréquence de signal audio 412A) sont visibles sur le spectrogramme normalisé 500. Le deuxième composant de fréquence de signal audio 504B (par ex., le deuxième composant de fréquence de signal audio 412B de la FIG.4 après avoir été traité par le normalisateur de signal 206, etc.) correspond à la bande des graves du signal audio 106. Par exemple, parce que le deuxième composant de fréquence de signal audio 504B a été normalisé par l’énergie du deuxième composant de fréquence de signal audio 412B, la quantité de points d’énergie visibles a été réduite (par ex. par comparaison au deuxième composant de fréquence de signal audio 412B). Dans certains exemples, des empreintes numériques générées à partir du spectrogramme normalisé 500 (par ex., l’empreinte numérique 110 de la FIG. 1) incluraient des échantillons provenant d un spectre audio distribué plus uniformément que des empreintes numériques générées à partir du spectrogramme non traité 300 de la FIG. 4 [0050] La FIG. 6 est un exemple d’un spectrogramme normalisé et pondéré 600 généré par le sélecteur de points 208 de la FIG. 2 à partir du spectrogramme normalisé 500 de la FIG. 5. Le spectrogramme exemplaire 600 inclut un axe vertical exemplaire 308 de la FIG. 3 et 1 axe horizontal exemplaire 310 de la FIG. 3. Le spectrogramme exemplaire normalisé et pondéré 600 est divisé en composants exemplaires de fréquence de signal audio 502. Dans l’exemple illustré, les composants exemplaires de fréquence de signal audio 502 ont chacun une bande de fréquence exemplaire 408 et un laps de temps exemplaire 410. Les composants exemplaires de fréquence de signal audio 502 incluent un premier composant exemplaire de fréquence de signal audio 604A et un deuxième composant exemplaire de fréquence de signal audio 604 B. Dans certains exemples, le premier et le deuxième composant de fréquence de signal audio 604A et 604B correspondent aux mêmes bacs de fréquences et aux mêmes laps de temps que le premier et le deuxième composant de fréquence de signal audio 412A et 412B de la FIG. 3, respectivement. Dans l’exemple illustré, les portions plus sombres du spectrogramme normalisé et pondéré 600 représentent des zones du spectre audio avec des énergies plus fortes.

[0051] Le spectrogramme normalisé et pondéré exemplaire 600 est généré en pondérant le spectrogramme normalisé 600 avec une gamme de valeurs de zéro à un sur la base d’une catégorie du signal audio 106. Par exemple, si le signal audio 106 est de la musique, les zones du spectre audio associe a la musique seront pondérées le long de chaque colonne par le sélecteur de points 208 de la Fig. 2. Dans d’autres exemples, la pondération peut s appliquer à de multiples colonnes et peut prendre en charge une gamme différente de zéro à un.

[0052] Des organigrammes représentatifs de la logique matérielle, des instructions lisibles par machine, des machines à état implémentées par du matériel, et/ou toutes combinaisons de celles-ci pour implémenter le processeur audio 108 de la FIG. 2, sont illustrés à titre d exemple dans les FIGS 7 et 8. Les instructions lisibles par machine peuvent être un programme exécutable ou une portion d’un programme exécutable pour exécution par un processeur d ordinateur tel que le processeur 912 dans la plateforme exemplaire de processeurs 900 détaillée ci-dessous par rapport à la FIG. 9. Le programme peut être contenu dans du logiciel stocké sur un support de stockage lisible par ordinateur non transitoire tel qu’un CD-ROM, une disquette, un disque dur, un DVD, un disque Blu-ray, ou une mémoire associée au processeur 912, mais le programme intégral et/ou des parties de celui-ci pourraient autrement être exécutés par un dispositif autre que le processeur 912 et/être contenu dans un micrologiciel ou dans du matériel dédié. Par ailleurs, bien que les programmes exemplaires soient décrits par référence aux organigrammes illustrés dans les FIGS 7 et 8, de nombreux autres procédés pour implémenter le processeur audio exemplaire 108 peuvent être utilisés à la place. Par exemple, l’ordre d’exécution des blocs peut être changé et/ou certains des blocs décrits peuvent être changés, éliminés, ou combinés.

De plus ou autrement, un bloc quelconque ou tous les blocs peuvent être implémentés par un ou plusieurs circuits matériels (par ex., une circuiterie numérique et/ou analogue intégrée et/discrète, un FPGA ; un ASIC, un comparateur, un amplificateur opérationnel [op-amp], un circuit logique, etc.) structurés pour effectuer l’opération correspondante sans exécuter de logiciel ou de micrologiciel.

[0053] Ainsi que mentionné ci-dessus, les processus exemplaires des FIGS. 7 et 8 peuvent être implémentés en utilisant des instructions exécutables (par ex., des instructions lisibles par machine et/ou par ordinateur) stockées sur un ordinateur non transitoire et/ou sur un support lisible par machine tel qu’un disque dur, une mémoire flash, une mémoire à lecture seule, un disque compact, un disque numérique versatile, une mémoire cache, une mémoire à accès aléatoire, et/ou tout autre dispositif de stockage ou disque de stockage dans lequel les informations sont stockées pour une quelconque durée (par ex. de longues durées, de façon permanente, des laps de temps brefs, pour tamponner temporairement, et/ou pour mettre l’information en mémoire cache). Tel qu’utilisé dans les présentes, le terme « support lisible par ordinateur non transitoire » est expressément défini pour inclure tout type de dispositifs de stockage lisibles par ordinateur et/ou de disques de stockage et pour exclure des signaux de propagation et exclure des supports de transmission.

[0054] « Incluant » et « comprenant » en (et toutes formes de et temps verbaux) sont utilisés dans les présentes comme étant des termes ouverts. Par conséquent, chaque fois qu une revendication utilise une quelconque forme d’« inclure » ou de « comprendre » (par ex. comprend, inclut, comprenant, incluant, ayant, etc.) comme préambule ou à l’intérieur d une revendication énoncée, quelle qu’elle soit, on doit comprendre que des éléments, des termes supplémentaires, etc. peuvent être présents sans pour autant être en dehors de la portée de la revendication ou de l’énoncé correspondant. Telle qu’elle est utilisée dans les présentes, lorsque la locution « au moins » est utilisée comme terme de transition, par exemple, dans un préambule d’une revendication, elle n’est pas exhaustive de la même manière que les termes « comprenant » et « incluant » sont des termes ouverts. La locution « et/ou » lorsqu’elle est utilisée, dans une formule, telle qu’A, B et/ou C, fait référence à toute combinaison ou sous-ensemble de A, B, C telle que (1) A seul, (2) B seul, (3) C seul, (4) A avec B, (5) A avec C, (6) B avec C, et (7) A avec B et avec C. Telle qu’elle est utilisée dans le contexte d’une description de structures, de composants, d’éléments, d’objets et/ou de choses, la locution « au moins un de A et B » a pour but de faire référence à des implémentations incluant un quelconque de (1) au moins un A, (2) au moins un B, et (3) au moins un A et au moins un B. De façon similaire, telle qu’elle est utilisée dans le contexte d’une description de structures, de composants, d’éléments, d’objets et/ou de choses, la locution « au moins un de A ou B » a pour but de faire référence à des implémentations incluant un quelconque de (1) au moins un A, (2) au moins un B, et (3) au moins un A et au moins un B. Telle qu’elle est utilisée dans le contexte d’une description de la performance ou de l’exécution de processus, d’instructions, d’actions, d’activités et/ou d’étapes, la locution « au moins un de A et B » a pour but de faire référence à des implémentations incluant un quelconque de (1) au moins un A, (2) au moins un B, et (3) au moins un A et au moins un B. De façon similaire, telle qu’elle est utilisée dans les présentes, dans le contexte d’une description de la performance ou de l’exécution de processus, d’instructions, d’actions, d’activités et/ou d’étapes, la locution « au moins un de A ou B » a pour but de faire référence à des implémentations incluant un quelconque de (1) au moins un A, (2) au moins un B, et (3) au moins un A et au moins un B.

[0055] le processus de la FIG. 7 commence au bloc 702. Au bloc 702, le processeur audio 108 reçoit le signal audio numérisé. Par exemple, le processeur audio 108 peut recevoir de l’audio (par ex., émis par la source audio 102 de la FIG. 1, etc.) et capturé par le microphone 104. Dans cet exemple, le microphone peut inclure un convertisseur numérique ou analogue pour convertir l’audio en un signal audio numérisé 106. Dans d’autres exemples, le processeur audio 108 peut recevoir de l’audio stocké dans une base de données (par ex., la mémoire volatile 914 de la FIG. 9, la mémoire non volatile 916 de la FIG. 9, le stockage de masse 928 de la FIG. 9, etc.). Dans d’autres exemples, le signal audio numérisé 106 peut être transmis au processeur audio 108 sur un réseau (par ex., l’Internet, etc.) [0056] Au bloc 704, le séparateur de bandes de fréquences 202 fenêtre le signal audio et transforme le signal audio en un domaine de fréquence. Par exemple, le séparateur de bandes de fréquences 202 peut mettre en œuvre une transformation rapide de Fourier pour transformer le signal audio 106 en un domaine de fréquence et peut mettre en œuvre une fonction de fenêtrage (par ex., une fonction Hamming, une fonction Hann, etc.). De plus ou autrement, le séparateur de bandes de fréquences 202 peut par ailleurs agréger le signal audio 106 en deux ou plusieurs bacs de temps. Dans ces exemples, le bac de fréquencestemps correspond à une intersection entre un bac de fréquences et un bac de temps et contient une portion du signal audio 106.

[0057] Au bloc 706, le déterminateur de caractéristiques audio 204 sélectionne un bac de fréquences-temps à normaliser. Par exemple, le déterminateur de caractéristiques audio 204 peut sélectionner le premier bac de fréquences-temps 304A de la FIG. 3 A. Dans certains exemples, le déterminateur de caractéristiques audio 204 peut sélectionner un bac de fréquences-temps adjacent à un premier bac de fréquences-temps sélectionné précédemment 3 04A.

[0058] Au bloc 708, le déterminateur de caractéristiques audio 204 détermine la caractéristique audio de la zone audio environnante. Par exemple, si le déterminateur de caractéristique audio 204 a sélectionné le premier bac de fréquences-temps 304A, le déterminateur de caractéristiques audio 204 peut déterminer une caractéristique audio de la première zone audio 3 06A. Dans certains exemples, le déterminateur de caractéristiques audio 204 peut déterminer 1 énergie moyenne de la zone audio. Dans d’autres exemples, le déterminateur de caractéristiques audio 204 peut déterminer toute autre caractéristique audio appropriée (par ex., l’amplitude moyenne, etc.).

[0059] Au bloc 710, si le déterminateur de caractéristiques audio 204 détermine que un autre bac de fréquences-temps doit être sélectionné, le processus 700 revient au bloc 706. Si un autre bac de fréquences-temps n’a pas été sélectionné, le processus 700 avance au bloc 712. Dans certains exemples, un autre bac de fréquences-temps est sélectionné au bloc 706 jusqu à ce que chaque bac de fréquences-temps de du spectrogramme non traité 300 ait été sélectionné. Dans d’autres exemples, un quelconque nombre approprié de bacs de fréquences-temps peut être sélectionné.

[0060] Au bloc 712, le normalisateur de signal 206 normalise chaque bac de fréquences-temps sur la base de la caractéristique audio associée. Par exemple, le normalisateur de signal 206 peut normaliser chacun des bacs de fréquences-temps sélectionnés au bloc 706 avec la caractéristique audio associée déterminée au bloc 708. Par exemple, le normalisateur de signal peut normaliser le premier bac de fréquencestemps 304A et le deuxième bac de fréquences-temps 304B par les caractéristiques audio (par ex. l’énergie moyenne) de la première zone audio 306A et de la deuxième zone audio 306B, respectivement. Dans certains exemples, le normalisateur de signal 206 génère un spectrogramme normalisé (par ex. le spectrogramme normalisé 302 de la FIG. 3C) sur la base de la normalisation des bacs de fréquences-temps.

[0061] Au bloc 714, si le sélecteur de points 208 determine que la génération d’empreintes numériques doit être pondérée sur la base d’une catégorie audio, le processus 700 avance au bloc 716. Si la génération d’empreintes numériques n’est pas pondérée sur la base d’une catégorie audio, le processus 700 avance au bloc 720. Au bloc 716, le processeur audio 108 détermine la catégorie audio du signal audio. Par exemple, le processeur audio 108 peut inviter un utilisateur à indiquer la catégorie de l’audio (par ex., de la musique, du langage, etc.). Dans d’autres exemples, le processeur audio 108 peut utiliser un algorithme de détermination de catégorie audio afin de déterminer la catégorie audio. Dans certains exemples, la catégorie audio peut être la voix d’une personne spécifique, le langage humain de façon générale, de la musique, des effets sonores et/ou de la publicité.

[0062] Au bloc 718, le normalisateur de signal 206 pondère des bacs de fréquencestemps sur la base de la catégorie audio déterminée. Par exemple, si la catégorie audio est de la musique, le normalisateur de signal 206 peut pondérer le composant de fréquence de signal audio associé à des bandes d’aigües et de graves communément associées à de la musique. Dans certains exemples, si la catégorie audio est la voix d’une personne spécifique, le normalisateur de signal 206 peut pondérer les composants de fréquence de signal audio associés à la voix de cette personne. Dans certains exemples, le rendement du normalisateur de signal 206 peut être représenté sous forme d’un spectrogramme.

[0063] Au bloc 720, le générateur d’empreintes numériques 210 génère des empreintes numériques (par ex. l’empreinte numérique 110 de la FIG. 1) du signal audio 106 en sélectionnant 1’extrema d’énergie. Par exemple, le générateur d’empreintes numériques 210 peut utiliser la fréquence, le bac de temps et l’énergie associée à un ou plusieurs extrema d’énergie (par ex., vingt extrema, etc.). Dans certains exemples, le générateur d’empreintes numériques 210 peut sélectionner un maxima d’énergie du signal audio normalisé 106. Dans d’autres exemples, le générateur d’empreintes numériques 210 peut sélectionner toute autre caractéristique des composants normalisés de fréquence de signal audio. Dans certains exemples, le générateur d’empreintes numériques 210 peut utiliser tout moyen approprié (par ex. un algorithme, etc.) pour générer une empreinte numérique 110 représentative du signal audio 106. Une fois que l’empreinte numérique 110 a été générée, le processus 700 prend fm.

[0064] Le processus 800 de la FIG. 8 commence au bloc 802. Au bloc 802 le processeur audio 108 reçoit le signal audio numérisé. Par exemple, le processeur audio 108 peut recevoir de l’audio (par ex. émis par la source audio 102 de la FIG. 1, etc.) et capturé par le microphone 104. Dans cet exemple, le microphone peut inclure un convertisseur de 1 analogue vers le numérique pour convertir l’audio en un signal audio numérisé 106. Dans d autres exemples, le processeur audio 108 peut recevoir l’audio stocké dans une base de données (par ex. la mémoire volatile 914 de la FIG. 9, la mémoire non volatile 916 de la

FIG. 9, le stockage de masse 928 de la FIG. 9, etc.). Dans d’autres exemples, le signal audio numérisé 106 peut être transmis au processeur audio 108 sur un réseau (par ex. l’Internet, etc.).

[0065] Au bloc 804, le séparateur de bandes de fréquences 202 divise le signal audio en deux ou plus de deux composants de fréquence de signal audio (par ex. les composants de fréquence de signal audio 402 de la FIG. 3, etc.). Par exemple le séparateur de bandes de fréquences 202 peut effectuer une transformation rapide de Fourier pour transformer le signal audio 106 dans le domaine de fréquence et peut effectuer une fonction de fenêtrage (par ex., une fonction de Hamming, une fonction de Hann, etc.) afin de créer des bacs de fréquences. Dans ces exemples, chaque composant de fréquence de signal audio est associé à un ou plusieurs bacs de fréquences parmi les bacs de fréquences. De plus ou autrement, le séparateur de bandes de fréquences 202 peut par ailleurs diviser le signal audio 106 en deux ou plus de deux laps de temps. Dans ces exemples, chaque composant de fréquence de signal audio correspond à une combinaison unique d’un laps de temps des deux ou plusieurs laps de temps et un bac de fréquences des deux ou plus de deux bacs de fréquences. Par exemple, le séparateur de bandes de fréquences 202 peut diviser le signal audio 106 en un premier bac de fréquences, un deuxième bac de fréquences, un premier laps de temps et un deuxième laps de temps. Dans cet exemple, un premier composant de fréquence de signal audio correspond à la portion du signal audio 106 dans le premier bac de fréquences et le premier laps de temps, un deuxième composant de fréquence de signal audio correspond à la portion du signal audio 106 dans le premier bac de fréquences et le deuxième laps de temps, un troisième composant de fréquence de signal audio correspond à la portion du signal audio 106 dans le deuxième bac de fréquences et le premier laps de temps et une quatrième portion de fréquence de signal audio correspondent au composant du signal audio 106 à l’intérieur du deuxième bac de fréquences et du deuxième laps de temps. Dans certains exemples, le rendement du séparateur de bandes de fréquences 202 peut être représenté par un spectrographe (par ex. le spectrogramme non traité 300 de la FIG. 3).

[0066] Au bloc 806, le déterminateur de caractéristiques audio 204 détermine les caractéristiques audio de chaque composant de fréquence de signal audio. Par exemple, le déterminateur de caractéristiques audio 204 peut déterminer l’énergie moyenne de chaque composant de fréquence de signal audio. Dans d’autres exemples, le déterminateur de caractéristiques audio 204 peut déterminer toute autre caractéristique audio appropriée (par ex., l’amplitude moyenne, etc.).

[0067] Au bloc 808, le normalisateur de signal 206 normalise chaque composant de fréquence de signal audio sur la base de la caractéristique audio déterminée associée au composant de fréquence de signal audio. Par exemple, le normalisateur de signal 206 peut normaliser chaque composant de fréquence de signal audio par l’énergie moyenne associée au composant de fréquence de signal audio. Dans d’autres exemples, le normalisateur de signal 206 peut normaliser le composant de fréquence de signal audio en utilisant une quelconque autre caractéristique audio appropriée. Dans certains exemples, le rendement du normalisateur de signal 206 peut être représenté sous forme d’un spectrographe (par ex., le spectrogramme normalisé 500 de la FIG. 5).

[0068] Au bloc 810, si le déterminateur de caractéristiques audio 204 détermine que la génération d’empreintes numériques doit être pondérée sur la base d’une catégorie audio, le processus 800 avance au bloc 812. Si la génération d’empreintes numériques ne doit pas être pondérée sur la base d’une catégorie audio, le processus 800 avance au bloc 816. Au bloc 812, le processeur audio 108 détermine la catégorie audio du signal audio 106. Par exemple, le processeur audio 108 peut inviter un utilisateur à indiquer la catégorie de l’audio (par ex., de la musique, du langage, etc.). Dans d’autres exemples, le processeur audio 108 peut utiliser un algorithme de détermination de catégorie audio afin de déterminer la catégorie audio. Dans certains exemples, la catégorie audio peut être la voix d’une personne spécifique, le langage humain en général, la musique, des effets sonores et/ou de la publicité.

[0069] Au bloc 814, le normalisateur de signal 206 pondère les composants de fréquence de signal audio sur la base de la catégorie audio déterminée. Par exemple, si la catégorie audio est musicale, le normalisateur de signal 206 peut pondérer le composant de fréquence de signal audio, le long de chaque colonne avec une valeur de mise à l’échelle différente de zéro à un pour chaque emplacement de fréquence de l’aigu au grave, associé à 1 enveloppe spectrale moyenne de la musique. Dans certains exemples, si la catégorie audio est une voix humaine, le normalisateur de signal 206 peut pondérer les composants de fréquence de signal audio associés à l’enveloppe spectrale de la voix humaine. Dans certains exemples, le rendement du normalisateur de signal 206 peut être représenté sous forme d’un spectographe (par ex., le spectrogramme 600 de la FIG. 6).

[0070] Au bloc 816, le générateur d’empreintes numériques 210 génère des empreintes numériques (par ex. 1 empreinte numérique 110 de la FIG. 1) du signal audio 106 en sélectionnant des extrema d énergie des composants de fréquence de signal audio normalisé. Par exemple, le générateur d’empreintes numériques 210 peut utiliser la fréquence, le bac de temps et 1 énergie associés à un ou plusieurs extrema d’énergie (par ex. vingt extrema, etc.). Dans certains exemples, le générateur d’empreintes numériques 210 peut sélectionner des maxima d énergie du signal audio normalisé. Dans d’autres exemples, le générateur d’empreintes numériques 210 peut sélectionner toute autre caractéristique pertinente des composants de fréquence de signal audio normalisé. Dans certains exemples, le générateur d empreintes numériques 210 peut utiliser d’autres moyens appropriés (par ex., un algorithme, etc.) pour générer une empreinte numérique 110 représentative du signal audio 106. Une fois qu’une empreinte numérique 110 a été générée, le processus 800 prend fm.

[0071] FIG. 9 est un diagramme bloc d’une plateforme exemplaire de processeurs 900 structurée pour exécuter les instructions des FIGS 7 et/ou 8 afin d implémenter le processeur audio 108 de la FIG. 2. La plateforme de processeurs 900 peut par exemple, être un serveur, un ordinateur personnel, un poste de travail, une machine d’apprentissage automatique (par ex. un réseau neural), un dispositif mobile (par ex. un téléphone portable, un smartphone, une tablette telle qu’un iPad™) un assistant numérique personnel (PDA), une application Internet, un lecteur DVD, un lecteur CD, un enregistreur vidéo numérique, un lecteur Blu-ray, une console de jeux, un enregistreur vidéo personnel, un boîtier décodeur, un écouteur ou autre dispositif portable, ou tout autre type de dispositifs informatiques.

[0072] La plateforme de processeurs 900 de l’exemple illustré inclut un processeur 912. Le processeur 912 de 1 exemple illustré est matériel. Par exemple, le processeur 912 peut être implémenté par un ou plusieurs circuits intégrés, circuits logiques, microprocesseurs, GPUs, DSPs ou contrôleurs d’un type quelconque ou fabricant. Le processeur matériel peut être un dispositif basé sur un semi-conducteur (par ex. à base de silicone). Dans cet exemple, le processeur 912 implémente le séparateur exemplaire de bandes de fréquences 202, le déterminateur exemplaire de caractéristiques audio 204, le normalisateur exemplaire de signal 206, le sélecteur exemplaire de points 208 et un générateur exemplaire d’empreintes numériques 210.

[0073] Le processeur 912 de l’exemple illustré inclut une mémoire locale 913 (par ex. une mémoire cache). Le processeur 912 de l’exemple illustré est en communication avec une mémoire principale incluant une mémoire volatile 914 et une mémoire non volatile 916 via un bus 918. La mémoire volatile 914 peut être implémentée par une mémoire à accès aléatoire dynamique synchrone (SDRAM), une mémoire à accès aléatoire dynamique (DRAM) ; une mémoire à accès aléatoire dynamique RAMBUS®, et/tout autre type de dispositif de mémoire à accès aléatoire. La mémoire non volatile 916 peut être implémentée par une mémoire flash et/ou tout autre type de dispositifs de mémoire souhaité. L’accès à la mémoire principale 914, 916 est contrôlé par un contrôleur de mémoire.

[0074] La plateforme de processeurs 900 de l’exemple illustré inclut aussi un circuit d interface 920. Le circuit d’interface 920 peut être implémenté par tout type de normes d’interface, tel qu’une interface Ethernet, un bus de série universelle (USB), une interface Bluetooth®, une interface de communication en champ proche (NFC), et/ou une interface PCI express.

[0075] Dans l’exemple illustré, un ou plusieurs dispositifs d’entrée 922 sont connectés aux circuits d’interface 920. Le dispositif(s) d’entrée 922 permet à un utilisateur d’entrer des données et/ou des commandes dans le processeur 912. Le dispositif(s) d’entrée 922 peut être implémenté par exemple, par un capteur audio, un microphone, une caméra (un appareil photo ou vidéo), et/ou un système de reconnaissance vocale.

[0076] Un ou plusieurs dispositifs de sortie 924 sont aussi connectés aux circuits d interface 920 de 1 exemple illustré. Les dispositifs de sortie 924 peuvent être implémentés par exemple, par des dispositifs d’affichage [par ex. une diode électroluminescente (LED), une diode électroluminescente organique (OLED), un écran à cristaux liquides (LCD), un écran à tube cathodique (CRT), un écran à dispositif de commutation in situ (IPS), un écran tactile, etc.], un dispositif de sortie tactile, une imprimante et/ou un haut-parleur. Le circuit d interface 920 de 1 exemple illustré inclut donc typiquement une carte de conducteur graphique, une puce de conducteur graphique et/ou un processeur de conducteur graphique.

[0077] L’interface de circuit 920 de l’exemple illustré inclut aussi un dispositif de communication tel qu’un transmetteur, un récepteur, un émetteur récepteur, un modem, une passerelle résidentielle, un point d’accès sans fil et/ou une interface de réseau pour faciliter l’échange de données avec des machines externes (par ex. des dispositifs informatiques de toutes sortes) via un réseau 926. La communication peut se faire via, par exemple une connexion Ethernet, une ligne de connexion d’abonné numérique (DSL), une ligne de connexion téléphonique, un système de câble coaxial, un système satellite, un système sans fil de ligne de site, un système de téléphone cellulaire, etc.

[0078] La plateforme de processeurs 900 de l’exemple illustré inclut également un ou plusieurs dispositifs de stockage de masse 928 pour stocker des logiciels et/ou des données. Des exemples de tels dispositifs de stockage de masse 928 incluent des lecteurs de disquette, des lecteurs de disques durs, des lecteurs de disque compact, des lecteurs de disque Blu-ray, des systèmes de pile redondante de disques indépendants (RAID), des lecteurs de disque numérique versatile (DVD).

[0079] Les instructions exécutables par machine 932 pour mettre en œuvre les procédés de la FIG. 6 peuvent être stockés sur le dispositif de stockage de masse 928, dans la mémoire volatile 914, dans la mémoire non volatile 916 et/ou sur un support de stockage amovible lisible par ordinateur non transitoire tel qu’un CD ou un DVD.

[0080] De ce qui précède, on notera que les procédés et l’appareil exemplaires divulgués permettent de créer des empreintes numériques de signal audio en réduisant la quantité de bruit capturé dans les empreintes numériques. De plus, en prélevant un échantillon audio des zones moins énergétiques du signal audio, des empreintes numériques audio plus robustes sont créées en comparaison aux procédés antérieurs utilisés pour générer des empreintes numériques audio.

[0081] Bien que certains procédés, appareils et articles de fabrication exemplaires aient été divulgués dans les présentes, le champ d’application de ce brevet ne s’y limite pas. Au contraire, ce brevet couvre tous les procédés, appareils et articles de fabrication relevant à juste titre, du champ d’application des revendications de ce brevet.

Claims

REVENDICATIONS

1. Un procédé pour générer des empreintes numérique audio comprenant :

la réception d’un signal audio ayant des composants de fréquence incluant un premier composant de fréquence de signal audio à l’intérieur d’une première classe de fréquences et un deuxième composant de fréquence de signal audio à l’intérieur d’une deuxième classe de fréquences ;

la détermination d une première caractéristique du premier composant de fréquence de signal audio et une deuxième caractéristique du deuxième composant de fréquence de signal audio ;

la normalisation du signal audio pour générer ainsi des valeurs d’énergie normalisées, la normalisation du signal audio incluant (1) la normalisation du premier composant de fréquence de signal audio en ayant recours à la première caractéristique et (2) la normalisation du deuxième composant de fréquence de signal audio en ayant recours à la deuxième caractéristique ;

la sélection d’une des valeurs d’énergie normalisées ; et la génération d’une empreinte numérique du signal audio en utilisant la valeur sélectionnée parmi les valeurs d’énergie.
2. Le procédé de la revendication 1, dans lequel les composants de fréquence de signal audio sont à 1 intérieur d une pluralité de classes de fréquences successifs incluant la première classe de fréquences et la deuxième classe de fréquences.
3. Le procédé de la revendication 2, dans lequel le premier composant de fréquence de signal audio est associé à un premier laps de temps et le deuxième composant de fréquence de signal audio est associé un deuxième laps de temps.
4. Le procédé de la revendication 3, dans lequel le premier laps de temps et le deuxième laps de temps sont inclus dans une pluralité de laps de temps, la pluralité de laps de temps correspondant à une durée complète du signal audio.
5. Le procédé de la revendication 4, dans lequel chacun des composants de fréquence de signal audio correspond à (1) une combinaison unique d’un laps de temps de la pluralité de laps de temps et (2) à une classe de fréquences de la pluralité des classes de fréquences.
6. Le procédé de la revendication 1, dans lequel la division du signal audio en une première classe de fréquences et une deuxième classe de fréquences inclut de mettre en œuvre une transformation rapide de Fourier (FFT).
7. Le procédé de la revendication 1, dans lequel la sélection de 1’extremum d’énergie est pondérée sur la base d’une catégorie du signal audio, la catégorie du signal audio incluant au moins 1 une des categories suivantes : la musique, le langage humain, les effets sonores ou la publicité.
8. Le procédé de la revendication 1, dans lequel la sélection de ladite une des valeurs d énergie normalisées comprend la comparaison de ladite valeur sélectionnée parmi les valeurs d’énergie normalisées avec une ou plusieurs autres des valeurs d’énergie normalisées générées.
9. Le procédé de la revendication 1, dans lequel la sélection de ladite une des valeurs d’énergie normalisées comprend l’identification d’un extremum parmi les valeurs d’énergie normalisées.
10. Le procédé de la revendication 1, dans lequel la détermination de la première énergie caractéristique comprend la détermination d’une énergie moyenne du premier composant de fréquence de signal audio et la détermination d’une deuxième énergie caractéristique comprenant la détermination d’une énergie moyenne du deuxième composant de fréquence de signal audio.
11. Un appareil comprenant :

un séparateur de bandes de fréquences pour recevoir un signal audio ayant des composants de fréquence de signal qui inclut un premier composant de fréquence de signal audio à 1 intérieur d une premier classe de fréquences et un deuxième composant de fréquence de signal audio à l’intérieur d’une deuxième classe de fréquences ;

un déterminateur de caractéristiques audio pour déterminer une première caractéristique du premier composant de fréquence de signal audio et une deuxième caractéristique du deuxième composant de fréquence de signal audio ;

un normalisateur de signal pour normaliser le signal audio générant ainsi des valeurs d énergie normalisées, la normalisation du signal audio incluant (1) la normalisation du premier composant de fréquence de signal audio en ayant recours à la première caractéristique et (2) la normalisation du deuxième composant de fréquence de signal audio en ayant recours à la deuxième caractéristique ;

un sélecteur de points pour sélectionner une des valeurs d’énergie normalisées ; et un générateur d’empreintes numériques pour générer une empreinte numérique de la valeur sélectionnée parmi les valeurs d’énergie sélectionnées.
12. L appareil de la revendication 11, dans lequel les composants de fréquence de signal audio sont à 1 intérieur de la pluralité de classes de fréquences successifs incluant la première classe de fréquences et la deuxième classe de fréquences.
13. L appareil de la revendication 12, dans lequel le premier composant de fréquence de signal audio est associé à un premier laps de temps et le deuxième composant de fréquence de signal audio est associé à un deuxième laps de temps, une pluralité de laps de temps correspondant à une durée complète du signal audio, le premier laps de temps et le deuxième laps de temps sont inclus dans la pluralité des laps de temps.
14. L appareil de la revendication 13, dans lequel chacun des composants de fréquence de signal audio correspond à une combinaison unique entre (1) un laps de temps de la pluralité des laps de temps et (2) une classe de fréquences de la pluralité des classes de fréquences.
15. Un support de stockage lisible par ordinateur incluant des instructions lisibles par ordinateur qui lorsqu elles sont exécutées, amènent une machine à mettre en oeuvre le procédé d’une quelconque des revendications 1-10,