MP3

MP3
MP3
파일 확장자.mp3
.bit (1995년 이전)[1]
인터넷 미디어 유형
  • audio/mpeg[2]
  • audio/MPA[3]
  • audio/mpa-robust[4]
개발자카를하인츠 브란덴부르크(Karlheinz Brandenburg), 에른스트 에베를라인(Ernst Eberlain), 하인츠 게르호이저(Heinz Gerhäuser), 베른하르트 그릴(Bernhard Grill), 위르겐 헤레(Jürgen Herre), 하랄드 팝(Harald Popp, [5]프라운호퍼 사회) 등
최초출시1991년 12월 6일; 31년 전 (1991-12-06)[6]
최신출시
ISO/IEC 13818-3:1998
1998년 4월; 25년(1998-04)
형식의 종류로시 음성의
포함:MPEG-ES
표준
오픈포맷?[9]
프리 포맷?만료된 특허[10]

MP3([4]MPEG-1 Audio Layer III)는 독일프라운호퍼 협회(Fraunhofer Society)가 카를하인츠 브란덴부르크(Karlheinz Brandenburg)의 주도로 개발한 디지털 오디오의 코딩 포맷입니다.[11][12] 원래 MPEG-1 표준의 세 번째 오디오 형식으로 정의되었지만, 이후 MPEG-2 표준의 세 번째 오디오 형식으로 유지 및 확장되었습니다. 낮은 비트 전송률을 더 잘 지원하기 위해 확장된 MPEG-2.5로 알려진 세 번째 버전은 일반적으로 구현되지만 공인된 표준은 아닙니다.

MP3(또는 mp3)는 일반적으로 MP3 표준의 다른 복잡성 없이 MPEG-1 오디오 또는 MPEG-2 오디오 인코딩 데이터의 기본 스트림을 포함하는 파일을 지정합니다.

오디오 압축(최종 사용자에게 가장 명백하고 가장 잘 알려진 표준의 측면)과 관련하여 MP3는 손실 데이터 압축을 사용하여 정확하지 않은 근사치와 데이터의 부분 폐기를 사용하여 데이터를 인코딩합니다. 이를 통해 압축되지 않은 오디오에 비해 파일 크기를 크게 줄일 수 있습니다. 작은 크기와 허용 가능한 충실도의 결합은 1990년대 중후반 인터넷을 통한 음악 유통의 붐을 이끌었고, MP3는 대역폭과 스토리지가 여전히 프리미엄 수준이었던 시기에 가능한 기술 역할을 했습니다. MP3 형식은 곧 저작권 침해, 음악 불법 복제, 파일 리핑/공유 서비스 MP3.com 및 Napster 등을 둘러싼 논란과 관련이 있습니다. 스마트폰을 포함한 제품 범주인 휴대용 미디어 플레이어의 등장으로 MP3 지원은 거의 범용에 가깝습니다.

MP3 압축은 (정신음향 분석에 의해) 대부분의 인간의 청각 능력을 넘어서는 것으로 간주되는 소리의 특정 구성 요소의 정확도를 감소(또는 근사)함으로써 작동합니다. 이 방법은 일반적으로 지각 코딩 또는 정신 음향 모델링이라고 합니다.[13] 그런 다음 MDCTFFT 알고리즘을 사용하여 나머지 오디오 정보를 공간 효율적인 방식으로 기록합니다. CD 품질의 디지털 오디오에 비해 MP3 압축은 일반적으로 크기를 75~95% 줄일 수 있습니다. 예를 들어, 128 kbit/s의 일정한 비트레이트로 인코딩된 MP3는 원본 CD 오디오 크기의 약 9%의 파일을 생성합니다.[14] 2000년대 초, 컴팩트 디스크 플레이어는 데이터 CD의 MP3 파일 재생을 지원하는 기능을 채택했습니다.

MPEG(Moving Picture Experts Group)는 MP3를 MPEG-1, 그리고 이후 MPEG-2 표준의 일부로 설계했습니다. MPEG-1 Audio Layer I, II, III를 포함하는 MPEG-1 Audio (MPEG-1 Part 3)는 1991년 ISO/IEC 표준을 위한 위원회 초안으로 [15][16]승인되었으며 1992년에 최종 승인되었으며 [17]1993년에 ISO/IEC 11172-3:1993으로 출판되었습니다.[7] 샘플 및 비트 레이트가 더 낮은 MPEG-2 오디오(MPEG-2 Part 3) 확장은 1995년 ISO/IEC 13818-3:1995로 발표되었습니다.[8][18] 기존 MPEG-1 디코더에 대한 최소한의 수정만 필요합니다(헤더에서 MPEG-2 비트를 인식하고 새로운 하위 샘플 및 비트 속도를 추가합니다).

역사

배경

MP3 손실 오디오-데이터 압축 알고리즘은 청각 마스킹이라는 인간 청각의 지각적 한계를 이용합니다. 1894년 미국의 물리학자 알프레드 M. Mayer는 낮은 주파수의 다른 음색에 의해 음색이 들리지 않게 될 수 있다고 보고했습니다.[19] 1959년에 Richard Ehmer는 이 현상에 대한 완전한 청각 곡선들을 묘사했습니다.[20] 1967년에서 1974년 사이에 에버하르트 츠비커는 중요 주파수 대역의 튜닝 및 마스킹 분야에서 작업을 수행했으며,[21][22] 이 분야는 하비 플레처와 벨 연구소의 공동 연구자들의 기초 연구를 기반으로 구축되었습니다.[23]

Perceptual coding은 1966년 이타쿠라 후미타다(나고야 대학)와 사이토 슈조(일본 전신 전화)의 연구에서 기원한 [24]선형 예측 코딩(LPC)을 이용한 음성 코딩 압축에 처음 사용되었습니다.[25] 1978년 비슈누 S. 아탈맨프레드 R. 벨 연구소의 슈뢰더는 인간의 귀의 마스킹 특성을 이용한 정신 음향 코딩 알고리즘을 사용한 적응형 예측 코딩이라고 불리는 LPC 음성 코덱을 제안했습니다.[24][26] J.L. 홀과 함께 한 슈뢰더와 아탈의 추가 최적화는 이후 1979년 논문에서 보고되었습니다.[27] 같은 해,[28] M. A. Krasner는 스피치용 하드웨어(음악 비트 압축으로는 사용할 수 없음)를 출판하고 제작한 정신 음향 마스킹 코덱도 제안했지만, 그의 결과를 비교적 잘 알려지지 않은 링컨 연구소[29] 기술 보고서에 발표한 것은 정신 음향 코덱 개발의 주류에 즉시 영향을 미치지는 않았습니다.

1972년 Nasir Ahmed가 제안한 손실 압축위한 변환 코딩의 한 유형인 이산 코사인 변환(DCT)은 1973년 Ahmed가 T. Natarajan 및 K. R. Rao와 함께 개발했으며 1974년에 그 결과를 발표했습니다.[30][31][32] 이는 1986년 Princen과 Bradley의 초기 연구에 [33]이어 1987년 J. P. Princen, A. W. Johnson 및 A. B. Bradley가 제안한 수정된 이산 코사인 변환(MDCT)의 개발로 이어졌습니다.[34] MDCT는 나중에 MP3 알고리즘의 핵심 부분이 되었습니다.[35]

에른스트 테르하르트(Ernst Terhardt)와 다른 공동 연구자들은 1982년 높은 정확도로 청각 마스킹을 설명하는 알고리즘을 구축했습니다.[36] 이 작업은 Fletcher로 거슬러 올라가는 저자들의 다양한 보고서와 초기에 중요한 비율과 중요한 대역폭을 결정하는 작업에 추가되었습니다.

1985년, Atal과 Schroeder는 당시에 비해 상당한 데이터 압축 비율을 달성한 청각 마스킹을 가진 LPC 기반 지각 음성 코딩 알고리즘인 CELP(코드 여기 선형 예측)를 제시했습니다.[24] IEEE의 표준 저널(Journal on Selected Area in Communications)은 1988년에 다양한 (대부분 인지적인) 오디오 압축 알고리즘에 대해 보고했습니다.[37] 1988년 2월에 출판된 "Voice Coding for Communications" 판은 광범위하게 확립되고 작동하는 오디오 비트 압축 기술에 대해 보도했으며,[37] 그 중 일부는 기본 설계의 일부로 청각 마스킹을 사용하고 있으며, 일부는 실시간 하드웨어 구현을 보여주고 있습니다.

발전

MP3 기술의 기원은 몇 년 동안 ISO MPEG 오디오 그룹의 의장을 [38]맡았던 한스 무스만 교수의 논문에서 충분히 설명되어 있습니다. 1988년 12월, MPEG는 오디오 코딩 표준을 요구했습니다. 1989년 6월에는 14개의 오디오 코딩 알고리즘을 제출했습니다. 이러한 코딩 제안 간의 특정한 유사성 때문에 4개의 개발 그룹으로 군집화되었습니다. 첫 번째 그룹은 ASPEC, 프라운호퍼 지셀샤프트, AT&T, 프랑스 텔레콤, 도이치 및 톰슨-브랜드의 그룹이었습니다. 두 번째 그룹은 마츠시타, CCETT, ITT, 필립스의 MUSICAM이었습니다. 세 번째 그룹은 Fujitsu, JVC, NECSony의 ATAC(ATRAC 코딩)이었습니다. 그리고 네 번째 그룹은 NTT와 BTRL에 의한 SB-ADPCM이었습니다.[38]

MP3의 바로 앞에는 "주파수 영역의 최적 코딩"(OCF)과 [39]PXFM(Perceptual Transform Coding)이 있었습니다.[40] 이 두 코덱은 Thomson-Brandt의 블록 스위칭 기여와 함께 ASPEC이라는 코덱으로 통합되어 MPEG에 제출되어 품질 경쟁에서 이겼지만 구현하기에는 너무 복잡하다고 잘못 거절되었습니다. 하드웨어에서 오디오 지각 코더(OCF)의 첫 번째 실용적 구현(Krasner의 하드웨어는 실용적으로 사용하기에는 너무 번거롭고 느렸습니다)은 모토로라 56000 DSP 칩을 기반으로 한 정신 음향 변환 코더의 구현이었습니다.

MP3 포맷과 기술의 또 다른 선행 요소는 정신 음향 모델에 의해 구동되는 정수 산술 32 서브 밴드 필터 뱅크를 기반으로 하는 지각 코덱 MUSICAM에서 찾을 수 있습니다. 주로 디지털 오디오 방송(Digital Audio Broadcasting, 디지털 라디오)과 디지털 TV를 위해 설계되었으며, 1989년부터 마쓰시타, 필립스와 함께 MUSICAM을 작업한 [41]후 1991년 애틀랜타에서 열린 IEEE-ICASSP 컨퍼런스에서 CCETT(프랑스)와 IRT(독일)가 과학계에 기본 원칙을 공개했습니다.[38]

COFDM 변조를 사용하여 방송 시스템에 통합된 이 코덱은 1991년 NAB 쇼(Las Vegas)에서 라디오 캐나다(Radio Canada) 및 CRC 캐나다(CRC Canada)와 함께 방송 및 현장에서[42] 시연되었습니다. 이 방송 시스템의 오디오 부분의 구현은 2-칩 인코더(서브밴드 변환용, G. Stoll (IRT Germany)팀이 설계한 정신 음향 모델용, 나중에 사이코음향 모델 I)로 알려졌으며 YF가 설계한 정수 연산 소프트웨어를 실행하는 Motorola 56001 DSP 칩을 사용하는 실시간 디코더. 데헤리 팀(CCETT, 프랑스). 48 kHz 샘플링 주파수, 20 비트/샘플 입력 포맷(1991년에 가장 높은 사용 가능한 샘플링 표준)을 최초로 사용하여 이 코덱의 높은 오디오 품질과 함께 해당 디코더의 단순성. AES/EBU 프로페셔널 디지털 입력 스튜디오 표준과 호환)은 나중에 MUSICAM의 특성을 고급 디지털 음악 압축 코덱의 기본 기능으로 채택하게 된 주요 이유였습니다.

MUSICAM 인코딩 소프트웨어를 개발하는 동안 Stoll과 Dehery의 팀은 유럽 방송 연합의 오디오 전문가 그룹에 의해 선택된 고품질 오디오 평가 자료를[43] 철저히 사용했으며 나중에 음악 압축 코덱의 평가를 위한 참고 자료로 사용했습니다. 서브밴드 코딩 기법은 고품질 음향 자료의 지각적 코딩뿐만 아니라 특히 중요한 타성 음향 자료(드럼, 삼각형,...)의 인코딩에 효율적인 것으로 나타났습니다. MUSICAM 서브밴드 필터 뱅크의 특정 시간 마스킹 효과(이 장점은 쇼트 트랜스폼 코딩 기법들의 특정 특징)로 인한 것입니다.

독일의 에를랑겐 뉘른베르크 대학의 박사과정 학생으로서, 카를하인츠 브란덴부르크는 1980년대 초에 사람들이 음악을 어떻게 인식하는지에 초점을 맞추어 디지털 음악 압축 작업을 시작했습니다. 그는 1989년에 박사과정을 마쳤습니다.[44] MP3는 OCF와 PXFM의 직접적인 후손으로, James D와 함께 AT&T-Bell Labs의 박사후 연구원으로 일하는 Brandenburg의 협력 결과를 나타냅니다. AT&T-Bell Labs의 Johnston(JJ)은 Fraunhofer Institute for Integrated Circuits, Erlangen(베른하르트 그릴과 다른 4명의 연구원들과 함께 작업한 "The Original Six")[45]과 함께 정신 음향 서브밴드 코더의 MP2 지부에서 상대적으로 적은 기여를 했습니다. 1990년, 브란덴부르크는 에를랑겐 뉘른베르크의 조교수가 되었습니다. 그곳에 있는 동안, 그는 프라운호퍼 협회하인리히 헤르츠 연구소에서 과학자들과 함께 음악 압축 작업을 계속했습니다. 1993년,[44] 그는 프라운호퍼 HHI의 직원으로 입사했습니다. 수잔 베가(Suzanne Vega)의 "톰스 다이너(Tom's Diner)"는 카를하인츠 브란덴부르크(Karlheinz Brandenburg)가 MP3 형식을 개발하기 위해 사용한 첫 번째 곡입니다. 브란덴부르크는 이 곡을 테스트 목적으로 채택하여, 그가 체계를 다듬을 때마다 몇 번이고 듣고, 베가의 목소리의 섬세함에 악영향을 미치지 않도록 했습니다.[46] 따라서 그는 베가를 "MP3의 어머니"라고 불렀습니다.[47]

표준화

1991년 MPEG 오디오 표준에 대해 두 가지 가능한 제안이 평가되었습니다: MUSICAM(Masking pattern adapted Universal Subband Integrated Coding and Multiplexing)과 ASPEC(Adaptive Spectrum Perceptual Entropy Coding). 필립스(네덜란드), CCETT(프랑스), 방송기술연구소(독일), 마쓰시타(일본)가 제안한 MUSICAM 기법은 [48]단순성과 오류 강건성은 물론 높은 수준의 계산 효율성 때문에 선택되었습니다.[49] 서브밴드 코딩을 기반으로 한 MUSICAM 포맷은 MPEG 오디오 압축 포맷의 기초가 되었고, 예를 들어 프레임 구조, 헤더 포맷, 샘플 레이트 등을 통합했습니다.

MUSICAM 기술과 아이디어의 많은 부분이 MPEG 오디오 계층 I과 계층 II의 정의에 통합되었지만, MUSICAM의 1152 샘플 프레이밍(파일 형식 및 바이트 지향 스트림)을 기반으로 하는 데이터 구조는 계산적으로 비효율적인 하이브리드 필터 뱅크의 일부로서 계층 III(MP3) 형식으로 유지되었습니다. 라이프니츠 대학 하노버(Hannover)의 무스만(Musmann) 교수의 의장 하에 표준의 편집은 Layer I과 Layer II를 작업한 Leon van de Kerkhof(네덜란드), Gerhard Stoll(독일), Yves-François Dehery(프랑스)에게 위임되었습니다. ASPEC는 AT&T Bell Laboratories, Thomson Consumer Electronics, Fraunhofer Society 및 CNET의 공동 제안이었습니다.[50] 최고의 코딩 효율성을 제공했습니다.

반 데 케르호프, 스톨, 레오나르도 키아릴리오네(CSELT 미디어 부사장), 이브 프랑수아 데헤리, 카를하인츠 브란덴부르크(독일), 제임스 D로 구성된 워킹 그룹. 존스턴(Johnston, 미국)은 ASPEC에서 아이디어를 얻어 Layer II에서 필터 뱅크를 통합하고 MUSICAM의 조인트 스테레오 코딩과 같은 아이디어 일부를 추가하여 MP3 형식을 만들었습니다. MP3 형식은 128kbit/s에서 MP2와 동일한 품질을 192kbit/s로 달성하도록 설계되었습니다.

MPEG-1 오디오 계층 I, II, III에 대한 알고리즘은 1991년에[15][16] 승인되었으며 1992년에[17] MPEG-1의 일부로 최종 확정되었으며, 이는 1993년에 발표된 국제 표준 ISO/IEC 11172-3(일명 MPEG-1 오디오 또는 MPEG-1 파트 3)을 초래했습니다.[7] 이 표준을 준수하는 파일 또는 데이터 스트림은 48k, 44100 및 32k의 샘플 속도를 처리해야 하며 현재 MP3 플레이어 및 디코더에서 계속 지원됩니다. 따라서 MP3 1세대는 MP3 프레임 데이터 구조와 크기 레이아웃에 대한 14 × 3 = 42 해석을 정의했습니다.

인코더의 압축 효율은 일반적으로 입력 신호의 비트 깊이샘플링 속도에 따라 달라지기 때문에 비트 레이트에 의해 정의됩니다. 그럼에도 불구하고 압축률이 발표되는 경우가 많습니다. CD(컴팩트 디스크) 파라미터를 기준(44.1kHz, 채널당 16비트의 2채널 또는 2×16비트)으로 사용하거나, 때로는 DAT(디지털 오디오 테이프) SP 파라미터(48kHz, 2×16비트)로 사용할 수 있습니다. 이 후자의 참조를 사용하는 압축비는 더 높으며, 이는 손실 인코더에 대한 압축비라는 용어의 사용에 대한 문제를 보여줍니다.

칼하인츠 브란덴부르크(Karlheinz Brandenburg)는 수잔 베가(Suzanne Vega)의 노래 "톰스 다이너(Tom's Diner)"의 CD 녹음을 사용하여 MP3 압축 알고리즘을 평가하고 개선했습니다.[51] 이 곡은 거의 단음에 가까운 특성과 스펙트럼 내용이 넓어 재생 중 압축 형식의 불완전함을 쉽게 들을 수 있기 때문에 선택되었습니다. 이 특정 트랙은 두 채널이 완전히는 아니지만 거의 동일하다는 점에서 흥미로운 특성이 있습니다. 인코더가 상황을 제대로 인식하고 MPEG-2 AAC 정신 음향 모델에 자세히 설명된 것과 유사한 보정을 적용하지 않는 한 바이노럴 마스킹 레벨 억제가 노이즈 아티팩트의 공간적 마스킹을 해제하는 경우로 이어집니다. EBU V3/SQ에서 몇 가지 더 중요한 오디오 발췌(글로켄스필, 삼각형, 아코디언 등)가 수행되었습니다.레퍼런스 컴팩트 디스크로 전문 음향 엔지니어가 MPEG 오디오 형식의 주관적 품질을 평가하는 데 사용했습니다.[citation needed]

공개

ISO MPEG 오디오 위원회의 구성원들은 비트 호환 MPEG 오디오 파일(레이어 1, 레이어 2, 레이어 3)을 생성하기 위해 C 언어로 작성되었으며 나중에 ISO 11172-5로 알려진 참조 시뮬레이션 소프트웨어 구현을 개발했습니다. 1994년 3월 ISO/IEC 기술 보고서의 위원회 초안으로 승인되었으며 1994년 4월 문서 CD 11172-5로 인쇄되었습니다.[52] 1994년 11월 기술보고서(DTR/DIS) 초안으로 승인되어 [53]1996년 최종 확정되었으며 1998년 국제표준 ISO/IEC TR 11172-5:1998로 발간되었습니다.[54] C 언어의 참조 소프트웨어는 나중에 자유롭게 사용할 수 있는 ISO 표준으로 출판되었습니다.[55] 여러 운영 체제에서 비실시간으로 작동하여 압축 오디오의 최초의 실시간 하드웨어 디코딩(DSP 기반)을 시연할 수 있었습니다. MPEG 오디오 인코더 및 디코더의[56] 일부 다른 실시간 구현은 디지털 방송(라디오 DAB, 텔레비전 DVB)에서 소비자 수신기 및 셋톱 박스로 사용할 수 있었습니다.

1994년 7월 7일, 프라운호퍼 협회는 최초의 소프트웨어 MP3 인코더인 l3enc를 출시했습니다.[57] 파일명 확장자 .mp3는 1995년 7월 14일 프라운호퍼 팀에 의해 선택되었습니다(이전에는 파일명이 .bit였습니다).[1] 1995년 9월 9일 출시된 실시간 소프트웨어 MP3 플레이어 WinPlay3를 통해 많은 사람들이 자신의 PC에서 MP3 파일을 인코딩하고 재생할 수 있었습니다. ≈500~1000MB) 시대의 하드 드라이브가 상대적으로 작았기 때문에 여러 앨범의 음악을 전체 녹음으로 가정용 컴퓨터에 저장하기 위해서는 손실 압축이 필수적이었습니다.

Fraunhofer 예제 구현

SoloH라는 해커가 Erlangen 대학의 서버에서 공개된 직후 "dist10" MPEG 참조 구현의 소스 코드를 발견했습니다. 그는 더 높은 품질의 버전을 개발하여 인터넷에 퍼뜨렸습니다. 이 코드는 인터넷을 통해 MP3로 CD 리핑과 디지털 음악 배포를 널리 시작했습니다.[58][59][60][61]

추가 버전

MPEG 오디오에[62] 대한 추가 작업은 1994년에 국제 표준 ISO/IEC 13818-3(일명 MPEG-2 파트 3 또는 하위 호환 MPEG-2 오디오 BC[18])으로 더 잘 알려진 두 번째 MPEG 표준 모음의 일부로 완료되었습니다.[8][63] MPEG-2 Part 3 (ISO/IEC 13818-3)은 MPEG-1 오디오 계층 I, II 및 III에 대한 42개의 추가 비트 레이트 및 샘플 레이트를 정의했습니다. 새로운 샘플링 속도는 원래 MPEG-1 Audio에 정의된 샘플링 속도의 절반에 불과합니다. 이렇게 샘플링 속도를 낮추면 사용 가능한 주파수 충실도를 반으로 줄이는 동시에 비트율을 50%까지 줄일 수 있습니다. 또한 MPEG-2 Part 3은 최대 5.1 멀티채널까지 2개 이상의 채널로 오디오 프로그램을 코딩할 수 있도록 하여 MPEG-1의 오디오를 향상시켰습니다.[62] MPEG-2로 코딩된 MP3는 피아노와 노래에 적합한 MPEG-1 대역폭의 절반을 재생합니다.

3세대 MP3 스타일의 데이터 스트림(파일)은 MPEG-2 아이디어와 구현을 확장했지만 MPEG-3는 이미 다른 의미를 가지고 있었기 때문에 MPEG-2.5 오디오로 명명되었습니다. 이 확장은 MP3 헤더의 프레임 동기 필드를 12비트에서 11비트로 줄임으로써 MP3의 등록 특허 보유자인 Fraunhofer IIS에서 개발되었습니다. MPEG-1에서 MPEG-2로 전환할 때와 마찬가지로 MPEG-2.5는 MPEG-2를 사용할 수 있는 샘플링 속도의 정확히 절반을 추가합니다. 따라서 사람의 음성 및 기타 응용 프로그램을 포함하도록 MP3의 범위를 넓히지만 MPEG-1 샘플링 속도를 사용하여 가능한 대역폭(주파수 재생)의 25%만 필요합니다. ISO가 인정한 표준은 아니지만, MPEG-2.5는 저렴한 중국어 및 유명 디지털 오디오 플레이어뿐만 아니라 컴퓨터 소프트웨어 기반 MP3 인코더(LAME), 디코더(FFMPeg) 및 MP3 프레임 유형 3 × 8 = 24개를 추가하는 플레이어(MPC)에서 널리 지원됩니다. 따라서 MP3의 각 세대는 총 9가지 종류의 MP3 형식 파일에 대해 이전 세대의 절반에 해당하는 3개의 샘플링 속도를 지원합니다. MPEG-1, 2, 2.5의 샘플 레이트 비교 표는 기사의 뒷부분에 나와 있습니다.[64][65] MPEG-2.5는 LAM(2000년 이후), MPC(Media Player Classic), iTunes 및 FFmpeg에서 지원됩니다.

MPEG-2.5는 MPEG에 의해 개발되지 않았으며 국제 표준으로 승인된 적이 없습니다. 따라서 MPEG-2.5는 MP3 형식의 비공식적 또는 독점적 확장입니다. 그럼에도 불구하고, 그것은 어디에나 있고 특히 낮은 비트율의 인간 음성 응용에 유리합니다.

MPEG 오디오 계층 III 버전
버전 국제표준[*] 초판 공개일자 최신판 공개일자
MPEG-1 오디오 계층 III ISO/IEC 11172-3 (MPEG-1 파트 3)[7][16] 1993
MPEG-2 오디오 계층 III ISO/IEC 13818-3 (MPEG-2 Part 3)[8][66] 1995 1998
MPEG-2.5 오디오 계층 III 비표준, 프라운호퍼 독점[64][65] 2000 2008

* ISO 표준 ISO/IEC 11172-3(일명 MPEG-1 Audio)은 MPEG-1 오디오 계층 I, 계층 II 및 계층 III의 세 가지 형식을 정의했습니다. ISO 표준 ISO/IEC 13818-3 (일명 MPEG-2 Audio)은 MPEG-1 Audio: MPEG-2 Audio Layer I, Layer II 및 Layer III의 확장 버전을 정의했습니다. MPEG-2 Audio (MPEG-2 Part 3)는 MPEG-2 AAC (MPEG-2 Part 7 – ISO/IEC 13818-7)와 혼동되어서는 안 됩니다.[18]

LAME은 가장 진보된 MP3 인코더입니다.[citation needed] LAME은 비트 레이트 목표가 아닌 품질 파라미터를 사용하는 VBR 가변 비트 레이트 인코딩을 포함합니다. 이후 버전(2008+)에서는 5512Hz 대역폭 해상도만 필요한 사람의 음성 녹음에 적합한 MPEG-2 또는 MPEG-2.5 샘플링 속도를 자동으로 선택하는 n.nnn 품질 목표를 지원합니다.

인터넷 유통

1990년대 후반에 MP3 파일이 인터넷에 퍼지기 시작했고, 종종 지하 해적판 노래 네트워크를 통해 퍼지기 시작했습니다. 인터넷 배포에 대한 최초의 알려진 실험은 1990년대 초 IUMA라는 약자로 더 잘 알려진 인터넷 언더그라운드 음악 아카이브에 의해 조직되었습니다. 압축되지 않은 오디오 파일을 사용한 몇 가지 실험[67] 후, 이 아카이브는 MP2(Layer II) 형식을 사용하여 일부 압축 MPEG 오디오 파일을 기본 전세계 저속 인터넷에서 제공하기 시작했으며 이후 표준이 완전히 완성되었을 때 사용된 MP3 파일에서 제공합니다. MP3의 인기는 1997년 출시된 널소프트의 오디오 플레이어 윈앰프의 등장과 함께 빠르게 상승하기 시작했으며, 이는 2023년에도 여전히 8천만 명의 활성 사용자의 커뮤니티를 가지고 있습니다. 1998년 한국 서울에 본사를 둔 새한정보시스템즈가 개발한 최초의 휴대용 솔리드 스테이트 디지털 오디오 플레이어 MPMan, RIAA의 법적 탄압 노력에도 불구하고 1998년에 출시되어 리오 PMP300이 판매되었습니다.[69]

1997년 11월, 웹사이트 mp3.com 는 독립 예술가들이 만든 수천 개의 MP3를 무료로 제공하고 있었습니다. MP3 파일의 작은 크기는 CD에서 리핑된 음악의 광범위한 피어 투 피어 파일 공유를 가능하게 했는데, 이전에는 거의 불가능했을 것입니다. 최초의 대규모 P2P 파일 공유 네트워크인 Napster는 1999년에 시작되었습니다. MP3를 쉽게 만들고 공유할 수 있어 광범위한 저작권 침해가 발생했습니다. 주요 음반사들은 이러한 음악의 무료 공유가 매출을 감소시킨다고 주장했고, 이것을 "음악 불법 복제"라고 불렀습니다. 그들은 결국 중단되었다가 나중에 판매된 냅스터와 파일 공유에 참여한 개인 사용자들을 상대로 소송을 진행하며 대응했습니다.[70]

무단 MP3 파일 공유는 차세대 피어 투 피어 네트워크에서 계속됩니다. Beatport, Bleep, Juno Records, eMusic, Zune Marketplace, Walmart.com , Rhapsody, 음반 산업 승인, Amazon.com 과 같은 일부 공인 서비스는 MP3 형식의 무제한 음악을 판매합니다.

설계.

파일구조

Diagram of the structure of an MP3 file
MP3 파일의 구조를 나타내는 다이어그램(MPEG 버전 2.5, 여기서 설명하지 않음)은 동기화 단어의 마지막 비트를 "0"으로 변경하여 한 비트를 버전 필드로[65] 효과적으로 이동시킵니다.

MP3 파일은 헤더와 데이터 블록으로 구성된 MP3 프레임으로 구성됩니다. 이 프레임 시퀀스를 기본 스트림이라고 합니다. "비트 저장소"로 인해 프레임은 독립적인 항목이 아니며 일반적으로 임의의 프레임 경계에서 추출할 수 없습니다. MP3 데이터 블록에는 주파수 및 진폭 측면에서 (압축된) 오디오 정보가 포함되어 있습니다. 다이어그램은 MP3 Header가 유효한 프레임의 시작을 식별하는 데 사용되는 동기 단어로 구성되어 있음을 보여줍니다. 그다음에 이것이 MPEG 표준임을 나타내는 비트와 레이어 3이 사용되고 있음을 나타내는 비트 2개, 즉 MPEG-1 오디오 레이어 3 또는 MP3가 뒤따릅니다. 그 이후에는 MP3 파일에 따라 값이 달라집니다. ISO/IEC 11172-3은 헤더의 사양과 함께 헤더의 각 섹션에 대한 값의 범위를 정의합니다. 오늘날 대부분의 MP3 파일에는 그림에서 언급한 대로 MP3 프레임 앞 또는 뒤에 있는 ID3 메타데이터가 포함되어 있습니다. 데이터 스트림에는 옵션 체크섬이 포함될 수 있습니다.

조인트 스테레오는 프레임 대 프레임으로만 이루어집니다.[71]

인코딩 및 디코딩

MP3 인코딩 알고리즘은 일반적으로 네 부분으로 나뉩니다. 파트 1은 오디오 신호를 프레임이라고 불리는 더 작은 조각들로 나누고, 그런 다음 출력에 대해 수정된 이산 코사인 변환(MDCT) 필터를 수행합니다. 파트 2는 샘플을 1024 포인트 고속 푸리에 변환(FFT)으로 통과시킨 다음, 정신 음향 모델을 적용하고 출력에 대해 또 다른 MDCT 필터를 수행합니다. 파트 3은 노이즈 할당으로 알려진 각 샘플을 정량화하고 인코딩하여 비트 속도사운드 마스킹 요구 사항을 충족하도록 스스로 조정합니다. 파트 4는 오디오 프레임이라고 불리는 비트스트림을 포맷하는데, 이것은 헤더, 에러 체크, 오디오 데이터, 그리고 보조 데이터의 4개의 파트로 구성됩니다.[35]

MPEG-1 표준은 MP3 인코더에 대한 정확한 사양을 포함하지 않지만 원래 표준의 비규범적인 부분에서 정신 음향 모델, 레이트 루프 등의 예를 제공합니다.[72] MPEG-2는 지원되는 샘플링 속도를 두 배로 늘리고 MPEG-2.5는 3을 추가합니다. 이것이 작성되었을 때 제안된 구현은 상당히 오래되었습니다. 표준의 시행자들은 오디오 입력에서 정보의 일부를 제거하는 데 적합한 알고리즘을 고안하기로 되어 있었습니다. 그 결과, 많은 다양한 MP3 인코더를 사용할 수 있게 되었고, 각각 다른 품질의 파일을 생성했습니다. 비교는 널리 이용할 수 있었기 때문에 인코더의 잠재적 사용자는 최선의 선택을 연구하기에 용이했습니다. LAM과 같이 더 높은 비트 전송률로 인코딩하는 데 능숙한 일부 인코더는 더 낮은 비트 전송률만큼 반드시 능숙하지는 않았습니다. LAM은 SourceForge 웹사이트에서 진화하여 사실상 CBR MP3 인코더가 되었습니다. 나중에 ABR 모드가 추가되었습니다. 0~10 사이의 품질 목표를 사용하여 진정한 가변 비트율에 대한 작업을 진행했습니다. 결국, 숫자(예: -V 9.600)는 MPEG-2.5 확장을 사용하여 단 41 kbit/s로 우수한 품질의 저비트율 음성 인코딩을 생성할 수 있었습니다.

MP3는 중첩된 MDCT 구조를 사용합니다. 각 MPEG-1 MP3 프레임은 1152개의 샘플로 576개의 샘플로 구성된 두 개의 과립으로 나누어져 있습니다. 초기에 시간 영역에서 이 샘플들은 MDCT에 의해 하나의 블록에서 576개의 주파수 영역 샘플로 변환됩니다.[73] MP3는 또한 과립에서 192개 샘플의 크기까지 더 짧은 블록을 사용할 수 있습니다. 이 기능은 과도현상이 감지될 때 사용됩니다. 이렇게 하면 일시적인 것에 수반되는 양자화 잡음의 시간적 확산이 제한됩니다(정신음향학 참조). 주파수 해상도는 작은 긴 블록 윈도우 크기로 제한되어 코딩 효율이 떨어집니다.[71] 시간 해상도는 매우 과도한 신호에 대해 너무 낮을 수 있으며 타진음의 번짐을 유발할 수 있습니다.[71]

필터 뱅크의 트리 구조로 인해 두 필터 뱅크의 결합된 임펄스 응답이 시간/주파수 분해능에서 최적의 솔루션을 제공하지 못하고 제공할 수 없기 때문에 사전 에코 문제가 더 악화됩니다.[71] 또한, 두 필터 뱅크의 출력을 결합하면 "에일라이징 보상" 단계에서 부분적으로 처리해야 하는 에일라이징 문제가 발생하지만, 이는 주파수 영역에서 코딩될 과잉 에너지를 발생시켜 코딩 효율을 감소시킵니다.[74]

그러나 디코딩은 표준에 신중하게 정의되어 있습니다. 대부분의 디코더는 "비트스트림 호환성"을 갖는데, 이는 지정된 MP3 파일에서 생성되는 압축 해제된 출력이 ISO/IEC 고급 표준 문서(ISO/IEC 11172-3)에 수학적으로 지정된 출력과 동일하다는 것을 의미합니다. 따라서, 디코더들의 비교는 일반적으로 얼마나 계산적으로 효율적인지(즉, 디코딩 프로세스에서 메모리 또는 CPU 시간을 얼마나 사용하는지)에 기초합니다. 시간이 지남에 따라 CPU 클럭 속도가 MHz에서 GHz로 전환됨에 따라 이러한 우려는 덜 문제가 되었습니다. 인코더/디코더 전체 지연은 정의되지 않았으며, 이는 갭리스 재생에 대한 공식적인 제공이 없음을 의미합니다. 그러나 LAM과 같은 일부 인코더는 이를 처리할 수 있는 플레이어가 원활한 재생을 제공할 수 있는 추가 메타데이터를 첨부할 수 있습니다.

퀄리티

MP3 데이터 스트림을 생성하는 것과 같은 손실 오디오 인코딩을 수행할 때, 생성된 데이터의 양과 결과의 음질 사이에 트레이드오프(trade-off)가 존재합니다. MP3를 생성하는 사람은 초당 오디오의 킬로비트 수를 지정하는 비트 레이트를 선택합니다. 비트 레이트가 높을수록 MP3 데이터 스트림은 더 커질 것이고, 일반적으로 원래 녹음에 더 가깝게 들릴 것입니다. 비트율이 너무 낮으면 압축 아티팩트(즉, 원래 녹음에 없었던 소리)가 재생에서 들릴 수 있습니다. 일부 오디오는 무작위성과 날카로운 공격 때문에 압축하기가 어렵습니다. 이러한 유형의 오디오를 압축하면 일반적으로 벨소리나 프리 에코와 같은 아티팩트가 들립니다. 박수의 샘플이나 비트율이 상대적으로 낮은 삼각형 악기는 압축 아티팩트의 좋은 예를 제공합니다. 지각 코덱의 대부분의 주관적인 테스트는 이러한 유형의 음향 재료를 사용하는 것을 피하는 경향이 있지만, 퍼커시브 사운드에 의해 생성된 아티팩트는 포맷의 기반이 되는 레이어 II의 32 서브밴드 필터 뱅크의 특정 시간 마스킹 기능 때문에 거의 인식되지 않습니다.

인코딩된 오디오 조각의 비트 레이트 외에도 MP3 인코딩된 사운드의 품질은 인코딩되는 신호의 복잡성뿐만 아니라 인코더 알고리즘의 품질에도 달려 있습니다. MP3 표준은 인코딩 알고리즘으로 꽤 많은 자유를 허용하기 때문에 인코더마다 동일한 비트 전송률에도 불구하고 상당히 다른 품질을 제공합니다. 예를 들어, 두 개의 초기 MP3 인코더가 약 128 kbit/s로 설정된 공개 듣기 테스트에서,[75] 하나는 1-5 척도에서 3.66점을 받은 반면, 다른 하나는 2.22점에 불과했습니다. 품질은 인코더 및 인코딩 파라미터의 선택에 따라 달라집니다.[76]

이 관찰은 오디오 인코딩에 혁명을 일으켰습니다. 초기 비트레이트는 가장 중요하고 유일한 고려 사항이었습니다. 당시 MP3 파일은 가장 단순한 유형이었습니다: 파일 전체에 대해 동일한 비트율을 사용했습니다: 이 프로세스는 CBR(Constant Bit Rate) 인코딩으로 알려져 있습니다. 일정한 비트율을 사용하면 인코딩이 더 간단해지고 CPU 집약도가 낮아집니다. 그러나 파일 전체에서 비트율이 변하는 파일을 만들어 파일 크기를 최적화하는 것도 가능합니다. 이를 가변 비트율(Variable Bit Rate)이라고 합니다. 비트 저장소와 VBR 인코딩은 원래 MPEG-1 표준의 일부였습니다. 그 배경에 있는 개념은 어떤 오디오 조각이든 침묵이나 몇 가지 음색만 포함된 음악과 같이 어떤 섹션은 압축하기가 더 쉽지만 다른 섹션은 압축하기가 더 어려울 것이라는 것입니다. 따라서, 덜 복잡한 통로에 대해서는 낮은 비트율을 사용하고, 더 복잡한 부분에 대해서는 높은 비트율을 사용함으로써 파일의 전반적인 품질을 향상시킬 수 있습니다. 일부 고급 MP3 인코더를 사용하면 주어진 품질을 지정할 수 있으며 인코더는 그에 따라 비트 레이트를 조정합니다. 귀에 투명한 특정 "품질 설정"을 원하는 사용자는 모든 음악을 인코딩할 때 이 값을 사용할 수 있으며 일반적으로 각 음악에 대한 개인 청취 테스트를 수행하여 올바른 비트 전송률을 결정할 필요가 없습니다.

인지된 품질은 청취 환경(주변 소음), 청취자 주의 집중, 청취자 훈련 및 대부분의 경우 청취자 오디오 장비(사운드 카드, 스피커, 헤드폰 등)에 의해 영향을 받을 수 있습니다. 또한 강의 및 인간 음성 응용 프로그램에 대한 품질 설정이 낮으면 충분한 품질이 달성될 수 있으며 인코딩 시간과 복잡성을 줄일 수 있습니다. 스탠포드 대학 음악 교수 조나단 버거가 신입생들에게 한 시험은 MP3 품질의 음악에 대한 학생들의 선호도가 매년 상승했다는 것을 보여주었습니다. 버거는 학생들이 MP3가 음악에 가져다 주는 '지글지글' 소리를 더 좋아하는 것 같다고 말했습니다.[77]

MP3 오디오 품질에 대한 심도 있는 연구, 사운드 아티스트이자 작곡가인 Ryan Maguire의 프로젝트 "The Ghost in the MP3"는 MP3 압축 중 손실된 사운드를 격리합니다. 2015년, 그는 수록곡 "mo Dernis"를 발표했습니다.T"(톰스 다이너의 애너그램)는 원래 MP3 표준의 공식에 사용된 곡인 [78][79][80]"톰스 다이너"를 MP3 압축하는 동안 삭제된 사운드로부터 독점적으로 구성되었습니다. 프로젝트의 개념적 동기와 함께 MP3 압축 중 삭제된 소리를 분리하는 데 사용된 기술에 대한 자세한 설명은 2014 국제 컴퓨터 음악 회의(Proceedings of the International Computer Music Conference)에 발표되었습니다.[81]

비트레이트

MPEG 오디오 계층 III
사용 가능한 비트 전송률(kbit/s)[16][64][65][66][82]
MPEG-1
오디오 계층 III
MPEG-2
오디오 계층 III
MPEG-2.5
오디오 계층 III
8 8
16 16
24 24
32 32 32
40 40 40
48 48 48
56 56 56
64 64 64
80 80
96 96
112 112
128 128
n/a 144
160 160
192
224
256
320
지원되는 샘플링 속도
MPEG 오디오 형식별[16][64][65][66]
MPEG-1
오디오 계층 III
MPEG-2
오디오 계층 III
MPEG-2.5
오디오 계층 III
8kHz
11.025kHz
12kHz
16kHz
22.05kHz
24kHz
32kHz
44.1kHz
48kHz

비트레이트는 음악을 인코딩하는 데 사용되는 샘플 속도와 샘플당 비트 수의 곱입니다. CD 오디오는 초당 44100 샘플입니다. 샘플당 비트 수는 오디오 채널의 수에 따라 다릅니다. CD는 스테레오이며 채널당 16비트입니다. 따라서 44100에 32를 곱하면 압축되지 않은 CD 디지털 오디오의 비트레이트인 1411200이 됩니다. MP3는 이 1411 kbit/s 데이터를 320 kbit/s 이하로 인코딩하도록 설계되었습니다. MP3 알고리즘에 의해 덜 복잡한 통로가 탐지되므로 더 낮은 비트레이트가 사용될 수 있습니다. MPEG-1 대신 MPEG-2를 사용하는 경우 MP3는 더 낮은 샘플링 속도(초당 16,000개, 22,050개 또는 24,000개의 샘플)만 지원하며 비트레이트는 8kbit/s로 낮지만 160kbit/s 이하로 선택할 수 있습니다. 샘플링 레이트를 낮춤으로써 MPEG-2 레이어 III는 소스 오디오에 존재했을 수 있는 새로운 샘플링 레이트의 절반 이상의 모든 주파수를 제거합니다.

MPEG-1 오디오 계층 III 표준에서 선택된 14개의 비트 레이트(32, 40, 48, 56, 64, 80, 96, 112, 128, 160, 192, 224, 256 및 320 kbit/s)와 32, 44.1 및 48 kHz의 가장 높은 3개의 샘플링 주파수가 허용됩니다.[65] MPEG-2 오디오 레이어 III는 또한 MPEG-1의 정확히 절반인 16, 22.05 및 24kHz샘플링 주파수를 가진 8, 16, 24, 32, 40, 48, 56, 64, 80, 96, 112, 128, 144, 160kbit/s의 다소 다른 14개의 비트 레이트를 허용합니다.[65] MPEG-2.5 오디오 레이어 III 프레임은 8, 16, 24, 32, 40, 48의 8비트 레이트로만 제한됩니다. 8, 11.025 및 12kHz의 3개의 더 낮은 샘플링 주파수를 가진 56 및 64kbit/s입니다.[citation needed] MPEG-1 오디오 계층 III 표준만 지원하는 이전 시스템에서는 32 kbit/s 이하의 비트 레이트를 가진 MP3 파일을 재생 속도와 피치 업으로 재생할 수 있습니다.

이전 시스템에서는 MP3에 대한 빠른 전달 및 되감기 재생 제어 기능도 부족합니다.[83][84]

MPEG-1 프레임은 320 kbit/s 모드에서 가장 상세한 정보를 포함하고 있으며, 최고 허용 비트 레이트 설정이며,[85] 무음 및 단순 톤은 여전히 32 kbit/s를 요구합니다. MPEG-2 프레임은 최대 160kbit/s까지 필요한 최대 12kHz 사운드 재생을 캡처할 수 있습니다. MPEG-2로 만든 MP3 파일은 나이퀴스트-섀넌 샘플링 정리 때문에 20kHz 대역폭을 갖지 못합니다. 주파수 재생은 항상 샘플링 주파수의 절반 미만이며 불완전한 필터는 오류에 대한 더 큰 마진(필터의 노이즈 레벨 대 선명도)을 필요로 하기 때문에 8kHz 샘플링 속도는 최대 주파수를 4kHz로 제한하는 반면 48kHz 샘플링 속도는 MP3를 최대 24kHz 사운드 재생으로 제한합니다. MPEG-2는 MPEG-1 샘플 속도의 절반과 MPEG-2.5는 MPEG-1 샘플 속도의 4분의 1만 사용합니다.

일반적인 인간 음성 재생 분야의 경우, 5,512 Hz 대역폭은 11,025의 샘플링 속도와 44,100 (표준) WAV 파일의 VBR 인코딩을 사용하여 (음성의 경우) 우수한 결과를 생성하기에 충분합니다. 영어 사용자는 -V 9.6 설정 시 평균 41~42kbit/s이지만 이는 기록된 침묵의 양 또는 전달 속도(wpm)에 따라 달라질 수 있습니다. 12,000(6K 대역폭)으로의 재샘플링은 LAME 파라미터 -V 9.4에 의해 선택됩니다. 마찬가지로 -V 9.2는 16,000 샘플 레이트와 결과적으로 8K 로우패스 필터링을 선택합니다. 자세한 내용은 Nyquist Shannon을 참조하십시오. 이전 버전의 LAME 및 FFmpeg는 가변 비트율 품질 선택 파라미터에 대한 정수 인수만 지원합니다. n.nnn 품질 매개변수(-V)는 레임(lame)으로 문서화됩니다.sourceforge.net 그러나 평균 비트 전송률(ABR)이 아닌 새로운 스타일의 VBR 가변 비트 전송률 품질 선택기를 사용하는 LAME에서만 지원됩니다.

MP3 파일을 만드는 데 사용되는 주요 소스인 CD 오디오에도 사용되기 때문에 일반적으로 44.1kHz의 샘플 속도가 음악 재생에 사용됩니다. 인터넷에는 매우 다양한 비트레이트가 사용됩니다. 128kbit/s의 비트 레이트는 11:1의 압축비로 [86]비교적 작은 공간에서 적절한 오디오 품질을 제공하는 일반적으로 사용됩니다. 인터넷 대역폭 가용성과 하드 드라이브 크기가 증가함에 따라 최대 320 kbit/s의 더 높은 비트 전송 속도가 널리 보급되고 있습니다. 오디오-CD에 저장된 비압축 오디오의 비트레이트는 1,411.2 kbit/s입니다. (16비트/샘플 × 44,100 샘플/초 × 2 채널/1,000비트/킬로비트). 따라서 비트레이트 128, 160 및 192 kbit/s는 각각 약 11:1, 9:1 및 7:1의 압축비를 나타냅니다.

LAM 인코더와 자유 포맷 옵션을 사용하면 최대 640 kbit/s의 비표준 비트 전송 속도를 얻을 수 있지만, MP3 플레이어가 파일을 재생할 수 있는 경우는 거의 없습니다. ISO 표준에 따르면 디코더는 최대 320kbit/s의 스트림만 디코딩할 수 있어야 합니다.[87][88][89] 초기의 MPEG Layer III 인코더는 현재 CBR(Constant Bit Rate)이라고 불리는 것을 사용했습니다. 이 소프트웨어는 MP3 파일의 모든 프레임에 대해서만 균일한 비트레이트를 사용할 수 있었습니다. 나중에 더 정교한 MP3 인코더는 비트 저장소를 사용하여 녹음의 해당 부분에서 사운드의 복잡성을 기반으로 각 프레임에 대한 인코딩 레이트를 선택하는 평균 비트 레이트를 목표로 할 수 있었습니다.

보다 정교한 MP3 인코더는 가변 비트레이트 오디오를 생성할 수 있습니다. MPEG 오디오는 프레임 단위로 비트레이트 스위칭을 사용할 수 있지만 계층 III 디코더만이 이를 지원해야 합니다.[65][90][91][92] VBR은 고정된 수준의 품질을 달성하는 것이 목표일 때 사용됩니다. VBR 인코딩의 최종 파일 크기는 일정한 비트레이트보다 예측 가능성이 낮습니다. 평균 비트레이트는 둘 사이의 절충안으로 구현된 VBR의 한 종류입니다. 비트레이트는 보다 일관된 품질을 위해 변경될 수 있지만, 예측 가능한 파일 크기를 위해 사용자가 선택한 평균 값에 가깝게 유지되도록 제어됩니다. MP3 디코더가 표준 준수를 위해 VBR을 지원해야 하지만, 역사적으로 일부 디코더는 특히 VBR 인코더가 널리 보급되기 전에 VBR 디코딩에 대한 버그가 있습니다. 가장 진화된 LAM MP3 인코더는 VBR, ABR 및 더 오래된 CBR MP3 형식의 생성을 지원합니다.

계층 III 오디오는 또한 "비트 저장소"를 사용할 수 있는데, 이는 부분적으로 완전한 프레임이 다음 프레임의 오디오 데이터의 일부를 보유할 수 있기 때문에 일정한 비트레이트 스트림에서도 유효 비트레이트의 일시적인 변경을 허용합니다.[65][90] 비트 저장소의 내부 처리는 인코딩 지연을 증가시킵니다.[citation needed]16kHz 이상의 주파수에는 스케일 팩터 밴드 21(sfb21)이 없으므로, 인코더는 밴드 21에서의 덜 정확한 표현 또는 밴드 21 미만의 모든 밴드에서의 덜 효율적인 저장 중 하나를 선택해야 하며, 후자는 VBR 인코딩에서 낭비되는 비트레이트를 초래합니다.[93]

부대자료

보조 데이터 필드를 사용하여 사용자 정의 데이터를 저장할 수 있습니다. 보조 데이터는 선택 사항이며 사용 가능한 비트 수는 명시적으로 제공되지 않습니다. 보조 데이터는 Huffman 코드 비트 뒤에 위치하며 다음 프레임의 main_data_begin이 가리키는 위치 범위입니다. 인코더 mp3PRO는 보조 데이터를 사용하여 알고리즘으로 디코딩할 때 오디오 품질을 향상시킬 수 있는 추가 정보를 인코딩했습니다.

메타데이터

오디오 파일의 "태그"는 제목, 아티스트, 앨범, 트랙 번호 또는 파일 내용에 대한 기타 정보와 같은 메타데이터를 포함하는 파일의 섹션입니다. MP3 표준은 MP3 파일에 대한 태그 형식을 정의하지 않으며 메타데이터를 지원하고 태그의 필요성을 제거하는 표준 컨테이너 형식도 없습니다. 그러나 태그 형식에 대한 몇 가지 사실상의 표준이 존재합니다. 2010년 기준으로 가장 널리 보급된 것은 ID3v1과 ID3v2이며, 보다 최근에 도입된 APEv2입니다. 이러한 태그는 일반적으로 MP3 파일의 시작 또는 끝에 내장되며, 실제 MP3 프레임 데이터와는 별도입니다. MP3 디코더는 태그에서 정보를 추출하거나 무시할 수 없는 MP3가 아닌 정크 데이터로 취급합니다.

재생 및 편집 소프트웨어에는 태그 편집 기능이 포함되어 있는 경우가 많지만 목적에 맞게 전용된 태그 편집기 애플리케이션도 있습니다. 오디오 콘텐츠에 대한 메타데이터 외에도 DRM에 태그를 사용할 수도 있습니다.[94] ReplayGain은 MP3 파일의 크기(오디오 정규화)를 측정하고 메타데이터 태그에 저장하기 위한 표준으로 ReplayGain 호환 플레이어가 각 파일의 전체 재생 볼륨을 자동으로 조정할 수 있습니다. MP3Gain은 ReplayGain 기능 없이 플레이어에서 조정된 재생이 가능하도록 ReplayGain 측정을 기반으로 파일을 가역적으로 수정하는 데 사용될 수 있습니다.

라이센스, 소유권 및 법률

기본 MP3 디코딩 및 인코딩 기술은 유럽 연합에서 특허가 없으며 늦어도 2012년까지 모든 특허가 만료되었습니다. 미국에서는 2017년 4월 16일에 이 기술이 실질적으로 특허를 받지 못하게 되었습니다(아래 참조). MP3 특허는 2007년에서 2017년 사이에 미국에서 만료되었습니다. 과거 많은 단체들이 MP3 디코딩이나 인코딩과 관련된 특허의 소유권을 주장해왔습니다. 이러한 주장은 다양한 출처에서 몇 가지 법적 위협과 조치로 이어졌습니다. 그 결과 소프트웨어 특허를 허용하는 국가에서는 특허 침해를 저지르지 않고 MP3 제품을 만들기 위해 어떤 특허를 허가받아야 하는지에 대한 불확실성이 기술 도입 초기에 일반적이었습니다.

최초의 거의 완전한 MPEG-1 표준(1, 2, 3부)은 1991년 12월 6일 ISO CD 11172로 공개되었습니다.[95][96] 대부분의 국가에서는 선행기술이 공개된 후에는 특허를 출원할 수 없으며, 특허는 최초 출원일로부터 20년이 지나면 만료되는데, 이는 다른 국가의 출원의 경우 최대 12개월 후가 될 수 있습니다. 그 결과 대부분의 국가에서 MP3 구현에 필요한 특허는 ISO CD 11172가 발행된 지 21년이 지난 2012년 12월까지 만료되었습니다.

예외적으로 시행 중이지만 1995년 6월 8일 이전에 출원된 특허는 발행일로부터 17년 후 또는 우선권일로부터 20년 후에 만료되는 미국입니다. 특허 기소 절차가 길면 통상 예상보다 훨씬 늦게 특허가 발행될 수 있습니다(잠수함 특허 참조). 다양한 MP3 관련 특허는 미국에서 2007년부터 2017년까지의 날짜로 만료되었습니다.[97] ISO CD 11172에 공개된 모든 것에 대한 특허는 공개 후 1년 또는 그 이상이 지난 후에 제출된 것에 대해 의문입니다. 만약 1992년 12월까지 출원된 알려진 MP3 특허만을 고려한다면, MP3 디코딩은 1992년 10월 PCT 출원을 한 미국 특허 5,812,672가 만료된 2015년 9월 22일부터 미국에서 특허가 없었습니다.[98][99][100] 상기 언급된 문헌에서 언급된 가장 오래 지속된 특허를 조치로 취한다면, MP3 기술은 2017년 4월 16일 테크니컬러가 보유[101] 및 관리하는 미국 특허 6,009,399가 [102]만료되면서 미국에서 특허가 없