데이터 감소
Data reduction데이터 감소는 경험적으로 또는 실험적으로 도출된 수치적 또는 알파벳적 디지털 정보를 수정, 순서화 및 단순화된 형태로 변환하는 것이다. 데이터 감소의 목적은 두 가지가 될 수 있다: 잘못된 데이터를 제거하여 데이터 기록의 수를 줄이거나 다양한 애플리케이션에 대해 서로 다른 집계 수준에서 요약 데이터와 통계를 생성한다.[1]
정보가 계기 판독에서 파생되는 경우 아날로그에서 디지털 형식으로의 변환도 있을 수 있다. 데이터가 이미 디지털 형식인 경우, 데이터의 '축소'는 일반적으로 일부 편집, 스케일링, 인코딩, 정렬, 정렬, 정렬 및 표 요약 생성을 포함한다. 관측치가 불연속적이지만 기저 현상이 연속적인 경우 평활화 및 보간이 필요한 경우가 많다. 데이터 감소는 종종 읽기 또는 측정 오류가 있는 상태에서 수행된다. 가장 가능성이 높은 값을 결정하기 전에 이러한 오류의 성격에 대한 아이디어가 필요하다.
천문학의 한 예는 케플러 위성의 데이터 감소다. 이 위성은 6초마다 한 번씩 95메가픽셀 영상을 기록, 초당 수십 메가바이트의 데이터를 생성하는데, 이는 다운링크 대역폭인 550KBps보다 더 큰 규모다. 온보드 데이터 감소는 30분 동안 원시 프레임을 공동 추가하는 것을 포함하며 대역폭을 300배 감소시킨다. 나아가 흥미로운 대상을 미리 선정해 관련 픽셀만 처리하는데, 이는 전체의 6%에 해당한다. 그리고 나서 이 감소된 데이터는 더 많이 처리되는 지구로 보내진다.
건강 모니터링 및 진단 애플리케이션용 웨어러블(무선) 장치의 데이터 감소 활용에 대한 연구도 진행 중이다. 예를 들어 간질 진단과 관련하여 데이터 감소를 통해 진단과 관련된 EEG 데이터를 선택하고 전송만 하여 웨어러블 EEG 기기의 배터리 수명을 증가시키고 배경 활동을 폐기하였다.[2]
데이터 감소 유형
차원성 감소
차원성이 증가하면 데이터는 점점 더 희박해지는 반면, 군집화 및 특이치 분석에 중요한 점 사이의 밀도와 거리는 덜 의미 있게 된다. 치수 감소를 통해 데이터의 잡음을 줄일 수 있으며, 3차원 데이터를 2차원으로 변환하여 숨겨진 부분을 보여주는 아래 예와 같이 시각화가 용이하다. 차원성 감소의 한 가지 방법은 파장 변환인데, 이 변환은 서로 다른 분해능 수준에서 개체 사이의 상대적 거리를 보존하기 위해 데이터를 변환하며, 종종 이미지 압축에 사용된다.[3]
수적 감소
이 데이터 감소 방법은 대체적으로 작은 형태의 데이터 표현을 선택하여 데이터 볼륨을 감소시킨다. 수적 감소는 모수적 방법과 비모수적 방법의 두 그룹으로 나눌 수 있다. 모수 방법(예: 회귀)은 데이터가 일부 모형을 적합한다고 가정하고, 모형 모수를 추정하며, 모수만 저장하고, 데이터를 폐기한다. 이것의 한 예는 보다 구체적인 기준에 따라 처리할 데이터의 양이 감소되는 아래 이미지에 있다. 또 다른 예로는 로그-선형 모델을 들 수 있으며, m-D 공간의 한 지점에서 적절한 한계 서브스페이스의 제품으로서 값을 얻을 수 있다. 비모수 방법은 모형을 가정하지 않는다. 일부 예로는 히스토그램, 군집화, 샘플링 등이 있다.[4]
통계 모델링
데이터 감소는 데이터에 대한 통계적 모델을 가정하여 얻을 수 있다. 전통적인 데이터 감소 원칙에는 충분성, 가능성, 조건성 및 형평성이 포함된다.[5]
모범 사례
이것들은 데이터 감소에 사용되는 일반적인 기법이다.
- 크기 측면에 따라 주문하십시오.
- 표 대각화 - 표의 행과 열을 다시 배열하여 패턴을 더 쉽게 볼 수 있도록 한다(도표 참조).
- 유효 자릿수를 1자리 또는 최대 2자리까지 크게 반올림한다(유효한 자릿수는 데이터의 해당 부분에서 변화하는 자릿수임).
- 요약뿐만 아니라 시각적 초점을 제공하려면 평균을 사용하십시오.
- 레이아웃과 라벨링을 사용하여 눈을 인도한다.
- 그림 및 선과 같은 차트 정크를 제거하십시오.
- 간단히 구두로 요약해라.[6]
참고 항목
참조
- ^ "Travel Time Data Collection Handbook" (PDF). Retrieved 6 December 2020.
- ^ Iranmanesh, S.; Rodriguez-Villegas, E. (2017). "A 950 nW Analog-Based Data Reduction Chip for Wearable EEG Systems in Epilepsy". IEEE Journal of Solid-State Circuits. 52 (9): 2362–2373. doi:10.1109/JSSC.2017.2720636. hdl:10044/1/48764.
- ^ Han, J.; Kamber, M.; Pei, J. (2011). "Data Mining: Concepts and Techniques (3rd ed.)" (PDF). Retrieved 6 December 2020.
- ^ Han, J.; Kamber, M.; Pei, J. (2011). "Data Mining: Concepts and Techniques (3rd ed.)" (PDF). Retrieved 6 December 2020.
- ^ Casella, George (2002). Statistical inference. Roger L. Berger. Australia: Thomson Learning. pp. 271–309. ISBN 0-534-24312-6. OCLC 46538638.
- ^ http://business.nmsu.edu/~mhyman/M610_Articles/Ehrenberg_Marketing_2001.pdf 데이터, 그러나 정보 없음: 프레젠테이션은 정말 모든 것이다. 또는 그것에 가깝다. by Andrew Ehrenberg
추가 읽기
- Ehrenberg, Andrew S. C. (1982). A Primer in Data Reduction: An Introductory Statistics Textbook. New York: Wiley. ISBN 0-471-10134-6.