부분 최소 제곱법

Partial least squares regression

부분 최소제곱법(PLS 회귀 분석)은 주성분 회귀 분석과 어느 정도 관련이 있는 통계적 방법으로 반응 변수와 독립 변수 간에 최대 분산의 하이퍼플레인찾는 대신 예측 변수와 관측 가능한 변수를 새 공간에 투영하여 선형 회귀 모형을 찾는다.XY 데이터는 모두 새로운 공간에 투영되기 때문에 PLS 방법군은 이선 인자 모델로 알려져 있다. 부분 최소 제곱 판별 분석(PLS-DA)은 Y가 범주형일 때 사용되는 변종이다.

PLS는 두 행렬(X와 Y), 즉 이 두 공간의 공분산 구조를 모델링하는 잠재적 변수 접근법 사이의 근본적인 관계를 찾기 위해 사용된다. PLS 모델은 Y 공간의 최대 다차원 분산 방향을 설명하는 X 공간에서 다차원 방향을 찾으려고 시도한다. PLS 회귀 분석은 예측 변수의 행렬이 관측치보다 변수가 많을 와 X 값 사이에 다중 공선성이 있을 때 특히 적합하다. 이와는 대조적으로, 표준 회귀는 (정규화되지 않는 한) 이러한 경우 실패할 것이다.

부분 최소 제곱은 스웨덴의 통계학자 Herman O. A. Wold에 의해 소개되었고, Herman O. A. Wold는 그 후 그의 아들 Svante Wold와 함께 그것을 개발했다. PLS의 대체 용어(그리고 스반테 월드에[1] 따라 더 정확함)는 잠재 구조물투영되지만, 부분 최소 제곱이라는 용어는 여전히 많은 영역에서 우세하다. 비록 원래 적용이 사회과학에 있었지만, PLS 회귀는 오늘날 화학측정학과 관련 분야에서 가장 널리 사용되고 있다. 생물정보학, 감각학, 신경과학, 인류학에도 사용된다.

기본 모델

다변량 PLS의 일반적인 기본 모델은 다음과 같다.

where X is an matrix of predictors, Y is an matrix of responses; T and U are matrices that are, respectively, projections of X (the X score, component or factor matrix) and projections of Y (the Y scores); P and Q are, respectively, l 직교 하중 행렬, 행렬 EF는 오차항이며 독립적이고 동일한 분포의 랜덤 정규 변수라고 가정한다. XY의 분해는 TU 사이의 공분산을 최대화하기 위해 만들어진다.

알고리즘

인자 및 하중 행렬 T, U, P, Q를 추정하기 위해 다양한 PLS 변형이 존재한다. 이들 대부분X와 Y 사이의 선형 회귀에 대한 Y = ~ + B ~으로 구성하며 X 일부 PLS 알고리즘은 Y가 컬럼 벡터인 경우에만 적합하며, 다른 PLS 알고리즘은 행렬 Y의 일반적인 경우를 다룬다 알고리즘은 또한 요인 행렬 T를 직교(즉, 직교) 행렬로 추정하는지 여부에 따라 다르다.[2][3][4][5][6][7] 최종 예측은 이 모든 종류의 PLS에 대해 동일할 것이지만 구성 요소는 다를 것이다.

PLS1

PLS1은 벡터 Y 케이스에 적합한 널리 사용되는 알고리즘이다. 그것은 T를 정관행렬로 추정한다. 유사 코드에서 아래에 표시된다(자본 문자는 행렬, 소문자는 위첨자일 경우 벡터, 첨자일 경우 스칼라).

 1 function PLS1(X, y, l)  2       3     , an initial estimate of w.  4     for  to   5           6          (note this is a scalar)  7           8           9          (note this is a scalar) 10         if  11             만약 k < K}, 루프 12;(나는 − 1){\displaystyle k<,(l-1)}는 13X(← X에게− tk(k)(k)p(k)T{\displaystyle X^{(k+1)}\gets X^{(k)}-t_{k}t^{(k)}{p^{(k)}}^{\mathrm{T}}}14w(← X(k+1)T는 y{\displaystyle w^{( 깨다k+1)} 15     end for 16     define W to be the matrix with columns .        Do the same to form the P matrix and q vector. 17      18  0 0 - ( )  {\}}}}}}^{\ { 19  B B 

알고리즘의 이 형태는 알고리즘에 의해 암묵적으로 수행되기 때문에 입력 X와 Y의 중심이 필요하지 않다. This algorithm features 'deflation' of the matrix X (subtraction of ), but deflation of the vector y is not performed, as it is not necessary (it can be proved that deflating y yields the same results as not deflating[8]). 사용자가 제공한 변수 l은 회귀 분석의 잠재적 요인 수에 대한 한계로, 행렬 X의 순위와 같을 경우 알고리즘은 와 B 0에 대한 최소 제곱 회귀 추정치0}를 산출한다.

확장

2002년에 잠재 구조물에 대한 직교 투영이라고 불리는 새로운 방법이 발표되었다. OPLS에서 연속 변수 데이터는 예측 정보와 상관관계가 없는 정보로 구분된다. 이는 진단이 개선될 뿐만 아니라 시각화를 보다 쉽게 해석할 수 있게 한다. 그러나 이러한 변경은 PLS 모델의 예측성이 아니라 해석 가능성만 개선한다.[9] 마찬가지로, 분류 및 바이오마커 연구와 같이 이산형 변수를 사용할 때도 OPLS-DA(차별적 분석)를 적용할 수 있다.

L자형 행렬에 대해 L-PLS라고 명명된 PLS 회귀 분석의 또 다른 확장은 예측 가능성을 개선하기 위해 3개의 관련 데이터 블록을 연결한다.[10] 간단히 말해서 X 행렬과 같은 양의 열을 갖는 새로운 Z 행렬이 PLS 회귀 분석에 추가되며 예측 변수의 상호의존성에 대한 추가 배경 정보를 포함하기에 적합할 수 있다.

2015년 부분 최소 제곱은 3-통과 회귀 필터(3PRF)라는 절차와 관련이 있었다.[11] 관측치와 변수의 수가 크다고 가정할 때, 3PRF(그리고 따라서 PLS)는 선형 잠재 인자 모델에 의해 암시되는 "최상의" 예측에 대해 점증적으로 정규적이다. 증시 데이터에서 PLS는 수익률과 현금흐름 증가율의 정확한 표본이 아닌 예측을 제공하는 것으로 나타났다.[12]

단수 분해(SVD)에 기반한 PLS 버전은 소비자 등급 하드웨어에서 영상 유전학의 수천 개의 영상 기능에 수백만 개의 유전자 표지를 연결하는 것과 같은 고차원적인 문제를 해결하는 데 사용할 수 있는 메모리 효율적인 구현을 제공한다.[13]

PLS 상관관계(PLS connectoration, PLS connectivity, PLS connectoration, PLS connectivity)는 PLS 회귀와 관련된 또 다른 방법론으로서,[14][17] 데이터 집합 간의 관계의 강도를 계량화하기 위해 신경 영상화에 사용되어 왔다. 일반적으로 PLSC는 데이터를 하나 이상의 변수를 포함하는 두 블록(하위 그룹)으로 나눈 다음, 단수분해(SVD)를 사용하여 두 요소 하위 그룹 사이에 존재할 수 있는 모든 관계(즉, 공유 정보의 양)의 강도를 설정한다.[18] 이는 SVD를 사용하여 고려 중인 하위 그룹의 공분산 행렬의 관성(즉, 단수 값의 합)을 결정함으로써 이루어진다.[18][14]

참고 항목

추가 읽기

  • Kramer, R. (1998). Chemometric Techniques for Quantitative Analysis. Marcel-Dekker. ISBN 978-0-8247-0198-7.
  • Frank, Ildiko E.; Friedman, Jerome H. (1993). "A Statistical View of Some Chemometrics Regression Tools". Technometrics. 35 (2): 109–148. doi:10.1080/00401706.1993.10485033.
  • Haenlein, Michael; Kaplan, Andreas M. (2004). "A Beginner's Guide to Partial Least Squares Analysis". Understanding Statistics. 3 (4): 283–297. doi:10.1207/s15328031us0304_4.
  • Henseler, Joerg; Fassott, Georg (2005). "Testing Moderating Effects in PLS Path Models. An Illustration of Available Procedures". {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)
  • Lingjærde, Ole-Christian; Christophersen, Nils (2000). "Shrinkage Structure of Partial Least Squares". Scandinavian Journal of Statistics. 27 (3): 459–473. doi:10.1111/1467-9469.00201.
  • Tenenhaus, Michel (1998). La Régression PLS: Théorie et Pratique. Paris: Technip.
  • Rosipal, Roman; Kramer, Nicole (2006). "Overview and Recent Advances in Partial Least Squares, in Subspace, Latent Structure and Feature Selection Techniques": 34–51. {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)
  • Helland, Inge S. (1990). "PLS regression and statistical models". Scandinavian Journal of Statistics. 17 (2): 97–114. JSTOR 4616159.
  • Wold, Herman (1966). "Estimation of principal components and related models by iterative least squares". In Krishnaiaah, P.R. (ed.). Multivariate Analysis. New York: Academic Press. pp. 391–420.
  • Wold, Herman (1981). The fix-point approach to interdependent systems. Amsterdam: North Holland.
  • Wold, Herman (1985). "Partial least squares". In Kotz, Samuel; Johnson, Norman L. (eds.). Encyclopedia of statistical sciences. Vol. 6. New York: Wiley. pp. 581–591.
  • Wold, Svante; Ruhe, Axel; Wold, Herman; Dunn, W.J. (1984). "The collinearity problem in linear regression. the partial least squares (PLS) approach to generalized inverses". SIAM Journal on Scientific and Statistical Computing. 5 (3): 735–743. doi:10.1137/0905052.
  • Garthwaite, Paul H. (1994). "An Interpretation of Partial Least Squares". Journal of the American Statistical Association. 89 (425): 122–7. doi:10.1080/01621459.1994.10476452. JSTOR 2291207.
  • Wang, H., ed. (2010). Handbook of Partial Least Squares. ISBN 978-3-540-32825-4.
  • Stone, M.; Brooks, R.J. (1990). "Continuum Regression: Cross-Validated Sequentially Constructed Prediction embracing Ordinary Least Squares, Partial Least Squares and Principal Components Regression". Journal of the Royal Statistical Society, Series B. 52 (2): 237–269. JSTOR 2345437.

참조

  1. ^ Wold, S; Sjöström, M.; Eriksson, L. (2001). "PLS-regression: a basic tool of chemometrics". Chemometrics and Intelligent Laboratory Systems. 58 (2): 109–130. doi:10.1016/S0169-7439(01)00155-1.
  2. ^ Lindgren, F; Geladi, P; Wold, S (1993). "The kernel algorithm for PLS". J. Chemometrics. 7: 45–59. doi:10.1002/cem.1180070104. S2CID 122950427.
  3. ^ de Jong, S.; ter Braak, C.J.F. (1994). "Comments on the PLS kernel algorithm". J. Chemometrics. 8 (2): 169–174. doi:10.1002/cem.1180080208.
  4. ^ Dayal, B.S.; MacGregor, J.F. (1997). "Improved PLS algorithms". J. Chemometrics. 11 (1): 73–85. doi:10.1002/(SICI)1099-128X(199701)11:1<73::AID-CEM435>3.0.CO;2-#.
  5. ^ de Jong, S. (1993). "SIMPLS: an alternative approach to partial least squares regression". Chemometrics and Intelligent Laboratory Systems. 18 (3): 251–263. doi:10.1016/0169-7439(93)85002-X.
  6. ^ Rannar, S.; Lindgren, F.; Geladi, P.; Wold, S. (1994). "A PLS Kernel Algorithm for Data Sets with Many Variables and Fewer Objects. Part 1: Theory and Algorithm". J. Chemometrics. 8 (2): 111–125. doi:10.1002/cem.1180080204. S2CID 121613293.
  7. ^ Abdi, H. (2010). "Partial least squares regression and projection on latent structure regression (PLS-Regression)". Wiley Interdisciplinary Reviews: Computational Statistics. 2: 97–106. doi:10.1002/wics.51.
  8. ^ Höskuldsson, Agnar (1988). "PLS Regression Methods". Journal of Chemometrics. 2 (3): 219. doi:10.1002/cem.1180020306. S2CID 120052390.
  9. ^ Trygg, J; Wold, S (2002). "Orthogonal Projections to Latent Structures". Journal of Chemometrics. 16 (3): 119–128. doi:10.1002/cem.695. S2CID 122699039.
  10. ^ Sæbøa, S.; Almøya, T.; Flatbergb, A.; Aastveita, A.H.; Martens, H. (2008). "LPLS-regression: a method for prediction and classification under the influence of background information on predictor variables". Chemometrics and Intelligent Laboratory Systems. 91 (2): 121–132. doi:10.1016/j.chemolab.2007.10.006.
  11. ^ Kelly, Bryan; Pruitt, Seth (2015-06-01). "The three-pass regression filter: A new approach to forecasting using many predictors". Journal of Econometrics. High Dimensional Problems in Econometrics. 186 (2): 294–316. doi:10.1016/j.jeconom.2015.02.011.
  12. ^ Kelly, Bryan; Pruitt, Seth (2013-10-01). "Market Expectations in the Cross-Section of Present Values". The Journal of Finance. 68 (5): 1721–1756. CiteSeerX 10.1.1.498.5973. doi:10.1111/jofi.12060. ISSN 1540-6261.
  13. ^ Lorenzi, Marco; Altmann, Andre; Gutman, Boris; Wray, Selina; Arber, Charles; Hibar, Derrek P.; Jahanshad, Neda; Schott, Jonathan M.; Alexander, Daniel C. (2018-03-20). "Susceptibility of brain atrophy to TRIB3 in Alzheimer's disease, evidence from functional prioritization in imaging genetics". Proceedings of the National Academy of Sciences. 115 (12): 3162–3167. doi:10.1073/pnas.1706100115. ISSN 0027-8424. PMC 5866534. PMID 29511103.
  14. ^ a b c Krishnan, Anjali; Williams, Lynne J.; McIntosh, Anthony Randal; Abdi, Hervé (May 2011). "Partial Least Squares (PLS) methods for neuroimaging: A tutorial and review". NeuroImage. 56 (2): 455–475. doi:10.1016/j.neuroimage.2010.07.034. PMID 20656037. S2CID 8796113.
  15. ^ McIntosh, Anthony R.; Mišić, Bratislav (2013-01-03). "Multivariate Statistical Analyses for Neuroimaging Data". Annual Review of Psychology. 64 (1): 499–525. doi:10.1146/annurev-psych-113011-143804. ISSN 0066-4308. PMID 22804773.
  16. ^ Beggs, Clive B.; Magnano, Christopher; Belov, Pavel; Krawiecki, Jacqueline; Ramasamy, Deepa P.; Hagemeier, Jesper; Zivadinov, Robert (2016-05-02). de Castro, Fernando (ed.). "Internal Jugular Vein Cross-Sectional Area and Cerebrospinal Fluid Pulsatility in the Aqueduct of Sylvius: A Comparative Study between Healthy Subjects and Multiple Sclerosis Patients". PLOS ONE. 11 (5): e0153960. Bibcode:2016PLoSO..1153960B. doi:10.1371/journal.pone.0153960. ISSN 1932-6203. PMC 4852898. PMID 27135831.
  17. ^ Weaving, Dan; Jones, Ben; Ireton, Matt; Whitehead, Sarah; Till, Kevin; Beggs, Clive B. (2019-02-14). Connaboy, Chris (ed.). "Overcoming the problem of multicollinearity in sports performance data: A novel application of partial least squares correlation analysis". PLOS ONE. 14 (2): e0211776. Bibcode:2019PLoSO..1411776W. doi:10.1371/journal.pone.0211776. ISSN 1932-6203. PMC 6375576. PMID 30763328.
  18. ^ a b Abdi, Hervé; Williams, Lynne J. (2013), Reisfeld, Brad; Mayeno, Arthur N. (eds.), "Partial Least Squares Methods: Partial Least Squares Correlation and Partial Least Square Regression", Computational Toxicology, Humana Press, vol. 930, pp. 549–579, doi:10.1007/978-1-62703-059-5_23, ISBN 9781627030588, PMID 23086857

외부 링크