매트릭스 요인화(권장 시스템)
Matrix factorization (recommender systems)추천자 시스템 |
---|
개념 |
방법 및 과제 |
구현 |
리서치 |
매트릭스 인자화는 추천자 시스템에서 사용되는 협업 필터링 알고리즘의 한 종류다.매트릭스 인자화 알고리즘은 사용자-항목 상호작용 매트릭스를 두 개의 낮은 치수 직사각형 매트릭스의 곱으로 분해하여 작동한다.[1]이러한 방법의 집단은 넷플릭스 경품 도전 기간 동안 널리 알려지게 되었는데,[2] 사이먼 펑크가 2006년 블로그 게시물에서 보고한 바와 같이, 그의 연구 결과를 연구계와 공유하였다.예측 결과는 아이템의 인기와 사용자의 능동성을 바탕으로 잠복 요인에 서로 다른 정규화 가중치를 부여함으로써 개선될 수 있다.[3]null
기술
매트릭스 인자화의 이면에 있는 아이디어는 사용자와 항목을 더 낮은 차원의 잠재공간으로 표현하는 것이다.2006년 Funk의 초기 작업 이후 추천자 시스템에 대해 다수의 매트릭스 인자화 접근법이 제안되어 왔다.가장 많이 사용되고 간단한 것 중 일부는 다음 절에 열거되어 있다.null
펑크 MF
사이먼 펑크가 자신의 블로그 포스트에서 제안한 원래의 알고리즘은 사용자-항목 등급 매트릭스를 2개의 낮은 차원 매트릭스의 제품으로, 첫 번째 매트릭스는 사용자마다 행이 있고, 두 번째 매트릭스는 각 항목마다 열이 있다.특정 사용자나 항목과 관련된 행이나 열을 잠재 요인이라고 한다.[4]Funk MF에서는 단수 값 분해가 적용되지 않으며 SVD와 같은 기계 학습 모델이라는 점에 유의하십시오.[2]예측 등급은 ~= 로 계산할 수 있다., where is the user-item rating matrix, contains the user's latent factors and s 항목의 잠재 요인.null
구체적으로, 사용자가 i 항목에 부여할 예측 등급은 다음과 같이 계산된다.
잠재 인자의 수를 변경함으로써 모델의 표현력을 조절할 수 있다.하나의 잠재적 요인을 갖는 매트릭스 인자화가 가장 인기 있거나 가장 인기 있는 추천자와 동등하다는 것이 입증되었다(예: 개인화 없이 가장 상호작용이 많은 항목을 추천함).잠재 요인의 수를 증가시키면 개인화가 개선되고 따라서 권장 품질은 요인의 수가 너무 많아질 때까지, 모델이 과잉 적합되기 시작하고 권장 품질이 감소한다.오버핏을 피하기 위한 일반적인 전략은 객관적 기능에 정규화 용어를 추가하는 것이다.[6][7]펑크 MF는 등급 예측 문제로 개발되었기 때문에 사용자와 항목의 상호 작용으로 명시적인 수치 등급을 사용한다.null
모든 것을 고려해 볼 때 Funk MF는 다음과 같은 객관적 기능을 최소화한다.
여기서 . \은(는) 프로베니우스 표준으로 정의되며, 다른 규범은 특정 권장 문제에 따라 프로베니우스 또는 다른 표준으로 정의될 수 있다.[8]null
SVD++
펑크 MF는 매우 좋은 권고 품질을 제공할 수 있지만, 사용자와 항목의 상호 작용으로 명시적인 수치 등급만 사용할 수 있는 능력은 한계를 이룬다.현대의 추천자 시스템은 명시적(예: 수치 등급)과 암묵적(예: like, purchase, 생략, 책갈피 지정)의 모든 사용 가능한 상호작용을 이용해야 한다.이러한 목적을 위해 SVD++는 암묵적 상호작용도 고려하도록 설계되었다.[9][10]펑크 MF에 비해 SVD++는 사용자와 아이템 편향도 고려한다.null
사용자가 i 항목에 부여할 예측 등급은 다음과 같이 계산된다.
그러나 SVD++에는 일부 단점이 있는데, 주된 단점은 이 방법이 모델 기반이 아니라는 것이다.즉, 새로운 사용자가 추가되면 알고리즘은 전체 모델을 재교육하지 않는 한 그것을 모델링할 수 없다.시스템이 새로운 사용자를 위해 약간의 상호작용을 수집했더라도, 시스템의 잠재적 요인은 사용할 수 없으므로 권고사항을 계산할 수 없다.이는 콜드 스타트 문제의 한 예로서, 추천자가 신규 사용자나 아이템을 효율적으로 다룰 수 없고 이러한 단점을 다루기 위해 구체적인 전략을 세워야 한다는 것이다.[11]null
이 콜드 스타트 문제를 해결하는 가능한 방법은 SVD++를 모델 기반 알고리즘으로 수정하여 새로운 아이템과 새로운 사용자를 쉽게 관리할 수 있게 하는 것이다.null
앞서 SVD++에서 언급했듯이 우리는 신규 이용자의 잠재적 요인을 가지고 있지 않기 때문에 이들을 다른 방식으로 표현할 필요가 있다.사용자의 잠재 요인은 해당 항목의 잠재 요인에 대한 사용자의 선호도를 나타내며, 따라서 사용자의 잠재 요인은 과거 사용자 상호작용을 통해 추정할 수 있다.시스템이 새로운 사용자를 위해 약간의 상호작용을 수집할 수 있는 경우, 잠재적 요인을 추정할 수 있다.추천자는 여전히 새로운 사용자를 위해 일부 신뢰할 수 있는 상호작용을 요구하지만 적어도 매번 전체 모델을 재평가할 필요는 없기 때문에 이것이 콜드 스타트 문제를 완전히 해결하지는 않는다는 점에 유의하십시오.이 제형은 아이템-아이템 [12]기반 추천사인 SLIM 모델과 거의 맞먹는다는 것이 입증됐다.null
이 공식에서 등가 품목 추천자는 ~= = R T 가 될 것이다. 그러므로 유사성 행렬은 대칭이다.null
비대칭 SVD
비대칭 SVD는 모델 기반 알고리즘인 동시에 SVD++의 장점을 결합하는 것을 목표로 하므로 전체 모델을 재교육할 필요 없이 몇 개의 등급으로 신규 사용자를 고려할 수 있다.여기서 모델 기반 SVD와는 반대로 사용자 잠재 인자 매트릭스 H는 Q로 대체되며, 이 매트릭스는 사용자의 선호도를 등급의 함수로서 학습한다.[13]null
사용자가 i 항목에 부여할 예측 등급은 다음과 같이 계산된다.
이 공식에서 등가 품목 추천자는 R~= = R T 될 것이다. 행렬 Q와 W가 다르기 때문에 유사성 행렬이 비대칭이므로 모델명이 된다.null
그룹별 SVD
그룹 고유 SVD는 많은 시나리오에서 냉간 시동 문제에 효과적인 접근법이 될 수 있다.[6]종속성 정보와 특징의 유사성에 근거하여 사용자와 항목을 구성한다.그런 다음 새로운 사용자나 항목이 도착하면 그룹 레이블을 그룹 레이블에 할당할 수 있으며 그룹 효과(해당 그룹의 그룹 효과)에 의해 그룹 레이블의 잠재 요인에 근사치를 구할 수 있다.따라서 새로운 사용자나 항목과 관련된 등급을 반드시 사용할 수 있는 것은 아니지만, 그룹 효과는 즉각적이고 효과적인 예측을 제공한다.null
사용자가 i 항목에 부여할 예측 등급은 다음과 같이 계산된다.
여기서 와 j 는 각각 user u와 항목 i의 그룹 레이블을 나타내며, 이는 동일한 그룹의 구성원 간에 동일하다.그리고 과 은 그룹 효과의 행렬이다.예를 들어 잠재 인자 w 을(를) 사용할 수 없는 신규 사용자 u n w H_{new의 그룹 레이블 n 을(를) 식별하고 다음과 같이 등급을 예측할 수 있다.
이것은 관찰되지 않은 등급에 대한 좋은 근사치를 제공한다.null
하이브리드 MF
최근 몇 년 동안, 이용 가능한 상호작용 데이터와 사용 사례의 양과 다양성을 이용하기 위해 많은 다른 매트릭스 인자화 모델이 개발되었다.하이브리드 매트릭스 인자화 알고리즘은 명시적 상호작용과 암묵적 상호 작용 또는 콘텐츠 및 협업 데이터 모두를 통합할 수 있음
딥러닝 MF
최근 몇 년 동안 많은 신경 및 심층 학습 기법이 제안되었고, 그 중 일부는 비선형 신경 구조를 통해 전통적인 매트릭스 인자화 알고리즘을 일반화한다.[18]딥러닝이 상황 인식, 시퀀스 인식, 소셜 태깅 등 많은 다양한 시나리오에 적용되어 왔다.단순한 협업 필터링 시나리오에서 사용될 때 실질적인 효과성에 의문이 제기되었다.상위권 컨퍼런스(SIGIR, KDD, WWW, RecSys, IJCAI)에 게재된 톱k 추천 문제에 딥러닝이나 신경학적 방법을 적용한 출판물을 체계적으로 분석한 결과, 평균 40% 미만의 기사가 재생산 가능하며, 일부 컨퍼런스에서는 14%에 불과한 것으로 나타났다.전체 연구는 26개의 기사를 확인하며, 그 중 12개 기사만 재현할 수 있고, 11개 기사는 훨씬 더 오래되고 단순하게 조정된 기준선에 의해 능가될 수 있다.그 기사들은 또한 오늘날의 연구 장학금에서 발생할 수 있는 많은 잠재적인 문제들을 강조하고 그 분야의 과학 관행 개선을 촉구하고 있다.[19] [20]유사한 문제가 시퀀스 인식 추천자 시스템에서도 발견되었다.[21]null
참고 항목
참조
- ^ Koren, Yehuda; Bell, Robert; Volinsky, Chris (August 2009). "Matrix Factorization Techniques for Recommender Systems". Computer. 42 (8): 30–37. CiteSeerX 10.1.1.147.8295. doi:10.1109/MC.2009.263. S2CID 58370896.
- ^ a b c Funk, Simon. "Netflix Update: Try This at Home".
- ^ ChenHung-Hsuan; ChenPu (2019-01-09). "Differentiating Regularization Weights -- A Simple Mechanism to Alleviate Cold Start in Recommender Systems". ACM Transactions on Knowledge Discovery from Data (TKDD). 13: 1–22. doi:10.1145/3285954. S2CID 59337456.
- ^ Agarwal, Deepak; Chen, Bee-Chung (28 June 2009). "Regression-based latent factor models". Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining - KDD '09. ACM. pp. 19–28. doi:10.1145/1557019.1557029. ISBN 9781605584959. S2CID 17484284.
- ^ Jannach, Dietmar; Lerche, Lukas; Gedikli, Fatih; Bonnin, Geoffray (2013). What Recommenders Recommend – An Analysis of Accuracy, Popularity, and Sales Diversity Effects. User Modeling, Adaptation, and Personalization. Lecture Notes in Computer Science. Vol. 7899. Springer Berlin Heidelberg. pp. 25–37. CiteSeerX 10.1.1.465.96. doi:10.1007/978-3-642-38844-6_3. ISBN 978-3-642-38843-9.
- ^ a b Bi, Xuan; Qu, Annie; Wang, Junhui; Shen, Xiaotong (2017). "A group-specific recommender system". Journal of the American Statistical Association. 112 (519): 1344–1353. doi:10.1080/01621459.2016.1219261. S2CID 125187672.
- ^ Zhu, Yunzhang; Shen, Xiaotong; Ye, Changqing (2016). "Personalized prediction and sparsity pursuit in latent factor models". Journal of the American Statistical Association. 111 (513): 241–252. doi:10.1080/01621459.2016.1219261. S2CID 125187672.
- ^ Paterek, Arkadiusz (2007). "Improving regularized singular value decomposition for collaborative filtering" (PDF). Proceedings of KDD Cup and Workshop.
- ^ Cao, Jian; Hu, Hengkui; Luo, Tianyan; Wang, Jia; Huang, May; Wang, Karl; Wu, Zhonghai; Zhang, Xing (2015). Distributed Design and Implementation of SVD++ Algorithm for E-commerce Personalized Recommender System. Communications in Computer and Information Science. Vol. 572. Springer Singapore. pp. 30–44. doi:10.1007/978-981-10-0421-6_4. ISBN 978-981-10-0420-9.
- ^ Jia, Yancheng (September 2014). "Users' brands preference based on SVD++ in recommender systems". 2014 IEEE Workshop on Advanced Research and Technology in Industry Applications (WARTIA). IEEE. pp. 1175–1178. doi:10.1109/wartia.2014.6976489. ISBN 978-1-4799-6989-0. S2CID 742206.
{{cite book}}
:누락 또는 비어 있음title=
(도움말) - ^ Kluver, Daniel; Konstan, Joseph A. (6 October 2014). "Evaluating recommender behavior for new users". Proceedings of the 8th ACM Conference on Recommender systems - Rec Sys '14. ACM. pp. 121–128. doi:10.1145/2645710.2645742. ISBN 9781450326681. S2CID 18509558.
- ^ Zheng, Yong; Mobasher, Bamshad; Burke, Robin (6 October 2014). "CSLIM". CSLIM: contextual SLIM recommendation algorithms. ACM. pp. 301–304. doi:10.1145/2645710.2645756. ISBN 9781450326681. S2CID 15931532.
- ^ Pu, Li; Faltings, Boi (12 October 2013). "Understanding and improving relational matrix factorization in recommender systems". Proceedings of the 7th ACM conference on Recommender systems - Rec Sys '13. ACM. pp. 41–48. doi:10.1145/2507157.2507178. ISBN 9781450324090. S2CID 14106198.
- ^ Zhao, Changwei; Sun, Suhuan; Han, Linqian; Peng, Qinke (2016). "Hybrid Matrix Factorization for Recommender Systems in Social Networks". Neural Network World. 26 (6): 559–569. doi:10.14311/NNW.2016.26.032.
- ^ Zhou, Tinghui; Shan, Hanhuai; Banerjee, Arindam; Sapiro, Guillermo (26 April 2012). Kernelized Probabilistic Matrix Factorization: Exploiting Graphs and Side Information. Proceedings of the 2012 SIAM International Conference on Data Mining. Society for Industrial and Applied Mathematics. pp. 403–414. doi:10.1137/1.9781611972825.35. ISBN 978-1-61197-232-0.
- ^ Adams, Ryan Prescott; Dahl, George E.; Murray, Iain (25 March 2010). "Incorporating Side Information in Probabilistic Matrix Factorization with Gaussian Processes 1003.4944". arXiv:1003.4944 [stat.ML].
- ^ Fang, Yi; Si, Luo (27 October 2011). "Matrix co-factorization for recommendation with rich side information and implicit feedback". Proceedings of the 2nd International Workshop on Information Heterogeneity and Fusion in Recommender Systems - Het Rec '11. ACM. pp. 65–69. doi:10.1145/2039320.2039330. ISBN 9781450310277. S2CID 13850687.
- ^ He, Xiangnan; Liao, Lizi; Zhang, Hanwang; Nie, Liqiang; Hu, Xia; Chua, Tat-Seng (2017). "Neural Collaborative Filtering". Proceedings of the 26th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee: 173–182. arXiv:1708.05031. doi:10.1145/3038912.3052569. ISBN 9781450349130. S2CID 13907106. Retrieved 16 October 2019.
- ^ Rendle, Steffen; Krichene, Walid; Zhang, Li; Anderson, John (22 September 2020). "Neural Collaborative Filtering vs. Matrix Factorization Revisited". Fourteenth ACM Conference on Recommender Systems: 240–248. arXiv:2005.09683. doi:10.1145/3383313.3412488. ISBN 9781450375832.
- ^ Dacrema; Ferrari (2021). "A Troubling Analysis of Reproducibility and Progress in Recommender Systems Research". ACM Transactions on Information Systems. 39 (2): 39.2. arXiv:1911.07698. doi:10.1145/3434185. S2CID 208138060.
- ^ Ludewig, Malte; Mauro, Noemi; Latifi, Sara; Jannach, Dietmar (2019). "Performance Comparison of Neural and Non-neural Approaches to Session-based Recommendation". Proceedings of the 13th ACM Conference on Recommender Systems. ACM: 462–466. doi:10.1145/3298689.3347041. ISBN 9781450362436. Retrieved 16 October 2019.