협업 필터링

이 이미지에서는 협업 필터링을 사용하여 사용자의 등급을 예측하는 예를 보여 줍니다.처음에 사람들은 다른 아이템(비디오, 이미지, 게임 등)을 평가합니다.그 후, 시스템은 사용자가 아직 평가하지 않은 항목에 대한 사용자의 평가를 예측합니다.이러한 예측은 활성 사용자와 유사한 등급을 가진 다른 사용자의 기존 등급을 기반으로 합니다.예를 들어, 이 경우 시스템은 액티브 유저가 비디오를 좋아하지 않을 것이라고 예측했습니다.

Collaborative Filtering(CF; 협업 필터링)은 추천 ^[1]시스템에서 사용되는 기술입니다.협업 필터링에는 좁은 의미와 일반적인 ^[2]의미의 두 가지 의미가 있습니다.

보다 새롭고 좁은 의미에서 협업 필터링은 많은 사용자로부터 선호도 또는 기호 정보를 수집함으로써 사용자의 관심사에 대한 자동 예측(필터링)을 하는 방법입니다.협업 필터링 접근법의 기본적인 가정은 개인 A가 어떤 문제에 대해 개인 B와 같은 의견을 가지고 있다면, A는 무작위로 선택된 개인보다 다른 문제에 대해 B의 의견을 가질 가능성이 더 높다는 것이다.예를 들어, 텔레비전 프로그램 선호에 대한 협업 필터링 추천 시스템은 사용자가 어떤 텔레비전 프로그램을 좋아할지 예측할 수 있다. 사용자의 취향(좋거나 ^[3]싫거나)의 일부 목록이 주어질 수 있다.이러한 예측은 사용자 고유의 것이지만 많은 사용자로부터 수집된 정보를 사용합니다.이는 각 관심 항목에 대해 예를 들어 투표 수에 따라 평균(비특정) 점수를 부여하는 단순한 접근법과는 다르다.

보다 일반적인 의미에서 협업 필터링은 여러 에이전트, 시점, 데이터 소스 ^[2]등의 협업 기술을 사용하여 정보 또는 패턴을 필터링하는 프로세스입니다.협업 필터링 적용에는 일반적으로 매우 큰 데이터 세트가 필요합니다.협업 필터링 방법은 광물 탐사, 광대한 지역 또는 여러 센서에 대한 환경 감지 및 모니터링 데이터, 많은 금융 소스를 통합하는 금융 서비스 기관과 같은 재무 데이터, 전자 상거래 및 웹 애플리케이션 등 다양한 종류의 데이터에 적용되어 왔습니다.사용자 데이터 등에 중점을 둔 경우이 설명의 나머지 부분에서는 사용자 데이터의 협업 필터링에 초점을 맞춥니다.단, 일부 방법과 접근 방식은 다른 주요 애플리케이션에도 적용될 수 있습니다.

개요

인터넷의 성장은 이용 가능한 모든 온라인 ^{[according to whom?]}정보에서 유용한 정보를 효과적으로 추출하는 것을 훨씬 더 어렵게 만들었다.방대한 양의 데이터로 인해 효율적인 정보 ^{[according to whom?]}필터링을 위한 메커니즘이 필요합니다.협업 필터링은 이 문제에 대처하기 위해 사용되는 기술 중 하나입니다.

협업 필터링의 동기는 사람들이 ^{[citation needed]}종종 자신과 비슷한 취향을 가진 사람으로부터 최고의 추천을 받는다는 생각에서 비롯됩니다.협업 필터링에는 유사한 관심사를 가진 사람을 매칭하고 이를 기반으로 권장하는 기술이 포함됩니다.

협업 필터링 알고리즘은 (1) 사용자의 적극적인 참여, (2) 사용자의 관심을 대변하는 쉬운 방법, (3) 유사한 관심사를 가진 사람과 일치시킬 수 있는 알고리즘을 필요로 하는 경우가 많다.

일반적으로 협업 필터링 시스템의 워크플로우는 다음과 같습니다.

사용자는 시스템의 항목(예: 책, 영화 또는 음악 녹음)을 평가하여 자신의 선호도를 표현합니다.이러한 등급은 해당 도메인에 대한 사용자의 관심도를 대략적으로 나타낸 것으로 볼 수 있습니다.
이 시스템은 이 사용자의 등급을 다른 사용자의 등급과 비교하여 가장 "비슷한" 취향을 가진 사람을 찾습니다.
유사한 사용자의 경우 시스템은 유사한 사용자가 높게 평가했지만 이 사용자에 의해 아직 평가되지 않은 항목을 권장합니다(평가가 없는 것은 종종 항목의 생소함으로 간주됩니다).

콜라보레이티브필터링의 중요한 문제는 사용자 네이버의 프리퍼런스를 조합하여 가중치를 설정하는 방법입니다.경우에 따라 사용자는 즉시 권장 항목을 평가할 수 있습니다.그 결과, 시스템은 시간이 지남에 따라 사용자 선호도의 정확한 표현을 얻을 수 있습니다.

방법론

추천 시스템에서의 협업 필터링

협업 필터링 시스템에는 여러 가지 형식이 있지만, 많은 공통 시스템은 다음 두 단계로 축소할 수 있습니다.

액티브 유저(예측 대상이 되는 유저)와 같은 평가 패턴을 공유하는 유저를 찾습니다.
스텝 1에서 찾은 같은 생각을 가진 사용자의 등급을 사용하여 활성 사용자의 예측을 계산합니다.

이것은, 유저 베이스의 콜라보레이션필터링의 카테고리에 속합니다.이 특정 어플리케이션은 사용자 기반의 Nearest Neighbor 알고리즘입니다.

또는 항목 기반 협업 필터링(x를 구입한 사용자도 y를 구입한 경우)은 항목 중심 방식으로 진행됩니다.

항목 쌍 간의 관계를 결정하는 항목-항목 매트릭스 구축
매트릭스를 조사하고 해당 사용자의 데이터를 대조하여 현재 사용자의 취향을 추론합니다.

예를 들어 Slope One 항목 기반 협업 필터링 패밀리를 참조하십시오.

다른 형태의 협업 필터링은 (평가 태스크에 의해 부과되는 인위적인 동작과는 대조적으로) 정상적인 사용자 동작에 대한 암묵적인 관찰에 기초할 수 있습니다.이러한 시스템은 모든 사용자가 무엇을 했는지(어떤 음악을 들었는지, 어떤 아이템을 구입했는지) 관찰하고 그 데이터를 사용하여 사용자의 향후 행동을 예측하거나 기회가 주어졌을 때 사용자가 어떻게 행동하고 싶은지 예측합니다.그런 다음 이러한 예측은 비즈니스 로직을 통해 필터링하여 비즈니스 시스템의 작업에 어떤 영향을 미칠지 판단해야 합니다.예를 들어, 특정 음악 앨범을 이미 소유하고 있다는 것을 증명한 사람에게 판매하겠다고 제안하는 것은 유용하지 않다.

모든 사용자에 대해 평균화된 스코어링 또는 평가 시스템에 의존하는 것은 사용자의 특정 요구를 무시하며, 특히 관심의 변동이 큰 작업(음악 추천 등)에서는 좋지 않다.그러나 웹 검색 및 데이터 클러스터링과 같은 정보 폭증에 대처하는 다른 방법이 있습니다.

종류들

메모리 베이스

메모리 기반 접근법에서는 사용자 등급 데이터를 사용하여 사용자 또는 항목 간의 유사성을 계산합니다.이 접근방식의 전형적인 예로는 네이버 기반 CF 및 항목 기반/사용자 기반 상위N 권장사항이 있습니다.예를 들어, 사용자 기반 접근법에서 사용자 u가 항목 i에 부여하는 등급의 값은 항목에 대한 일부 유사한 사용자 등급의 합계로 계산된다.

\displaystyle r_{u,i}=\operatorname {aggr}_{u^{\prime}\in U}r_{u^{\prime},i}

여기서 U는 항목 i를 평가한 사용자 u와 가장 유사한 상위 N명의 사용자 집합을 나타냅니다.집약 함수의 예는 다음과 같습니다.

\displaystyle r_{u,i}=sum frac {1}{N}}\sum \sum _{u^{\prime}\in U}r_{u^{\prime },i}

\displaystyle r_{u,i}=k\sum \sum _{u^{\prime}\in U}\operatorname {simil}(u,u^{\prime})r_{u^{\prime},i}

여기서 k는 k $k=1/\sum _{u^{\prime }\in U}|\operatorname {simil} (u,u^{\prime })|$ $k=1/\sum _{u^{\prime }\in U}|\operatorname {simil} (u,u^{\prime })|$ / $k=1/\sum _{u^{\prime }\in U}|\operatorname {simil} (u,u^{\prime })|$ u $k=1/\sum _{u^{\prime }\in U}|\operatorname {simil} (u,u^{\prime })|$ $k=1/\sum _{u^{\prime }\in U}|\operatorname {simil} (u,u^{\prime })|$ U $k=1/\sum _{u^{\prime }\in U}|\operatorname {simil} (u,u^{\prime })|$ ( ( $k=1/\sum _{u^{\prime }\in U}|\operatorname {simil} (u,u^{\prime })|$ , u u $k=1/\sum _{u^{\prime }\in U}|\operatorname {simil} (u,u^{\prime })|$ ) { $displaystyle$ k $k=1/\sum _{u^{\prime }\in U}|\operatorname {simil} (u,u^{\prime })|$ = $k=1/\sum _{u^{\prime }\in U}|\operatorname {simil} (u,u^{\prime })|$ 1 / \ $sum _ { u$ ^ { \ prime } \ $in$ U } \ $operatorname$ { $simil$ ( u $,$ u ^ { \ $prime$ } )로 $k=1/\sum _{u^{\prime }\in U}|\operatorname {simil} (u,u^{\prime })|$ 되는 정규화 계수입니다.

\displaystyle r_{u,i}=bar {r_{u}}+k\sum \sum _{u}\in U}\operatorname {simil}(u,u^{\prime})(r_{u^{\prime}}-{\bar {r_u^{u^{\prime}}}}}}}}})

${\bar {r_{u}}}$ 서 r u ${\bar {r_{u}}}$ ${\bar {r_{u}}}$ （ \ $displaystyle$ { $r _$ { $u$ } } ）는 ${\bar {r_{u}}}$ u로 평가된 모든 항목에 대한 사용자 u의 평균 평가입니다.

네이버 기반 알고리즘은 두 사용자 또는 항목 간의 유사도를 계산하고 모든 등급의 가중 평균을 취함으로써 사용자에 대한 예측을 생성합니다.항목 또는 사용자 간의 유사성 계산은 이 접근법의 중요한 부분이다.여기에는 Pearson 상관 관계 및 벡터 코사인 기반 유사성과 같은 여러 측도가 사용됩니다.

두 사용자 x, y의 Pearson 상관 유사성은 다음과 같이 정의됩니다.

\operatorname {simil}(x,y)=sub frac {i\in I_{xy}-{\bar {r_{x}}(r_y}-{\bar {r_{y}}}) {{\rtsum \sum \i\in_xy}{xy}{xy}{xy}}}{xy}}}}{{{{}}}}}}}}}}}}}}}{{{{{}}}}}}}}}}}}}}}}}}

여기서_xy i는 사용자 x와 사용자 y에 의해 평가된 항목 세트입니다.

코사인 베이스의 어프로치에서는, 2명의 유저 x 와 y 의 코사인 유사성을 다음과 ^[4]같이 정의합니다.

\operatorname {simil}(x,y)=\cosc\vec {x},{\vec {x}}=cdot {{vec {x}}{{vec {y}}}}} =cdfrac {sum\vec {i},{xy}}

사용자 기반 상위 N 권장 알고리즘은 유사성 기반 벡터 모델을 사용하여 활성 사용자와 가장 유사한 k명의 사용자를 식별합니다.k명의 가장 유사한 사용자가 발견되면 해당 사용자 항목 매트릭스를 집계하여 권장되는 항목 집합을 식별합니다.유사한 사용자를 찾는 일반적인 방법은 Locality-sensitive 해싱입니다.이 해싱은 선형 시간에 가장 가까운 네이버메커니즘을 구현합니다.

이 접근방식의 장점으로는 권장 시스템의 중요한 측면인 결과의 설명 가능성, 쉬운 작성과 사용, 새로운 데이터의 쉬운 촉진, 권장되는 항목의 내용에 의존하지 않는 것, 동등급 항목에 의한 양호한 확장 등이 있다.

이 접근법에는 몇 가지 단점도 있습니다.웹 관련 항목에서 자주 발생하는 데이터가 희박해지면 성능이 저하됩니다.이로 인해 이 접근 방식의 확장성이 저해되고 대규모 데이터셋에 문제가 발생합니다.데이터 구조에 의존하기 때문에 새로운 사용자를 효율적으로 처리할 수 있지만, 그 표현은 대개 특정 벡터 공간에 의존하기 때문에 새로운 항목을 추가하는 것이 더 복잡해진다.새 항목을 추가하려면 새 항목을 포함하고 구조 내의 모든 요소를 다시 삽입해야 합니다.

모델 베이스

이 접근법에서 모델은 등급 미달 항목에 대한 사용자의 등급을 예측하기 위해 서로 다른 데이터 마이닝, 기계 학습 알고리즘을 사용하여 개발된다.모델 기반의 CF 알고리즘이 많이 있습니다.베이지안 네트워크, 클러스터링 모델, 단수값 분해와 같은 잠재 의미 모델, 확률론적 잠재 의미 분석, 다중 곱셈 인자, 잠재 디리클레 할당 및 마르코프 의사결정 과정 기반 모델.^[5]

이 접근방식을 통해, 차원 축소 방법은 대부분 메모리 기반 접근방식의 견고성과 정확성을 개선하기 위한 보완 기술로 사용되고 있다.이러한 의미에서, 잠복 요인 모델이라고 알려진 특이값 분해, 주성분 분석과 같은 방법은 잠재 요인 측면에서 사용자 항목 행렬을 저차원 표현으로 압축합니다.이 접근방식을 사용하는 한 가지 장점은 풍부한 수의 결측값을 포함하는 고차원 매트릭스를 갖는 대신 저차원 공간에서 훨씬 더 작은 매트릭스를 다루게 된다는 것입니다.이전 섹션에서 설명한 사용자 기반 또는 항목 기반 인접 알고리즘에는 축소된 프레젠테이션을 사용할 수 있습니다.이 패러다임에는 몇 가지 이점이 있습니다.메모리 기반 매트릭스보다 원래 매트릭스의 희소성을 더 잘 처리합니다.또한 결과 매트릭스에서 유사성을 비교하는 것은 특히 대규모 희박한 데이터 ^[6]세트를 처리할 때 훨씬 더 확장성이 높다.

하이브리드

메모리 베이스와 모델 베이스의 CF 알고리즘을 조합한 어플리케이션도 다수 있습니다.이는 네이티브 CF 접근법의 한계를 극복하고 예측 성능을 향상시킵니다.중요한 것은, 그들은 희소성이나 정보 손실과 같은 CF 문제를 극복한다는 것이다.그러나 복잡성이 증가하고 ^[7]구현 비용이 많이 듭니다.일반적으로 대부분의 상용 추천 시스템은 하이브리드 시스템입니다. 예를 들어 Google 뉴스 추천 시스템입니다.^[8]

상세 학습

최근 몇 년 동안 많은 신경 및 딥 러닝 기술이 제안되었습니다.일부는 비선형 신경 ^[9]아키텍처를 통해 기존의 매트릭스 인수분해 알고리즘을 일반화하거나 Variational Autocoder와 ^[10]같은 새로운 모델 유형을 활용합니다.딥 러닝은 컨텍스트 인식, 시퀀스 인식, 소셜 태그 부착 등 다양한 시나리오에 적용되어 왔습니다.단순한 협업 권장 시나리오에서 사용할 경우 실질적인 효과가 의심됩니다.상위 컨퍼런스(SIGIR, KDD, WWW, RecSys)에서 발행된 상위 K 권장 문제에 딥 러닝 또는 신경 방법을 적용하는 출판물의 체계적인 분석에 따르면 평균적으로 40% 미만의 기사가 재현 가능하며 일부 컨퍼런스에서는 14%에 불과한 것으로 나타났다.이 연구는 전체적으로 18개의 기사를 식별했으며, 그 중 7개만 재현할 수 있었고, 그 중 6개는 훨씬 오래되고 적절하게 조정된 기준선에 의해 능가할 수 있었다.이 기사는 또한 오늘날의 연구 장학금에서 발생할 수 있는 많은 문제점들을 강조하고 그 ^[11]분야의 과학적 실천을 개선할 것을 요구하고 있다.시퀀스 인식 추천 ^[12]시스템에서도 유사한 문제가 발견되었습니다.

컨텍스트 인식 협업 필터링

많은 추천 시스템은 항목 ^[13]추천을 제공할 때 사용자의 등급과 함께 존재하는 다른 컨텍스트 정보를 무시합니다.그러나 사용자가 사용하고 있는 디바이스의 시간, 장소, 소셜 정보, 종류 등의 컨텍스트 정보가 널리 보급됨에 따라 상황에 맞는 권장사항을 제공하는 것이 그 어느 때보다 중요해지고 있습니다.Charu Aggrawal에 따르면, "문맥에 민감한 추천 시스템은 추천이 이루어지는 특정 상황을 정의하는 추가 정보에 따라 권장 사항을 조정합니다.이 추가 정보를 ^[6]컨텍스트라고 합니다."

상황별 정보를 고려하여 기존 사용자 항목 평가 매트릭스에 추가 차원을 부여합니다.예를 들어 하루 중 시간에 따라 다른 권장 사항을 제공하는 음악 추천 시스템을 가정해 보겠습니다.이 경우 사용자가 하루 중 다른 시간에 다른 음악 선호도를 가질 수 있습니다.따라서, 사용자 항목 매트릭스를 사용하는 대신, 상황에 민감한 사용자의 ^[14]^[15]^[16]선호도를 나타내기 위해 3차 텐서(또는 다른 컨텍스트를 고려하기 위해 더 높은 텐서)를 사용할 수 있다.

협업 필터링, 특히 근린 기반 방법을 이용하기 위해 접근방식은 2차원 정격 매트릭스에서 고차^{[citation needed]} 텐서로 확장될 수 있다.이러한 목적을 위해 접근법은 대상 사용자와 가장 유사하거나 비슷한 생각을 가진 사용자를 찾는 것이다. 각 사용자에 해당하는 슬라이스(예: 항목-시간 매트릭스)의 유사성을 추출하고 계산할 수 있다.콘텍스트 인식 어프로치에서는, 2개의 평가 벡터의 유사도가 산출되는 콘텍스트 비감응 케이스와 달리, 각 유저에 대응하는 평가 행렬의 유사도가 피어슨 ^[6]계수를 이용해 산출된다.가장 마음이 맞는 사용자를 찾은 후 대상 사용자에게 추천해야 할 항목 세트를 식별하기 위해 해당 사용자의 등급이 집계됩니다.

권장 모델에 컨텍스트를 포함시키는 가장 중요한 단점은 사용자 항목 등급^{[citation needed]} 매트릭스에 비해 훨씬 더 많은 결측값을 포함하는 더 큰 데이터 집합을 처리할 수 있다는 것입니다.따라서 행렬 인수분해 방법과 유사하게 텐서 인수분해 기법을 사용하여 근린 기반^{[citation needed]} 방법을 사용하기 전에 원래 데이터의 차원성을 줄일 수 있다.

소셜 웹상의 응용 프로그램

가이드라인을 정하는 편집자가 적은 기존 주류 미디어의 모델과 달리, 협업으로 필터링된 소셜 미디어는 편집자가 매우 많아질 수 있으며, 참여자가 늘어날수록 콘텐츠가 향상된다.Reddit, YouTube, Last.fm 등의 서비스는 협업 필터링 기반 ^[17]미디어의 전형적인 예입니다.

공동 필터링 애플리케이션의 한 가지 시나리오는 커뮤니티가 판단한 흥미롭고 인기 있는 정보를 추천하는 것입니다.전형적인 예로서, 레딧의 1면에는, 커뮤니티에 의해서 「투표」(긍정적 평가)되고 있는 기사들이 게재되고 있습니다.커뮤니티가 커지고 다양해짐에 따라 홍보되는 스토리는 커뮤니티 구성원의 평균적인 관심을 더 잘 반영할 수 있다.

위키피디아는 협업 필터링의 또 다른 응용 프로그램입니다.자원봉사자들은 ^[18]거짓에서 사실을 걸러냄으로써 백과사전에 기여한다.

협업 필터링 시스템의 또 다른 측면은 특정 사용자의 과거 활동 또는 특정 사용자와 취향이 비슷하다고 간주되는 다른 사용자의 이력을 분석함으로써 보다 개인화된 권장사항을 생성할 수 있는 능력입니다.이러한 리소스는 사용자 프로파일링으로 사용되며 사이트에서 사용자별로 콘텐츠를 권장하는 데 도움이 됩니다.특정 사용자가 시스템을 더 많이 사용할수록 시스템이 해당 사용자의 모델을 개선하기 위한 데이터를 획득함에 따라 권장 사항이 개선됩니다.

문제

협업 필터링 시스템은 콘텐츠를 자신의 취향에 자동으로 맞추는 데 반드시 성공하는 것은 아니다.플랫폼이 비정상적으로 우수한 다양성과 의견의 독립성을 달성하지 않는 한 특정 커뮤니티에서는 항상 하나의 관점이 다른 관점을 지배하게 됩니다.개인화된 권장 시나리오와 마찬가지로 새로운 사용자 또는 새로운 아이템을 도입하면 콜드 스타트 문제가 발생할 수 있습니다.콜드 스타트 문제는 콜라보레이션필터링이 올바르게 기능하기 위해 이들 새로운 엔트리에 대한 데이터가 부족하기 때문입니다.신규 사용자에게 적절한 권장사항을 제시하기 위해 시스템은 먼저 과거의 투표 또는 평가 활동을 분석하여 사용자의 선호도를 학습해야 합니다.협업 필터링 시스템에서는 상당한 수의 사용자가 새 항목을 추천하기 전에 해당 항목을 평가해야 합니다.

과제들

데이터의 희소성

실제로 많은 상용 추천 시스템은 대규모 데이터셋을 기반으로 합니다.그 결과, 협업 필터링에 사용되는 사용자 항목 매트릭스는 매우 크고 희박할 수 있으며, 이로 인해 권고사항의 성능에 문제가 발생할 수 있다.

데이터 희소성으로 인해 발생하는 일반적인 문제 중 하나는 콜드 스타트 문제입니다.협업 필터링 방법은 사용자의 과거 선호도에 따라 항목을 추천하기 때문에 새로운 사용자는 시스템이 자신의 선호도를 정확하게 캡처할 수 있도록 충분한 항목 수를 평가하여 신뢰할 수 있는 권장 사항을 제공해야 합니다.

마찬가지로 새로운 아이템도 같은 문제가 있습니다.시스템에 새로운 아이템이 추가되면 평가한 아이템과 비슷한 취향을 가진 사용자에게 추천하기 전에 상당한 수의 사용자가 아이템을 평가해야 합니다.새로운 아이템 문제는 콘텐츠 기반 권장사항에 영향을 주지 않습니다. 왜냐하면 아이템의 권장사항은 등급이 아닌 개별적인 기술 품질 세트에 기초하기 때문입니다.

확장성

사용자와 항목의 수가 증가함에 따라 기존 CF 알고리즘은 심각한 확장성^{[citation needed]} 문제를 겪게 됩니다.예를 들어 수천만 명의 $O(M)$ O $M)$ 와 수백만 $O(M)$ 개의 $O(N)$ O $)$ { $displaystyle$ O(N)} {displaystyle O $(N$ { $displaystyle$ n $}$ 의 $n$ CF 알고리즘은 이미 너무 큽니다.또한 많은 시스템이 온라인 요건에 즉시 대응하여 수백만 명의 사용자를 불문하고 모든 사용자에게 권장사항을 제시해야 합니다.대부분의 계산은 매우 큰 메모리 ^[19]머신에서 이루어집니다.

동의어

동의어는 동일하거나 매우 유사한 항목들이 서로 다른 이름이나 항목을 갖는 경향을 말합니다.대부분의 추천 시스템은 이러한 잠재적 연관성을 발견할 수 없기 때문에 이러한 제품을 다르게 취급합니다.

예를 들어, 겉으로 보기에 다른 아이템인 "어린이 영화"와 "어린이 영화"는 실제로 같은 아이템을 가리킨다.실제로 기술용어 사용의 변동 정도는 일반적으로 ^{[citation needed]}의심되는 것보다 크다.동의어가 유행하면 CF 시스템의 권장 성능이 저하됩니다.주제 모델링(잠복 디리클레 할당 기법 등)은 동일한 ^{[citation needed]}주제에 속하는 다른 단어들을 그룹화하여 이 문제를 해결할 수 있습니다.

회색양

회색 양은 의견이 일관되게 어떤 그룹의 사람들과도 일치하지 않기 때문에 협업 필터링의 혜택을 받지 못하는 사용자를 말합니다.흑양은 독특한 취향이 추천을 거의 불가능하게 만드는 집단이다.비록 이것은 추천자 시스템의 실패이지만, 전자 추천자가 아닌 사람들도 이러한 경우에 큰 문제를 가지고 있기 때문에, 흑양들을 갖는 것은 허용 가능한 ^{[disputed – discuss]}실패이다.

실링 공격

모든 사람이 등급을 매길 수 있는 추천 제도에서, 사람들은 자신의 아이템에 대해 많은 긍정적인 등급을 매길 수 있고 경쟁자의 것에 대해서는 부정적인 등급을 매길 수 있다.협업 필터링 시스템은 종종 이러한 조작을 방지하기 위한 예방책을 도입해야 합니다.

다양성과 긴 꼬리

협업 필터는 신제품 발굴에 도움이 되기 때문에 다양성을 증가시킬 것으로 예상됩니다.그러나 일부 알고리즘은 의도하지 않게 그 반대가 될 수 있습니다.협업 필터는 과거 매출 또는 등급을 기준으로 제품을 추천하므로 일반적으로 이력 데이터가 제한된 제품을 추천할 수 없습니다.이는 긍정적인 피드백과 마찬가지로 인기 있는 제품에 대해 풍요로운 효과를 창출할 수 있습니다.이러한 인기에 대한 편견은 그렇지 않으면 더 나은 소비자-제품의 매칭을 방해할 수 있다.와튼의 연구는 다양성과 "긴 꼬리"^[20]를 촉진할 수 있는 몇 가지 아이디어와 함께 이 현상을 자세히 설명합니다.새로운 아이템, ^[22]예기치 않은 아이템 ^[23]및 우연한 아이템을 추천함으로써 다양성과 "롱테일"^[21]을 촉진하기 위해 몇 가지 협업 필터링 알고리즘이 개발되었습니다.

혁신

넷플릭스 상으로 CF를 위한 새로운 알고리즘이 개발되었습니다.
여러 추천 시스템 간의 사용자 프로파일이 멀티태스킹 방식으로 결합되는 시스템 간 협업 필터링을 통해 모델 ^[24]간 선호 패턴 공유가 실현됩니다.
강력한 협업 필터링을 통해 조작 작업에 대한 권장 사항이 안정적입니다.이 연구 분야는 아직 완전히 ^[25]해결되지 않고 있다.

보조 정보

사용자 항목 매트릭스는 기존 협업 필터링 기술의 기본 기반이며 데이터 희소성 문제(콜드 스타트 등)로 인해 어려움을 겪고 있습니다.그 결과, 유저 항목 매트릭스를 제외하고, 연구자들은 추천 성과를 높이고 개인화된 추천 ^[26]시스템을 개발하는 데 도움이 되는 보조 정보를 더 많이 수집하려고 노력하고 있습니다.일반적으로 속성 정보와 상호 작용 정보라는 두 가지 일반적인 보조 정보가 있습니다.속성 정보는 사용자 또는 항목의 속성을 설명합니다.예를 들어, 사용자 속성은 일반적인 프로필(예: 성별과 나이)과 소셜 컨택(예: 소셜 네트워크의 팔로워 또는 친구)을 포함할 수 있다.항목 속성은 범주, 브랜드 또는 컨텐츠와 같은 속성을 의미합니다.또, 상호 작용 정보는, 유저가 아이템과 어떻게 상호 작용하고 있는지를 나타내는 암묵적인 데이터를 참조한다.널리 사용되는 상호작용 정보에는 태그, 코멘트 또는 리뷰, 브라우징 이력 등이 포함됩니다.보조 정보는 다양한 측면에서 중요한 역할을 합니다.신뢰 또는 우정의 신뢰할 수 있는 대표자로서 명확한 사회적 연계는 항상 대상 ^[27]^[28]사용자와 관심을 공유하는 유사한 사람을 찾기 위해 유사성 계산에 사용된다.상호 작용 관련 정보인 태그는 고급 협업 필터링에서 3차원(사용자 및 항목 외에)으로 취하여 ^[29]권장사항 탐구를 위한 3차원 텐서 구조를 구축합니다.

「」를 참조해 주세요.

주의 프로파일링 마크업 언어(APML)
콜드 스타트
콜라보레이션
공동 검색 엔진
집단 인텔리전스
고객과의 관계
위임 민주주의(Delegative Democracy), 필터링이 아닌 투표에 적용되는 것과 동일한 원칙
엔터프라이즈 북마크
파이어플라이(웹사이트)는 공동 필터링을 기반으로 한 폐지된 웹사이트입니다.
필터 버블
페이지 순위
선호도 도출
사이코그래픽 필터링
추천 시스템
관련성(정보 검색)
평판제
강력한 협업 필터링
유사성 검색
슬로프 원
사회 투명성

레퍼런스

^ Francesco Ricci, Lior Rockach 및 Bracha Shapira, 추천자 시스템 소개 핸드북, 추천자 시스템 핸드북, Springer, 2011년 페이지 1-35
^ ^a ^b Terveen, Loren; Hill, Will (2001). "Beyond Recommender Systems: Helping People Help Each Other" (PDF). Addison-Wesley. p. 6. Retrieved 16 January 2012.
^ TV 및 VOD 권장사항에 대한 통합 접근법 2012년 6월 6일 Wayback Machine 아카이브
^ John S. Breese, David Heckerman 및 Carl Kadie, 공동 필터링을 위한 예측 알고리즘의 경험적 분석, 1998년 Wayback Machine에서 2013년 10월 19일 아카이브
^ 샤오위안수, 타기엠Khoshogftaar, 협업 필터링 기법의 조사, 인공지능 아카이브의 진보, 2009.
^ ^a ^b ^c Recommender Systems - The Textbook Charu C. Aggarwal Springer. Springer. 2016. ISBN 9783319296579.
^ Ghazanfar, Mustansar Ali; Prügel-Bennett, Adam; Szedmak, Sandor (2012). "Kernel-Mapping Recommender system algorithms". Information Sciences. 208: 81–104. CiteSeerX 10.1.1.701.7729. doi:10.1016/j.ins.2012.04.012.
^ Das, Abhinandan S.; Datar, Mayur; Garg, Ashutosh; Rajaram, Shyam (2007). "Google news personalization". Proceedings of the 16th international conference on World Wide Web - WWW '07. p. 271. doi:10.1145/1242572.1242610. ISBN 9781595936547. S2CID 207163129.
^ He, Xiangnan; Liao, Lizi; Zhang, Hanwang; Nie, Liqiang; Hu, Xia; Chua, Tat-Seng (2017). "Neural Collaborative Filtering". Proceedings of the 26th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee: 173–182. arXiv:1708.05031. doi:10.1145/3038912.3052569. ISBN 9781450349130. S2CID 13907106. Retrieved 16 October 2019.
^ Liang, Dawen; Krishnan, Rahul G.; Hoffman, Matthew D.; Jebara, Tony (2018). "Variational Autoencoders for Collaborative Filtering". Proceedings of the 2018 World Wide Web Conference. International World Wide Web Conferences Steering Committee: 689–698. arXiv:1802.05814. doi:10.1145/3178876.3186150. ISBN 9781450356398.
^ Ferrari Dacrema, Maurizio; Cremonesi, Paolo; Jannach, Dietmar (2019). "Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches". Proceedings of the 13th ACM Conference on Recommender Systems. ACM: 101–109. arXiv:1907.06902. doi:10.1145/3298689.3347058. hdl:11311/1108996. ISBN 9781450362436. S2CID 196831663. Retrieved 16 October 2019.
^ Ludewig, Malte; Mauro, Noemi; Latifi, Sara; Jannach, Dietmar (2019). "Performance Comparison of Neural and Non-neural Approaches to Session-based Recommendation". Proceedings of the 13th ACM Conference on Recommender Systems. ACM: 462–466. doi:10.1145/3298689.3347041. ISBN 9781450362436. Retrieved 16 October 2019.
^ Adomavicius, Gediminas; Tuzhilin, Alexander (1 January 2015). Ricci, Francesco; Rokach, Lior; Shapira, Bracha (eds.). Recommender Systems Handbook. Springer US. pp. 191–226. doi:10.1007/978-1-4899-7637-6_6. ISBN 9781489976369.
^ Bi, Xuan; Qu, Annie; Shen, Xiaotong (2018). "Multilayer tensor factorization with applications to recommender systems". Annals of Statistics. 46 (6B): 3303–3333. arXiv:1711.01598. doi:10.1214/17-AOS1659. S2CID 13677707.
^ Zhang, Yanqing; Bi, Xuan; Tang, Niansheng; Qu, Annie (2020). "Dynamic tensor recommender systems". arXiv:2003.05568v1 [stat.ME].
^ Bi, Xuan; Tang, Xiwei; Yuan, Yubai; Zhang, Yanqing; Qu, Annie (2021). "Tensors in Statistics". Annual Review of Statistics and Its Application. 8 (1): annurev. Bibcode:2021AnRSA...842720B. doi:10.1146/annurev-statistics-042720-020816. S2CID 224956567.
^ 협업 필터링: 2012년 4월 22일 Wayback Machine에서 아카이브된 소셜 웹의 생명선
^ Gleick, James (2012). The information : a history, a theory, a flood (1st Vintage books ed., 2012 ed.). New York: Vintage Books. p. 410. ISBN 978-1-4000-9623-7. OCLC 745979816.
^ Pankaj Gupta, Ashish Goel, Jimmy Lin, Anesh Sharma, Dong Wang 및 Reza Bosagh Zadeh WTF: 제22회 월드와이드웹 국제회의의 Twitter 팔로우 제도 진행
^ Fleder, Daniel; Hosanagar, Kartik (May 2009). "Blockbuster Culture's Next Rise or Fall: The Impact of Recommender Systems on Sales Diversity". Management Science. 55 (5): 697–712. doi:10.1287/mnsc.1080.0974. SSRN 955984.
^ Castells, Pablo; Hurley, Neil J.; Vargas, Saúl (2015). "Novelty and Diversity in Recommender Systems". In Ricci, Francesco; Rokach, Lior; Shapira, Bracha (eds.). Recommender Systems Handbook (2 ed.). Springer US. pp. 881–918. doi:10.1007/978-1-4899-7637-6_26. ISBN 978-1-4899-7637-6.
^ Adamopoulos, Panagiotis; Tuzhilin, Alexander (January 2015). "On Unexpectedness in Recommender Systems: Or How to Better Expect the Unexpected". ACM Transactions on Intelligent Systems and Technology. 5 (4): 1–32. doi:10.1145/2559952. S2CID 15282396.
^ Adamopoulos, Panagiotis (October 2013). Beyond rating prediction accuracy: on new perspectives in recommender systems. Proceedings of the 7th ACM Conference on Recommender Systems. pp. 459–462. doi:10.1145/2507157.2508073. ISBN 9781450324090. S2CID 1526264.
^ Chatzis, Sotirios (October 2013). "Nonparametric Bayesian multitask collaborative filtering". CIKM '13: Proceedings of the 22nd ACM international conference on Information & Knowledge Management. Portal.acm.org. pp. 2149–2158. doi:10.1145/2505515.2505517. ISBN 9781450322638. S2CID 10515301.
^ Mehta, Bhaskar; Hofmann, Thomas; Nejdl, Wolfgang (19 October 2007). Proceedings of the 2007 ACM conference on Recommender systems - Rec Sys '07. Portal.acm.org. p. 49. CiteSeerX 10.1.1.695.1712. doi:10.1145/1297231.1297240. ISBN 9781595937308. S2CID 5640125.
^ Shi, Yue; Larson, Martha; Hanjalic, Alan (2014). "Collaborative filtering beyond the user-item matrix: A survey of the state of the art and future challenges". ACM Computing Surveys. 47: 1–45. doi:10.1145/2556270. S2CID 5493334.
^ Massa, Paolo; Avesani, Paolo (2009). Computing with social trust. London: Springer. pp. 259–285.
^ Groh Georg; Ehmig Christian. Recommendations in taste related domains: collaborative filtering vs. social filtering. Proceedings of the 2007 international ACM conference on Supporting group work. pp. 127–136. CiteSeerX 10.1.1.165.3679.
^ Symeonidis, Panagiotis; Nanopoulos, Alexandros; Manolopoulos, Yannis (2008). Tag recommendations based on tensor dimensionality reduction. Proceedings of the 2008 ACM Conference on Recommender Systems. pp. 43–50. CiteSeerX 10.1.1.217.1437. doi:10.1145/1454008.1454017. ISBN 9781605580937. S2CID 17911131.

외부 링크

추천 시스템을 뛰어넘는 기능: 사람들이 서로 돕는 것 (2001년, 12페이지)
추천 시스템프렘 멜빌과 비카스 신드위니.기계학습 백과사전에서 클로드 샘머트와 제프리 웹(Eds), 스프링거, 2010.
산업적 맥락에서의 추천자 시스템 - 많은 협업 추천자 시스템의 포괄적인 개요를 포함하는 PHD 논문(2012)
차세대 추천 시스템: 최첨단 및 가능한 확장^{[dead link]} 기능에 대한 조사.Adomavicius, G. 및 Tuzhilin, A. 지식 및 데이터 엔지니어링에 관한 IEEE 트랜잭션 06.2005
협업 필터링 추천 시스템 평가(DOI: 10.1145/963770.963772)
GroupLens 연구 논문
향상된 권장 사항을 위한 컨텐츠 부스트 협업 필터링.프렘 멜빌, 레이몬드 무니, 라마다스 나가라잔.제18회 인공 지능에 관한 전국 회의(AAAI-2002), 187-192페이지, 캐나다 에드먼턴, 2002년 7월.
MIT Media Lab의 과거 및 현재의 '정보 필터링' 프로젝트(협업 필터링 포함) 모음
Eigentaste:고정 시간 협업 필터링 알고리즘.켄 골드버그, 테레사 로더, 드루브 굽타, 크리스 퍼킨스.정보 검색, 4(2), 133-151.2001년 7월
Su, Xiaoyuan 및 Koshgortaar, Taghi의 공동 필터링 기법 조사.m
Google 뉴스 개인 설정: 확장 가능한 온라인 협업 필터링 Abhinandan Das, Mayur Datar, Ashutosh Garg 및 Shyam Rajaram.제16회 월드와이드웹 국제회의 속행
네이버 요소: 확장성과 정확성 높은 협업 필터링 Yehuda Koren, 데이터로부터의 지식 발견 트랜잭션 (TKDD) (2009)
협업 필터링을 사용한 등급 예측
추천 시스템
버클리 공동 필터링

[handbook-1] Francesco Ricci, Lior Rockach 및 Bracha Shapira, 추천자 시스템 소개 핸드북, 추천자 시스템 핸드북, Springer, 2011년 페이지 1-35

[recommender-2] Terveen, Loren; Hill, Will (2001). "Beyond Recommender Systems: Helping People Help Each Other" (PDF). Addison-Wesley. p. 6. Retrieved 16 January 2012.

[3] TV 및 VOD 권장사항에 대한 통합 접근법 2012년 6월 6일 Wayback Machine 아카이브

[Breese1999-4] John S. Breese, David Heckerman 및 Carl Kadie, 공동 필터링을 위한 예측 알고리즘의 경험적 분석, 1998년 Wayback Machine에서 2013년 10월 19일 아카이브

[Suetal2009-5] 샤오위안수, 타기엠Khoshogftaar, 협업 필터링 기법의 조사, 인공지능 아카이브의 진보, 2009.

[:0-6] Recommender Systems - The Textbook Charu C. Aggarwal Springer. Springer. 2016. ISBN 9783319296579.

[7] Ghazanfar, Mustansar Ali; Prügel-Bennett, Adam; Szedmak, Sandor (2012). "Kernel-Mapping Recommender system algorithms". Information Sciences. 208: 81–104. CiteSeerX 10.1.1.701.7729. doi:10.1016/j.ins.2012.04.012.

[8] Das, Abhinandan S.; Datar, Mayur; Garg, Ashutosh; Rajaram, Shyam (2007). "Google news personalization". Proceedings of the 16th international conference on World Wide Web - WWW '07. p. 271. doi:10.1145/1242572.1242610. ISBN 9781595936547. S2CID 207163129.

[9] He, Xiangnan; Liao, Lizi; Zhang, Hanwang; Nie, Liqiang; Hu, Xia; Chua, Tat-Seng (2017). "Neural Collaborative Filtering". Proceedings of the 26th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee: 173–182. arXiv:1708.05031. doi:10.1145/3038912.3052569. ISBN 9781450349130. S2CID 13907106. Retrieved 16 October 2019.

[10] Liang, Dawen; Krishnan, Rahul G.; Hoffman, Matthew D.; Jebara, Tony (2018). "Variational Autoencoders for Collaborative Filtering". Proceedings of the 2018 World Wide Web Conference. International World Wide Web Conferences Steering Committee: 689–698. arXiv:1802.05814. doi:10.1145/3178876.3186150. ISBN 9781450356398.

[11] Ferrari Dacrema, Maurizio; Cremonesi, Paolo; Jannach, Dietmar (2019). "Are We Really Making Much Progress? A Worrying Analysis of Recent Neural Recommendation Approaches". Proceedings of the 13th ACM Conference on Recommender Systems. ACM: 101–109. arXiv:1907.06902. doi:10.1145/3298689.3347058. hdl:11311/1108996. ISBN 9781450362436. S2CID 196831663. Retrieved 16 October 2019.

[12] Ludewig, Malte; Mauro, Noemi; Latifi, Sara; Jannach, Dietmar (2019). "Performance Comparison of Neural and Non-neural Approaches to Session-based Recommendation". Proceedings of the 13th ACM Conference on Recommender Systems. ACM: 462–466. doi:10.1145/3298689.3347041. ISBN 9781450362436. Retrieved 16 October 2019.

[13] Adomavicius, Gediminas; Tuzhilin, Alexander (1 January 2015). Ricci, Francesco; Rokach, Lior; Shapira, Bracha (eds.). Recommender Systems Handbook. Springer US. pp. 191–226. doi:10.1007/978-1-4899-7637-6_6. ISBN 9781489976369.

[14] Bi, Xuan; Qu, Annie; Shen, Xiaotong (2018). "Multilayer tensor factorization with applications to recommender systems". Annals of Statistics. 46 (6B): 3303–3333. arXiv:1711.01598. doi:10.1214/17-AOS1659. S2CID 13677707.

[15] Zhang, Yanqing; Bi, Xuan; Tang, Niansheng; Qu, Annie (2020). "Dynamic tensor recommender systems". arXiv:2003.05568v1 [stat.ME].

[16] Bi, Xuan; Tang, Xiwei; Yuan, Yubai; Zhang, Yanqing; Qu, Annie (2021). "Tensors in Statistics". Annual Review of Statistics and Its Application. 8 (1): annurev. Bibcode:2021AnRSA...842720B. doi:10.1146/annurev-statistics-042720-020816. S2CID 224956567.

[17] 협업 필터링: 2012년 4월 22일 Wayback Machine에서 아카이브된 소셜 웹의 생명선

[18] Gleick, James (2012). The information : a history, a theory, a flood (1st Vintage books ed., 2012 ed.). New York: Vintage Books. p. 410. ISBN 978-1-4000-9623-7. OCLC 745979816.

[twitterwtf-19] Pankaj Gupta, Ashish Goel, Jimmy Lin, Anesh Sharma, Dong Wang 및 Reza Bosagh Zadeh WTF: 제22회 월드와이드웹 국제회의의 Twitter 팔로우 제도 진행

[20] Fleder, Daniel; Hosanagar, Kartik (May 2009). "Blockbuster Culture's Next Rise or Fall: The Impact of Recommender Systems on Sales Diversity". Management Science. 55 (5): 697–712. doi:10.1287/mnsc.1080.0974. SSRN 955984.

[castells2015-21] Castells, Pablo; Hurley, Neil J.; Vargas, Saúl (2015). "Novelty and Diversity in Recommender Systems". In Ricci, Francesco; Rokach, Lior; Shapira, Bracha (eds.). Recommender Systems Handbook (2 ed.). Springer US. pp. 881–918. doi:10.1007/978-1-4899-7637-6_26. ISBN 978-1-4899-7637-6.

[22] Adamopoulos, Panagiotis; Tuzhilin, Alexander (January 2015). "On Unexpectedness in Recommender Systems: Or How to Better Expect the Unexpected". ACM Transactions on Intelligent Systems and Technology. 5 (4): 1–32. doi:10.1145/2559952. S2CID 15282396.

[23] Adamopoulos, Panagiotis (October 2013). Beyond rating prediction accuracy: on new perspectives in recommender systems. Proceedings of the 7th ACM Conference on Recommender Systems. pp. 459–462. doi:10.1145/2507157.2508073. ISBN 9781450324090. S2CID 1526264.

[24] Chatzis, Sotirios (October 2013). "Nonparametric Bayesian multitask collaborative filtering". CIKM '13: Proceedings of the 22nd ACM international conference on Information & Knowledge Management. Portal.acm.org. pp. 2149–2158. doi:10.1145/2505515.2505517. ISBN 9781450322638. S2CID 10515301.

[25] Mehta, Bhaskar; Hofmann, Thomas; Nejdl, Wolfgang (19 October 2007). Proceedings of the 2007 ACM conference on Recommender systems - Rec Sys '07. Portal.acm.org. p. 49. CiteSeerX 10.1.1.695.1712. doi:10.1145/1297231.1297240. ISBN 9781595937308. S2CID 5640125.

[26] Shi, Yue; Larson, Martha; Hanjalic, Alan (2014). "Collaborative filtering beyond the user-item matrix: A survey of the state of the art and future challenges". ACM Computing Surveys. 47: 1–45. doi:10.1145/2556270. S2CID 5493334.

[27] Massa, Paolo; Avesani, Paolo (2009). Computing with social trust. London: Springer. pp. 259–285.

[28] Groh Georg; Ehmig Christian. Recommendations in taste related domains: collaborative filtering vs. social filtering. Proceedings of the 2007 international ACM conference on Supporting group work. pp. 127–136. CiteSeerX 10.1.1.165.3679.

[29] Symeonidis, Panagiotis; Nanopoulos, Alexandros; Manolopoulos, Yannis (2008). Tag recommendations based on tensor dimensionality reduction. Proceedings of the 2008 ACM Conference on Recommender Systems. pp. 43–50. CiteSeerX 10.1.1.217.1437. doi:10.1145/1454008.1454017. ISBN 9781605580937. S2CID 17911131.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[22]

[23]

[21]

[24]

[25]

[26]

[27]

[28]

[29]

Search

협업 필터링

네임스페이스

더

목차

개요

방법론