[RecSys] 온라인 행동 예측을 위한 Neural-network Field-aware Factorization Machine

8 minute read

Inmobi에서 온라인 유저 행동 예측을 위해 Neural-network Field-aware Factorization Machine을 적용한 사례를 알아봅니다.

부제: Why Neural net Field Aware Factorization Machines are able to break ground in digital behaviours prediction

1. 온라인 유저 행동 예측을 위해, 선형 모델으로부터 시작해 다양한 구조의 Factorization Machine 기반 모델을 적용

2. FM(Factorization Machine), FFM(Field-aware Factorization Machine), DeepFM(Deep neural net with FM), NFM(Neural Factorization Machine), DeepFFM, NFFM(Neural Feature-aware Factorization Machine)을 적용, 각각의 실험 결과와 장단점을 설명. 결론적으로는 NFFM이 우수한 성능을 보임

3. 이러한 모델을 학습하고 서빙하기 위한 디테일한 설정을 소개

본 포스트는 Inmobi의 Gunjan Sharma가 발표한 영상을 토대로 작성한 노트입니다. 영상은 여기에서 보실 수 있습니다.

들어가며
배경 설명
Factorization Machine 계열 모델의 실험 결과
NFFM(Neural Feature-aware Factorization Machine) 구현 디테일

1.들어가며

InMobi는 글로벌한 온라인 타겟 광고를 제공하는 기업입니다. 이러한 기업의 매출 성과를 위해서는 온라인 상의 유저 행동을 예측하는 것이 매우 중요한데요. 좋은 성능의 추천 모델은 곧 수십억의 매출 향상과 직결되기 때문에, 비즈니스 성공을 위해 우수한 모델을 개발하는 일이 필요한 상황이었다고 합니다.

Inmobi의 엔지니어들이 최종적으로 NFFM (Neural-network Field-aware Factorization Machine) 모델을 개발하기 까지 다양한 Factorization Mahcine 기반 모델을 적용한 이야기를 공유해 주었고, 이 포스트에서는 그 영상에 담긴 이야기를 간략하게 정리해 보도록 하겠습니다.

2. 배경 설명

2-1. Existing context and challenges

일반적으로 linear/logistic 모델과 tree-based 모델을 주로 사용함.
실제 적용될 경우 두 모델은 각각의 장단점을 가짐.
Linear Regression: unseen combination에 대해 잘 일반화함, 때때로 underfit될 가능성 존재, 더 적은 RAM 필요
Tree model: unseen combination에 대해 잘 일반화 못함, 때때로 overfit되며, 종종 RAM을 터지게할 수 있음. 특히 매우 많은 수의 feature를 사용할 경우 메모리 이슈 발생.
우리는 이 두 모델의 가운데에 있는 어떤 모델을 찾아 성능을 극대화하고 싶음.

2-2. Why think of NN for CVR/VCR prediction

LR(Linear Regression)에 cross feature를 사용하는 것은 현 문제에 적합하지 않았음
또한 때때로 학습과 예측 단계에서 다루기 까다로워짐(cumbersome)
여기서 언급된 모든 주된 예측 작업은 복잡한 곡선을 따름
LR 모델은 interaction term이 제한되어 있어 트리 기반에 비해 개선의 여지가 컸음
몇몇 효과적인 모델을 적용해 보았으나 트리 기반의 모델을 이길 수 없었음.
우리의 팀은 피처들 간의 고계(high-order) interaction을 찾아내기 위해서는 뉴럴넷이 필요하다고 판단했음
뉴럴넷은 unseen combination에 일반화하는 성능도 가지고 있음.

2-3. Challenges involved

전통적으로 뉴럴넷은 분류 문제에 더욱 활용되고 있음
우리의 예측을 regression으로 모델링하고 싶었음
대부분의 피처가 카테고리형이었고 이 말은 one-hot encoding을 사용해야함을 의미함.
효과적인 학습을 위해 아주 많은 데이터를 요구하기 때문에 NN모델은 좋지 않은 성능을 내기 마련이었음.
몇몇 피처는 매우 많은 수를 포함하고 있었고 이는 학습을 더 어렵게 함.
모델은 학습과 서빙을 위한 운용이 쉬워야함
spark는 custom 뉴럴넷에 적합하지 않았음
모델은 쉽게 디버깅되고, 비즈니스 변화를 설명할 수 있어야함
뉴럴넷을 오랫동안 사용하지 않았던 이유는 이해가 부족해서였음