최우수상 증빙 자료
1. 프로젝트 개요
한국관광공사와 kakao가 개최한 2024 관광데이터 활용 공모전의 ****출품작, FootLog에서 코스 추천 서버를 맡아 개발했다. FootLog는 국내 사용자들에게 생소한 플로깅 코스를 추천하고 플로깅 기록을 할 수 있는 서비스이다. “플로깅”이 사용자들에게 생소한 개념인만큼 초기 사용자의 선호도를 입력 받고 사용자가 좋아할 만한 플로깅 코스를 추천하는 기능이 필요했다.
2. 목표(문제 정의)
문제-해결
- 텍스트 데이터의 양이 충분하지 않은 상황에서, 개요 데이터 간의 패턴을 학습하기 위해 context-based 추천을 위해 TF-IDF(단어 빈도-역문서 빈도) 모델을 사용했다.
데이터 선정
<aside>
💡 한국관광공사_생태 관광 정보 - 친환경관광 및 지역경제 활성화을 위한 공정관광 정보 제공 지역별, 테마별 생태관광 정보
</aside>

- 초기 유저가 구축되지 않은 상태로 추천을 해야하기 때문에, content-based 추천을 하기 위해서는 상호작용 데이터보다는 코스의 특성을 활용해야 한다.
- 따라서 코스의 **개요 데이터(텍스트)**가 존재하는 API를 선정해 서비스에 등록할 코스로 결정했다.
cold start
- 첫 접속을 한 사용자의 선호도를 기준으로 코스를 추천하기 위해 선호도를 조사받는 기능을 만들었다. cold start와 관련된 레퍼런스들을 수집했다.

- **개요 데이터(텍스트)**에서 한국어 KoNLPy를 활용해 명사를 추출하고, 자주 등장하는 명사를 추려 총 9가지의 선호도 토픽을 생성했다.

sparse pattern
- 텍스트 데이터를 학습하기 위해서는 일종의 패턴이 필요하지만, 각기 다른 기관에서 작성한 총 181개의 개요 데이터에서 겹치는 명사를 택하기 어려웠다.
- GPT API를 활용해 명사 500개를 추출한 뒤, 9개의 토픽을 기준으로 유사어 딕셔너리를 생성해 명사들을 총 9개의 토픽으로 분류했다.