본문 바로가기
추천시스템 앱 개발/데이터

[데이터 분석] Movielens(무비렌즈) 데이터 소개

by 직_장인 2024. 6. 23.

1. MovieLens 데이터

앱으로 제공할 서비스는 '영화 추천'이다.

그리고 여기에 사용할 데이터는 MoveLens(무비렌즈)라는 공개 데이터이다.
(README.html 파일을 보면 라이센스 설명이 있으며, 상업적으로는 안되고 연구목적으로는 사용 가능하다고 한다.)

https://grouplens.org/datasets/movielens/

  • 링크에 접속해서 ml-latest-samll.zip 파일을 다운로드한다.

2. 데이터 살펴보기

 

[Flutter/플러터] 새 프로젝트 만들기

새 프로젝트 만들기처음 flutter를 설치하며, flutter_application_1 앱을 만들었었다.이번엔 기획했던 것과 같이 '영화 추천' 앱을 만들기 위한 새로운 프로젝트를 생성하려고 한다.1). 'Shift' + 'Command' +

work-master.tistory.com

 

[데이터 분석] 환경설정 - 패키지 설치, 가상환경 설정

1. 패키지란?python으로 데이터를 살펴보기 위해 패키지를 설치한다.패키지는 복잡한 기능을 손쉽게 사용 가능하도록 사람들이 미리 만들어놓은 도구같은 것이다.간단한 설치만으로 좋은 도구를

work-master.tistory.com

 

2-1. MovieLens 데이터 입력

1). 다운받은 'ml-latest-small.zip'의 압축을 푼 후, data 폴더 하위에 붙여넣기 한다.
(drag-and-drop으로 폴더를 끌고오면 붙여넣기가 된다.)

 

2-2. MovieLens 데이터 구성

  • MovieLens 데이터는 아래와 같이 구성되어 있다.

2). 'movies.csv' 파일을 불러와서 데이터를 확인한다.

  • 데이터 프레임(DataFrame) 형태로 데이터를 불러오게 된다.
# ml-latest-small 폴더의 movies.csv 데이터를 불러와서 df_movies라는 변수로 표현
df_movies = pd.read_csv('ml-latest-small/movies.csv')
# df_movies를 출력
df_movies
  • 각 파일은 아래와 같은 정보로 구성되어 있다.

 

2-2-1. movies.csv: 영화의 정보

  • movieId: 영화의 고유 ID
  • title: 영화 제목
  • genres: 영화의 장르('|'로 구분되어 있음)

2-2-2. ratings.csv: 사용자별 영화 평점 정보

  • userId: 사용자의 고유 ID
  • movieId: 영화의 고유 ID
  • rating: 사용자가 부여한 평점 (0.5에서 5까지, 0.5 단위)
  • timestamp: 평점이 매겨진 시각 (Unix 타임스탬프 형식)

2-2-3. tags.csv: 사용자별 영화에 부여한 태그 정보

  • userId: 사용자의 고유 ID
  • movieId: 영화의 고유 ID
  • tag: 사용자가 영화에 부여한 태그
  • timestamp: 태그가 부여된 시각 (Unix 타임스탬프 형식)

2-2-4. links.csv: 영화의 외부 데이터베이스 링크 정보

  • movieId: 영화의 고유 ID
  • imdbId: IMDb의 영화 ID
  • tmdbId: The Movie Database(TMDB)의 영화 ID

이렇게 데이터를 불러오는 작업까지 해 보았다.

 

 

 

댓글