1. MovieLens 데이터
앱으로 제공할 서비스는 '영화 추천'이다.
그리고 여기에 사용할 데이터는 MoveLens(무비렌즈)라는 공개 데이터이다.
(README.html 파일을 보면 라이센스 설명이 있으며, 상업적으로는 안되고 연구목적으로는 사용 가능하다고 한다.)
- 링크에 접속해서 ml-latest-samll.zip 파일을 다운로드한다.
2. 데이터 살펴보기
- [Flutter/플러터] 새 프로젝트 만들기 포스트에서 movie_rec 프로젝트를 만들었다.
[Flutter/플러터] 새 프로젝트 만들기
새 프로젝트 만들기처음 flutter를 설치하며, flutter_application_1 앱을 만들었었다.이번엔 기획했던 것과 같이 '영화 추천' 앱을 만들기 위한 새로운 프로젝트를 생성하려고 한다.1). 'Shift' + 'Command' +
work-master.tistory.com
- [데이터 분석] 환경설정 - 패키지 설치, 가상환경 설정 포스트에서 데이터 분석을 위한 jupyter notebook 파일을 만들었다.
[데이터 분석] 환경설정 - 패키지 설치, 가상환경 설정
1. 패키지란?python으로 데이터를 살펴보기 위해 패키지를 설치한다.패키지는 복잡한 기능을 손쉽게 사용 가능하도록 사람들이 미리 만들어놓은 도구같은 것이다.간단한 설치만으로 좋은 도구를
work-master.tistory.com
2-1. MovieLens 데이터 입력
1). 다운받은 'ml-latest-small.zip'의 압축을 푼 후, data 폴더 하위에 붙여넣기 한다.
(drag-and-drop으로 폴더를 끌고오면 붙여넣기가 된다.)
2-2. MovieLens 데이터 구성
- MovieLens 데이터는 아래와 같이 구성되어 있다.
2). 'movies.csv' 파일을 불러와서 데이터를 확인한다.
- 데이터 프레임(DataFrame) 형태로 데이터를 불러오게 된다.
# ml-latest-small 폴더의 movies.csv 데이터를 불러와서 df_movies라는 변수로 표현
df_movies = pd.read_csv('ml-latest-small/movies.csv')
# df_movies를 출력
df_movies
- 각 파일은 아래와 같은 정보로 구성되어 있다.
2-2-1. movies.csv: 영화의 정보
- movieId: 영화의 고유 ID
- title: 영화 제목
- genres: 영화의 장르('|'로 구분되어 있음)
2-2-2. ratings.csv: 사용자별 영화 평점 정보
- userId: 사용자의 고유 ID
- movieId: 영화의 고유 ID
- rating: 사용자가 부여한 평점 (0.5에서 5까지, 0.5 단위)
- timestamp: 평점이 매겨진 시각 (Unix 타임스탬프 형식)
2-2-3. tags.csv: 사용자별 영화에 부여한 태그 정보
- userId: 사용자의 고유 ID
- movieId: 영화의 고유 ID
- tag: 사용자가 영화에 부여한 태그
- timestamp: 태그가 부여된 시각 (Unix 타임스탬프 형식)
2-2-4. links.csv: 영화의 외부 데이터베이스 링크 정보
- movieId: 영화의 고유 ID
- imdbId: IMDb의 영화 ID
- tmdbId: The Movie Database(TMDB)의 영화 ID
이렇게 데이터를 불러오는 작업까지 해 보았다.
'추천시스템 앱 개발 > 데이터' 카테고리의 다른 글
[데이터 분석] Movielens(무비렌즈) 데이터 분석 3 - 인기 영화 분석 (0) | 2025.03.16 |
---|---|
[데이터 분석] Movielens(무비렌즈) 데이터 분석 2 - 장르별 영화 분포 분석 (0) | 2025.03.15 |
[데이터 분석] Movielens(무비렌즈) 데이터 분석 1 - 평점 분포 분석 (2) | 2025.03.09 |
[데이터 분석] 환경설정 - 패키지 설치, 가상환경 설정 (0) | 2024.06.18 |
[데이터 분석] 환경설정 - python, jupyter notebook (0) | 2024.06.17 |
댓글