1. Numpy(수치계산)
1-1. universal function
numpy array는 vector처럼 사용할 수 있다.
대부분의 데이터 분석 라이브러리들이 벡터를 사용한다.
데이터 분석 시 데이터를 벡터로 표현하는데, 벡터가 numpy array로 표현되기 때문에 중요하다.
broadcase : 서로 크기가 다른 numpy array를 연산할 때, 자동으로 연산을 전파(broadcase) 해주는 기능이다.
universal function : 하나의 함수를 모든 원소에 자동으로 적용해주는 기능이다.
1-2. Masking
indexing : list에서의 indexing과 동일한 방법이다.
masking
ex) data[ : , : ]
이런 식으로 data['raw 검색 조건', 'column 검색 조건']으로 데이터 추출이 가능하다.
1-3. Reshaping
x = np.arange(1, 10) # 1~9까지 숫자 나열
x.reshape(3, 3) # 3, 3 행렬로 정렬,
# (-1, 3) 같이 -1을 같이 쓰면 명확한 3을 먼저 계산하고 나머지로 -1 부분을 계산함.
1-4. 추가로 알아두면 좋은 내용
concatenation : np.vstack(), np.hstack()
aggregation functions
-> universal function 기능을 사용해서 연산하는 것이 편하고 빠르기 때문에 잘 활용해야 한다
내장함수가 어떻게 구현되어있는지 확인하는게 도움이 된다.
2. Pandas(데이터 분석)
2-1. Pandas의 기본 자료구조
Series
Dataframe
2-2. Indexing
df['column'] : column 검색
df.loc['index'] : row 검색
df.iloc['index_number'] : index 위치로 검색(= row 위치 검색)
2-3. Slining
Slicing에서는 loc나 iloc를 쓰지 않아도 index 이름으로 slicing 가능. column은 위치로 검색 가하다.
ex) df.loc['1:2', ['A', 'B']]
3. Seaborn(시각화)
3-1. Seaborn이란?
matplotlib을 기본으로 다양한 시각화 기법을 제공하는 라이브러리로 Pandas의 DataFrame과 호환이 잘 된다.
3-2. 연습 예제(Seaborn의 'penguins'데이터 사용)
아래 코드로 'penguins' 데이터를 불러온다.
penguins = sns.load_dataset('penguins')
penguins
1). Histplot
sns.histplot(data = penguins, x='flipper_length_mm', hue='species', multiple='stack')
2). Boxplot
sns.boxplot(data=penguins, x='body_mass_g', y='species', hue='sex')
3). Scatterplot
sns.scatterplot(data=penguins, x='bill_length_mm', y='bill_depth_mm', hue='sex')
4). Pairplot
sns.pairplot(data=penguins, hue='island')
'클래스 리뷰 > 21.06 K-Digital Training AI 데이터 사이언티스트 과' 카테고리의 다른 글
데이터베이스 이론 (2) | 2023.03.05 |
---|---|
웹크롤링 프로젝트 : CGV 리뷰 크롤링 (0) | 2023.03.03 |
python 기초 문법 (1) | 2023.02.21 |
[K-Digital Training] 패스트캠퍼스 AI 기반 데이터 사이언티스트 과정 - 신청에서 합격까지 (0) | 2023.01.12 |
댓글