데이터 가공이란
데이터를 추출하거나 여러 데이터를 합치는 등
주어진 데이터를 분석에 적합하게 만드는 것
= 데이터 전처리
데이터를 파악할 때 사용하는 함수들
head() - 데이터 앞부분 출력
tail() - 데이터 뒷부분 출력
View() - 뷰어창에서 데이터 확인
dim() - 데이터 차원 출력
str() - 데이터 속성 출력
summary() - 요약 통계량 출력
ls() - 변수 항목을 리스트로 출력
ggplot2 패키지에 내장된 mpg 데이터를 이용
mpg 데이터 : 데이터 234행, 11열로 구성됨, 하나의 행이 자동차 한 종에 대한 정보
mpg 데이터 파악하기
ggplot2 패키지에 내장된 mpg 데이터 이용
install.packages("ggplot2")
library(ggplot2)
mpg
ggplot2 의 mpg 데이터를 데이터 프레임 형태로 불러오기
mpg <- as.data.frame(ggplot2::mpg)
View(mpg)
dim(mpg)
str(mpg)
summary(mpg)
데이터 다루기
데이터에 변수를 조합하거나 함수를 적용해서 새 변수를 만들어 분석할 수 있다.
기존의 변수를 변형해 만든 변수를
파생 변수라고 한다.
2개의 변수로 구성된 데이터 프레임을 생성한다.
df <- data.frame(var1 = c(4,3,8), var2 = c(2,6,1))
df
var1과 var2 변수의 값을 더한 var_sum 파생 변수를 만들어 df를 추가한다.
데이터 프레임명에 $를 붙여 새로운 변수명을 입력
df$var_sum <- df$var1 + df$var2
df
var_mean 파생 변수를 만들어보자.
df$var_mean <- (df$var1 + df$var2)/2
df
도시연비와 고속도로 연비를 더하고 2로 나눠 통합 연비 변수 생성
도시연비 cty
고속도로 연비 hwy
mpg2$total <- (mpg2$cty + mpg2$hwy)/2
head(mpg2)
통합연비 변수의 평균
mean(mpg2$total)
요약 통계량
summary(mpg2)
summary(mpg2$total)
히스토그램 생성
히스토그램 : 값의 빈도를 막대 길이로 표현한 그래프
(막대그래프는 검정색이고 떨어져 있고, 히스토그램은 회색이고 연속적으로 붙어있음)
hist(mpg$total)
함수를 이용해 파생변수 만들기
조건 : mpg 데이터에서 전체 자동차 중 연비 기준을 충족해 ' 고연비 합격 판정' 을 받은 자동차가 몇대나 되는지
적용 : 요약 통계량과 히스토그램을 종합해 total 연비 변수가 20을 넘기면 합격, 못하면 불합격으로 분류
합격 판정 변수 만들기
ifelse(mpg2$total >= 20, "pass", "fail")
head(mpg2)
View(mpg2)
연비 합격 빈도표 생성
> 결과값
A B C
10 118 106
'데이터 분석' 카테고리의 다른 글
R 데이터 분석 - 데이터 시각화 (2) (0) | 2023.06.09 |
---|---|
R 데이터 분석 - 데이터 시각화 (0) | 2023.06.08 |
R 데이터 분석 실습 - mtcars 데이터, mpg 데이터, ggplot2 패키지 (0) | 2023.05.29 |
R 데이터 분석 - 데이터 가공 (2) (0) | 2023.05.28 |
R 데이터 분석 - 데이터 가공 (feat. dplyr 데이터) (2) | 2023.05.28 |