본문 바로가기

데이터 분석

R 데이터 분석 - 데이터 가공 (feat. mpg 데이터)

 


 
 









데이터 가공이란

 
데이터를 추출하거나 여러 데이터를 합치는 등
주어진 데이터를 분석에 적합하게 만드는 것
 
= 데이터 전처리 
 
 
 
 
 
 
 

데이터를 파악할 때 사용하는 함수들

 
 
head() - 데이터 앞부분 출력 
tail() - 데이터 뒷부분 출력
View() - 뷰어창에서 데이터 확인 
dim() - 데이터 차원 출력
str() - 데이터 속성 출력
summary() - 요약 통계량 출력
ls() - 변수 항목을 리스트로 출력 
 
 
 


 


ggplot2 패키지에 내장된 mpg 데이터를 이용
mpg 데이터 : 데이터 234행, 11열로 구성됨, 하나의 행이 자동차 한 종에 대한 정보 

 
 
 
 
 

mpg 데이터 파악하기
 

ggplot2 패키지에 내장된 mpg 데이터 이용
 

install.packages("ggplot2")
library(ggplot2)
mpg

 
 
 
 
 
 

ggplot2 의 mpg 데이터를 데이터 프레임 형태로 불러오기 
 

mpg <- as.data.frame(ggplot2::mpg)
View(mpg)
dim(mpg)
str(mpg)
summary(mpg)

 
 
 
 
 

데이터 다루기 
 

데이터에 변수를 조합하거나 함수를 적용해서 새 변수를 만들어 분석할 수 있다. 
기존의 변수를 변형해 만든 변수를
 
파생 변수라고 한다.
 
 
2개의 변수로 구성된 데이터 프레임을 생성한다.
 

df <- data.frame(var1 = c(4,3,8), var2 = c(2,6,1))
df

 
 
 
 
 
 
var1과 var2 변수의 값을 더한 var_sum 파생 변수를 만들어 df를 추가한다.
 
데이터 프레임명에 $를 붙여 새로운 변수명을 입력
 

df$var_sum <- df$var1 + df$var2
df

 
 
 
 
 
 
var_mean 파생 변수를 만들어보자.
 

df$var_mean <- (df$var1 + df$var2)/2
df

 
 
 
 
 


 
 
 
 
 
 
도시연비와 고속도로 연비를 더하고 2로 나눠 통합 연비 변수 생성 
 
도시연비 cty
고속도로 연비 hwy
 

mpg2$total <- (mpg2$cty + mpg2$hwy)/2 
head(mpg2)

 
 
 
 
 
 
통합연비 변수의 평균 
 

mean(mpg2$total)

 
 
 
 
 
 
요약 통계량 
 

summary(mpg2)
summary(mpg2$total)

 
 
 
 


 
 
 
 
히스토그램 생성 
 
히스토그램 : 값의 빈도를 막대 길이로 표현한 그래프 

(막대그래프는 검정색이고 떨어져 있고, 히스토그램은 회색이고 연속적으로 붙어있음)
 

 

hist(mpg$total)

 
 
 
 
 
 
함수를 이용해 파생변수 만들기 
 
 
조건 :  mpg 데이터에서 전체 자동차 중 연비 기준을 충족해 ' 고연비 합격 판정' 을 받은 자동차가 몇대나 되는지 
 
적용 : 요약 통계량과 히스토그램을 종합해 total 연비 변수가 20을 넘기면 합격, 못하면 불합격으로 분류
 
 
 
 
합격 판정 변수 만들기 
 

ifelse(mpg2$total >= 20, "pass", "fail")
head(mpg2)
View(mpg2)

 
 
 
 
 
연비 합격 빈도표 생성 
 
 
 

> 결과값
 A   B   C 
 10 118 106