R 데이터 분석 - 데이터 가공 (feat. mpg 데이터)

데이터 가공이란

데이터를 추출하거나 여러 데이터를 합치는 등
주어진 데이터를 분석에 적합하게 만드는 것

= 데이터 전처리

데이터를 파악할 때 사용하는 함수들

head() - 데이터 앞부분 출력
tail() - 데이터 뒷부분 출력
View() - 뷰어창에서 데이터 확인
dim() - 데이터 차원 출력
str() - 데이터 속성 출력
summary() - 요약 통계량 출력
ls() - 변수 항목을 리스트로 출력

ggplot2 패키지에 내장된 mpg 데이터를 이용
mpg 데이터 : 데이터 234행, 11열로 구성됨, 하나의 행이 자동차 한 종에 대한 정보

mpg 데이터 파악하기

ggplot2 패키지에 내장된 mpg 데이터 이용

install.packages("ggplot2")
library(ggplot2)
mpg

ggplot2 의 mpg 데이터를 데이터 프레임 형태로 불러오기

mpg <- as.data.frame(ggplot2::mpg)
View(mpg)
dim(mpg)
str(mpg)
summary(mpg)

데이터 다루기

데이터에 변수를 조합하거나 함수를 적용해서 새 변수를 만들어 분석할 수 있다.
기존의 변수를 변형해 만든 변수를

파생 변수라고 한다.

2개의 변수로 구성된 데이터 프레임을 생성한다.

df <- data.frame(var1 = c(4,3,8), var2 = c(2,6,1))
df

var1과 var2 변수의 값을 더한 var_sum 파생 변수를 만들어 df를 추가한다.

데이터 프레임명에 $를 붙여 새로운 변수명을 입력

df$var_sum <- df$var1 + df$var2
df

var_mean 파생 변수를 만들어보자.

df$var_mean <- (df$var1 + df$var2)/2
df

도시연비와 고속도로 연비를 더하고 2로 나눠 통합 연비 변수 생성

도시연비 cty
고속도로 연비 hwy

mpg2$total <- (mpg2$cty + mpg2$hwy)/2 
head(mpg2)

통합연비 변수의 평균

mean(mpg2$total)

요약 통계량

summary(mpg2)
summary(mpg2$total)

히스토그램 생성

히스토그램 : 값의 빈도를 막대 길이로 표현한 그래프

(막대그래프는 검정색이고 떨어져 있고, 히스토그램은 회색이고 연속적으로 붙어있음)

hist(mpg$total)

함수를 이용해 파생변수 만들기

조건 : mpg 데이터에서 전체 자동차 중 연비 기준을 충족해 ' 고연비 합격 판정' 을 받은 자동차가 몇대나 되는지

적용 : 요약 통계량과 히스토그램을 종합해 total 연비 변수가 20을 넘기면 합격, 못하면 불합격으로 분류

합격 판정 변수 만들기

ifelse(mpg2$total >= 20, "pass", "fail")
head(mpg2)
View(mpg2)

연비 합격 빈도표 생성

> 결과값
 A   B   C 
 10 118 106

'데이터 분석' 카테고리의 다른 글

R 데이터 분석 - 데이터 시각화 (2) (0)	2023.06.09
R 데이터 분석 - 데이터 시각화 (0)	2023.06.08
R 데이터 분석 실습 - mtcars 데이터, mpg 데이터, ggplot2 패키지 (0)	2023.05.29
R 데이터 분석 - 데이터 가공 (2) (0)	2023.05.28
R 데이터 분석 - 데이터 가공 (feat. dplyr 데이터) (2)	2023.05.28

coding daily log

R 데이터 분석 - 데이터 가공 (feat. mpg 데이터)

'데이터 분석' 카테고리의 다른 글

티스토리툴바

R 데이터 분석 - 데이터 가공 (feat. mpg 데이터)

'데이터 분석' 카테고리의 다른 글

'데이터 분석' Related Articles

티스토리툴바