빅데이터

[BigData]파일 읽고 쓰기와 데이터 정제

zs1397 2022. 10. 19. 12:16

1. 파일 읽기: read.table 함수 -> 일반 텍스트 파일을 읽어 데이터 프레임 생성

                     read.csv 함수 -> CSV파일 읽어 데이터 프레임 생성

2. 파일 쓰기: write.table , write.csv

3. 데이터 정제

- 데이터 정제를 위해 특정 조건에 맞는 값을 찾아내거나 일부 구간 값을 추출하여 연산하는 등 목적에 맞게 작업

 a. 조건문 형식

  ㉮ []에 행/열 조건 명시(변수명[행 조건식, 열 조건식])

     - 벡터일때, test = c(1,2,3,NA,5) -> test[test<40] ....

     - 데이터프레임일때, character = data.frame(....) -> character[character$gender="F"]

  ㉯ if 문 사용(if, else if, else, ifelse)

     - x=5, if(x%%2==0) print("짝수") else print("홀수")

     - ifelse(조건식, 참인경우 반환값, 거짓인 경우 반환값)

 b. 반복문 형식

   ㉮repeat{ 반복할 문장}

   ㉯while(조건식) [ 참일떄 수행할 문장}

   ㉰for(변수 in 데이터){ 반복할 문장}

 c. 결측값 처리

   - 결측값: 데이터 중 고의 또는 실수로 누락된 값

   - 결측값 처리 방법:

    ㉮is.na이용: na 빈도알고 싶을 때 table(is.na(data)), na없는 값만 추출 air = airquality[!is.na(~~)]

    ㉯na.omit 이용: air = na.omit(airquality) 로 결측값 처리, 혹은 na.rm=T 로 설정

d. 이상값 처리

  - 논리적 혹은 통계학적으로 이상한 데이터

  - 이상값 제거: 조건식으로 필터링 혹은 이상값을 결측값으로 변경 후 !is.na() 사용

'빅데이터' 카테고리의 다른 글

[BigData] 데이터 가공과 시각화  (0) 2022.10.19
[BigData] 데이터 구조 R(기초)  (0) 2022.10.19