
1. 파일 읽기: read.table 함수 -> 일반 텍스트 파일을 읽어 데이터 프레임 생성
read.csv 함수 -> CSV파일 읽어 데이터 프레임 생성
2. 파일 쓰기: write.table , write.csv

3. 데이터 정제
- 데이터 정제를 위해 특정 조건에 맞는 값을 찾아내거나 일부 구간 값을 추출하여 연산하는 등 목적에 맞게 작업
a. 조건문 형식
㉮ []에 행/열 조건 명시(변수명[행 조건식, 열 조건식])
- 벡터일때, test = c(1,2,3,NA,5) -> test[test<40] ....
- 데이터프레임일때, character = data.frame(....) -> character[character$gender="F"]
㉯ if 문 사용(if, else if, else, ifelse)
- x=5, if(x%%2==0) print("짝수") else print("홀수")
- ifelse(조건식, 참인경우 반환값, 거짓인 경우 반환값)
b. 반복문 형식
㉮repeat{ 반복할 문장}
㉯while(조건식) [ 참일떄 수행할 문장}
㉰for(변수 in 데이터){ 반복할 문장}
c. 결측값 처리
- 결측값: 데이터 중 고의 또는 실수로 누락된 값
- 결측값 처리 방법:
㉮is.na이용: na 빈도알고 싶을 때 table(is.na(data)), na없는 값만 추출 air = airquality[!is.na(~~)]
㉯na.omit 이용: air = na.omit(airquality) 로 결측값 처리, 혹은 na.rm=T 로 설정
d. 이상값 처리
- 논리적 혹은 통계학적으로 이상한 데이터
- 이상값 제거: 조건식으로 필터링 혹은 이상값을 결측값으로 변경 후 !is.na() 사용
'빅데이터' 카테고리의 다른 글
[BigData] 데이터 가공과 시각화 (0) | 2022.10.19 |
---|---|
[BigData] 데이터 구조 R(기초) (0) | 2022.10.19 |