1. 데이터 저장 및 처리
a. 변수: 데이터 저장 공간
( x = 1, z = x + y , z <- x+y ...)
b. 데이터형: 숫자형(int:정수, num:실수, cplx:복소수)
문자형(chr: 작은따옴, 큰 따옴 묶어 표기)
범주형(factor: 레벨에 따라 분류)
논리형 (TRUE, FALSE)
특수상수(NULL, NA. NaN)
c. 연산자: 산술, 비교, 논리연산자
d. 데이터 구조:
- 벡터: 단일값들의 모임( 여러 단일 값 하나의 변수 명으로 저장 가능)
≫ 생성법: 벡터 생성 연산자 ':' + vector함수 + c(combine)함수:일반벡터 + seq(sequence)함수:순열벡터 + Rep(repeat)함수:반복벡터 (ex. vector(length=5), c(1:5), c(1,2,c(3:6)), x = c(1,2,3))
≫ 연산: 요소값 출력 ex. x=c(2,4,6,7,8) x[c(1,2,3] -> 2,4,6 + head, tail함수: 앞 뒤 데이터 6개 추출을 기본
- 배열: 열과 행을 가지는 데이터 집합, 벡터의 요소들이 다시 벡터로 구성된 형태
≫ 배열 생성함수: array(data, dimension, dimnames) -> N차원 배열, matrix(data, nrow, ncol, byrow, dimnames) -> 2차원 배열
≫ 연산: apply 함수(배열 행 또는 열별 함수적용), dim 함수(배열 크기)
- 데이터프레임: 서로 다른 데이터 형이 표 형태로 정리된 구조(각 속성 크기가 같음)
≫ 생성함수: data.frame()
≫ 유용함수: attach(적용) - detach(해제): 데이터프레임 속성명을 변수명으로 변경
awith: 데이터 프레임에 다양한 함수 적용 ex. with(cars, mean(speed))
subset: 데이터 프레임에서 일부 데이터만 추출 ex subset(cars, speed > 20)
na.omit: 데이터 프레임의 결측값(NA) 제거
merge: 여러 데이터 프레임 결합(동일 key값 기준)
- 리스트: 데이터 프레임과 유사한 표 형태의 구조(각 속성 크기 달라도 가능
≫ 생성함수: list()
≫ 요소접근: $, [[]] ex. list[[1]]
≫ 유용함수: lappy - sapply 함수: 리스트 요소에 다양한 함수 적용
'빅데이터' 카테고리의 다른 글
[BigData] 데이터 가공과 시각화 (0) | 2022.10.19 |
---|---|
[BigData]파일 읽고 쓰기와 데이터 정제 (0) | 2022.10.19 |