180 likes | 267 Views
R básico para Data Mining. Diego Cesar F. de Queiroz - dcfq. Introdução ao R. R é um linguagem (ambiente) de programação para computação estatística e gráfica Baseada na linguagem S (S-Plus) O ambiente R é flexível Pode ser estendido através de pacotes Open source e gratuito.
E N D
R básico para Data Mining Diego Cesar F. de Queiroz - dcfq
Introdução ao R • R é um linguagem (ambiente) de programação para computação estatística e gráfica • Baseada na linguagem S (S-Plus) • O ambiente R é flexível • Pode ser estendido através de pacotes • Open source e gratuito
Introdução ao R • Homepagedo projeto • http://cran.r-project.org/ • O R é atualizado pelo menos a cada 6 meses • R version 2.9.0 has been released on 2009-04-17. • Usarhttp://www.rseek.org/aoinvés do googleparabuscarcoisasrelacionadasao R.
Observações • Dados são armazenados no “R” como um vetor • a=4 • a[1] • O índice da primeira posição do vetor é sempre 1 • Comentários devem ser precedidos por ‘#’ • A função c() serve para concatenar em forma vetorial. • vetor <- c(1,2,3,4,5,6)
Observações • Para sair • >q () • Para obter ajuda sobre um comando • >help (<nome do comando>) • Se não sabe o nome do comando completo • >help.search (“<parte do comando>”) • >apropos(“parte do nome do comando”)
Entrada e Saída – read.table • O comando setwd ajusta o diretório de trabalho • setwd(“c:/temp”) • Para ler arquivos com nomes de colunas na primeira linha, use • variavel <- read.table (“filename.ext”, header=TRUE) • Para obter os vetores de cada coluna rotulada • variavel$nomedacoluna
Entrada e Saída – scan • O comando setwd ajusta o diretório de trabalho • setwd(“c:/temp”) • Para ler arquivos com nomes de colunas na primeira linha, use • variavel <- scan (“datafile2.dat”, what=list (x=0,y=0)) • Para obter os vetores de cada coluna rotulada • variavel$x • variavel$y
Entrada e Saída – read.csv • Para ler arquivos separados por vírgula ou ponto e vírgula, use • variavel <- read.csv(“filename.csv", sep=";", dec=",",header=FALSE) • Para obterosvetores • variavel$x • variavel$y
Entrada e saída – edit() • Por fim, para digitar os dados em formato de tabela pode-se utilizar o comando edit() • variavel <- edit(data.frame())
Entrada e Saída write.table() e write.csv() • Para salvar um objeto do R podemos utilizar o write.table ou write.csv • write.table(objectname, file =“filename.ext”, sep=“,”) • write.csv(objectname, file =“filename.ext”)
Matrizes • Para definir um conjunto de números como uma matriz utilizamos a função matrix: • m <- matrix(c(1,2,3,11,12,13), nrow = 2, ncol=3, byrow=TRUE)
Operações matemáticas • entre matrizes e números: • se x é uma matriz, temos: • soma: x + 2 • subtração: x - 2 • produto: x * 2 • divisão: x / 2 • potência: x ^ 2 • divisão inteira: x % / % 2 • mod: x %% 2
Operações matemáticas • entre matrizes: • se x e y são matrizes, temos: • soma: x + y • subtração: x - y • produto: x %*% y
Operadores lógicos • maior que: > , >= • menor que: < , <= • igual a: == • diferente de: != • para expressões: • and: & • or: | • not: !
Algumas funções úteis • min() • max() • sum() • mean() • median() • sd() • cor() • var() • cov() • hist() • cbind() • rbind()
Funções de plotagem – plot() • A função plot é a função padrão de desenho no R, todas as outras funções de desenho a utilizam como base • plot(c(1:9),c(1:9), xlab=“Eixo x”, ylab=“Eixo y”) • Existem algumas variações utilizando o parâmetro ‘type’, ex: type=‘l’
Funções de plotagem – boxplot() • A função boxplot cria boxplot de tipos variados, ela pode ser utilizada de maneira singular: • boxplot(c(1:9)) • Pode-se também desenhar vários boxplots simultaneamente com • boxplot(c(1:9),(c(1:9)/10))
R básico para Data Mining Diego Cesar F. de Queiroz - dcfq