R Tutorial de programación

R Tutorial de programación
Desea para un programador de R Burnder a experto? R es uno del mejor lenguaje de programación para trabajar con estadísticas, matemáticas y ciencias de los datos. Este tutorial lo ayudará a aprender R y construir su primer modelo de aprendizaje automático. Empecemos.

Compilar y ejecutar R desde la línea de comandos

Las dos formas de ejecutar los programas R son: un script R, que se usa ampliamente y se prefiere más y el segundo es el lote R CMD, no es un comando comúnmente utilizado. Podemos llamarlos directamente desde la línea de comandos o cualquier otro programador de trabajo.

Es posible que llame a estos comandos desde un shell integrado en el IDE y hoy en día, el IDE RSTUDIO viene con herramientas que mejoran o administran el script R y las funciones de lotes de R CMD.

fuente () La función Inside R es una buena alternativa para usar la línea de comandos. Esta función también puede llamar a un script, pero para usar esta función, debe estar dentro del entorno R.

R conjunto de datos integrados en el lenguaje

Para enumerar los conjuntos de datos que están integrados con R, use el comando data (), luego encuentre lo que desea y use el nombre del conjunto de datos en la función Data (). Me gusta Data (FunctionName).

Mostrar conjuntos de datos en R

El signo de interrogación (?) podría usarse para pedir ayuda para conjuntos de datos.

Para verificar todo el resumen de uso ().

Plot () también es una función que se usa para trazar gráficos.

Creemos un script de prueba y lo ejecutemos. Crear P1.Riñonal Archivo y guárdelo el directorio de inicio con los siguientes contenidos:

Ejemplo de código:

 # Simple Hello World Code in R Print ("Hello World!") Imprimir (" Linuxhint ") Impresión (5+6) 

Corriendo Hello World

R marcos de datos

Para almacenar datos en tablas, utilizamos una estructura en r llamada Marco de datos. Se usa para enumerar vectores de igual longitud. Por ejemplo, la siguiente variable NM es un marco de datos que contiene tres vectores x, y, z:

x = c (2, 3, 5) y = c ("aa", "bb", "cc") z = c (true, falso, true) # nm es un marco de datos nm = datos.Marco (N, S, B) 

Hay un concepto llamado IncorporadoMarcos de datos en R también. tráqueos es uno de esos marcos de datos incorporado en R, que utilizaremos como ejemplo, para nuestra mejor comprensión. Vea el código a continuación:

 > mtcars mpg cyl disp hp drat wt ... mazda rx4 21.0 6 160 110 3.90 2.62 ... bus rx4 wag 21.0 6 160 110 3.90 2.88 ... DATSUN 710 22.8 4 108 93 3.85 2.32 .. 

MTCARS BULITIN DATAFRAME

El encabezado es la línea superior de la tabla que contiene los nombres de la columna. Las filas de datos son donadas por cada línea horizontal; Cada línea comienza con el nombre de la fila y luego seguido de los datos reales. El miembro de datos de una fila se denomina celda.

Ingresaríamos las coordenadas de la fila y la columna en un operador '[]' 'de un solo soporte cuadrado para recuperar datos en una celda. Para separar las coordenadas, usamos una coma. El orden es esencial. La coordenada comienza con la fila y luego termina con la columna. Valor celular de 2Dakota del Norte fila y 1calle La columna se da como:

 > Mtcars [2, 2] [1] 6 

También podemos usar el nombre de la fila y la columna en lugar de las coordenadas:

 > mtcars ["bus rx4", "mpg"] [1] 6 

La función NROW se utiliza para encontrar el número de filas en la trama de datos.

 > nrow (mtcars) # número de filas de datos [1] 32 

La función NCOL se utiliza para encontrar el número de columnas en un marco de datos.

 > ncol (mtcars) # número de columnas [1] 11 

R bucles de programación

En algunas condiciones, usamos bucles cuando queremos automatizar alguna parte del código, o queremos repetir una secuencia de instrucciones.

Para bucle en r

Si queremos imprimir la información de estos años más de una vez.

 Print (Paste ("El año es", 2000)) "El año es 2000" Impresión (Paste ("El año es", 2001)) "El año es 2001" Impresión ("El año es", 2002) ) "El año es 2002" Impresión (Paste ("El año es", 2003)) "El año es 2003" Impresión (Paste ("El año es", 2004)) "El año es 2004" Impresión (Paste "(Paste (" El año es ", 2005))" El año es 2005 " 

En lugar de repetir nuestra declaración una y otra vez si usamos para bucle será mucho más fácil para nosotros. Como esto:

 para (año en C (2000,2001,2002,2003,2004,2005)) imprime (pegar ("el año es", año)) "El año es 2000" "El año es 2001" "El año es 2002 "" El año es 2003 "" El año es 2004 "" El año es 2005 " 

Mientras que el bucle en r

 while (expresion) declaración 

Si el resultado de la expresión es verdadero, se ingresa el cuerpo del bucle. Las declaraciones dentro del bucle se realizan y el flujo vuelve a evaluar la expresión nuevamente. El bucle se repetirá hasta que la expresión se evalúe en falso, en cuyo caso sale el bucle.

Ejemplo de bucle while:

 # i inicialmente se inicializa a 0 i = 0 while (i<5)  print (i) i=i+1  Output: 0 1 2 3 4 

En el bucle anterior, la expresión es i<5que mide a verdadero ya que 0 es inferior a 5. Por lo tanto, se ejecuta el cuerpo del bucle y i es salida e incrementado. Es importante incrementar i dentro del bucle, por lo que de alguna manera cumplirá con la condición en algún momento. En el siguiente bucle, el valor de i es 1 y el bucle continúa. Se repetirá hasta i es igual a 5 cuando la condición 5<5 reached loop will give FALSE and the while loop will exit.

R Funciones

Para crear un función Usamos la función de directiva (). Específicamente, son R objetos de clase función.

F <- function()  ##some piece of instructions  

En particular, las funciones podrían pasar a otras funciones, ya que los argumentos y las funciones podrían anidarse, para permitirle determinar una función dentro de otra función.

Las funciones opcionalmente pueden tener algunos argumentos nombrados que tienen valores predeterminados. Si no desea un valor predeterminado, puede establecer su valor en NULL.

Algunos hechos sobre los argumentos de la función R:

  • Los argumentos admitidos en la definición de función son los argumentos formales
  • La función de formales podría devolver una lista de todos los argumentos formales de una función
  • No todas las funciones llamadas en R usan todos los argumentos formales
  • Los argumentos de la función pueden tener valores predeterminados, o pueden faltar
#Definiendo una función: F <- function (x, y = 1, z = 2, s= NULL)   

Creación de un modelo de regresión logística con conjunto de datos incorporado

El Glm () la función se usa en R para adaptarse a la regresión logística. La función glm () es similar a la lm () pero glm () tiene algunos parámetros adicionales. Su formato se ve así:

 Glm (x ~ z1+z2+z3, familia = binomial (link = "logit"), data = myData) 

X depende de los valores de Z1, Z2 y Z3. Lo que significa que Z1, Z2 y Z3 son variables independientes y X es la función dependiente involucra una familia de parámetros adicional y tiene un valor binomial (link = "logit") que significa que la función de enlace es logit y la distribución de probabilidad del modelo de regresión es binomial.

Supongamos que tenemos un ejemplo de estudiante donde obtendrá la admisión sobre la base de dos resultados del examen. El conjunto de datos contiene los siguientes elementos:

  • Resultado _1- Result-1 puntuación
  • Resultado _2- Result -2 puntuación
  • admitido- 1 si admite o 0 si no admite
  • En este ejemplo, tenemos dos valores 1 si un estudiante obtuvo la admisión y 0 si no recibió admisión. Tenemos que generar un modelo para predecir que el estudiante obtuvo la admisión o no,. Para un problema dado, admitido se considera una variable dependiente, el examen_1 y el examen_2 se consideran variables independientes. Para ese modelo, nuestro código R se da

     > Model_1<-glm(admitted ~ result_1 +result_2, family = binomial("logit"), data=data) 

    Supongamos que tenemos dos resultados del estudiante. Result-1 65% y resultado-2 90%, ahora predeciremos que el estudiante obtiene la admisión o no para estimar la probabilidad de que el estudiante obtenga que nuestro código R es el siguiente:

     > in_framePredict (model_1, in_frame, type = "respuesta") Salida: 0.9894302 

    La salida anterior nos muestra la probabilidad entre 0 y 1. Si entonces es menos de 0.5 Significa que el estudiante no recibió admisión. En esta condición, será falso. Si es mayor que 0.5, la condición se considerará como cierta, lo que significa que el estudiante tiene admisión. Tenemos que usar la función redonda () para predecir la probabilidad entre 0 y 1.

    El código R para eso es como se muestra a continuación:

     > Round (Predict (model_1, in_frame, type = "respuesta")) [/código] salida: 1 

    Un estudiante obtendrá la admisión ya que la salida es 1. Además, también podemos predecir para otras observaciones de la misma manera.

    Uso del modelo de regresión logística (puntuación) con nuevos datos

    Cuando sea necesario, podemos guardar el modelo en un archivo. El código R para nuestro modelo de tren se verá así:

     el modelo <- glm(my_formula, family=binomial(link='logit'),data=model_set) 

    Este modelo se puede guardar con:

     guardar (file = "nombre de archivo", the_file) 

    Puede usar el archivo después de guardarlo, utilizando esa paz del código R:

     load (file = "nombre de archivo") 

    Para aplicar el modelo para nuevos datos, puede usar esta línea de un código:

     model_set $ pred <- predict(the_model, newdata=model_set, type="response") 

    NOTA: El modelo_set no se puede asignar a ninguna variable. Para cargar un modelo usaremos la función de la función (). Las nuevas observaciones no cambiarán nada en el modelo. El modelo seguirá siendo el mismo. Utilizamos el modelo antiguo para hacer predicciones sobre los nuevos datos para no cambiar nada en el modelo.

    Conclusión

    Espero que hayas visto cómo funciona la programación R de una manera básica y cómo puedes entrar rápidamente en acción haciendo el aprendizaje automático y la codificación de estadísticas con R.