Blog de Estadística Descriptiva

miércoles, 13 de julio de 2022

Módulo III

SOFTWARE ESTADÍSTICOS

Paquetes libres y comerciales.

Este es un conjunto de programas informáticos específicamente diseñados para el análisis estadístico de datos con el propósito de dar solución a problemas bien sea de estadística descriptiva ó inferencial, o de ambos. Este conjunto de programas y subprogramas se encuentran conectados de manera que funcionan de conjunta, es decir que para pasar de uno a otro no se necesita salir del programa y volver a él.

Un programa estadístico es un producto de software que sirve para realizar tareas estadísticas; y lo que se espera de él que lea los datos, reciba ordenes y ejecute el análisis de los mismos. Los paquetes estadísticos actuales superan esas mínimas de manera que permiten:

a) Crear nuevas variables

b) Seleccionar variables y sujetos

c) Reconocer y generar datos en ASCII

d) Añadir las variables creadas al archivo en uso

e) Varios formatos de integración programa-usuario

f) Controlar aspectos del entorno de trabajo

Dentro de los paquetes estadísticos más utilizados están: SAS, BMDP, SPSS, SYSTAT, STATISTICA, STATA y, últimamente están, MINITAB, S-PLUS, EVIEWS, STAT-GRAPHICS y MATLAB.

También se pueden encontrar: R, Past, Open Stat, Genstat Discovery Editión 3.

A continuación se describirán algunos de los de mayor uso.

a. SPSS (Statistical Package for The Social Sciences o Paquete Estadistico para la Ciencias Sociales):

Este programa, desarrollado en la Universidad de Chicago, es uno de los más difundidos, Hernández, Fernández y Batista, p: 410.

Es un paquete Estadístico, de uso general, que integra procedimientos estadísticos y gráficos iteractivos de alta resolución, de tal manera que sirve de apoyo al análisis de datos. Es útil entre otros aspectos para realizar análisis exploratorio desde el punto de vista gráfico, de igual manera se utiliza para realizar análisis estadístico simple y/o avanzado. El programa sirve para profundizar en temas como: Métodos Cuantitativos, Métodos de Investigación, Segmentación de Mercados, Finanzas, Inferencia Estadística, Análisis Multivariado, Pronósticos con series de Tiempo, Métodos Multivariados y otros más.

b. SAS (Statistical Analysis System)

Comprende amplias posibilidades de procedimientos estadísticos (métodos multivariados, regresión múltiple con posibilidades diagnósticas, análisis de supervivencia con riesgos proporcionales y regresión logística) y permite cálculos exactos para tablas r x c y contiene potentes posibilidades gráficas.

· Todos los procedimientos pueden emplearse de una sola ejecución

· Los resultados pueden guardarse como archivos y usarse como entradas para

futuras ejecuciones.

· Es particularmente útil en la gestión de datos y en la redacción de informes

· Algunos procedimientos tienen varias opciones por lo cual debe examinarse

cuidadosamente el manual antes de seleccionar la opción deseada.

· SAS ofrece la mayor flexibilidad para personalizar el manejo y análisis de datos,

sin embargo su principal inconveniente es que no resulta fácil aprender a usarlo.

c. BMDP

Es el más antiguo de los paquetes. El primer manual para BMD Biomedical Computers Programs se publicó en 1961.En 1975 pasó a denominarse BMDP. Cubre un amplio abanico de métodos estadísticos pero su capacidad para manejar datos es limitada, dentro de sus desventajas se puede mencionar: Sus programas se ejecutan por separado,solo puede accederse a uno de ellos en cada ejecución. Los resultados de cada programa se pueden guardar en un archivo de BMDP y utilizarse como entrada en otros programas.

d. STATISTICA:

Statistica (aunque la marca está registrada como STATISTICA, en mayúsculas) es un paquete estadístico usado en investigación, minería de datos y en el ámbito empresarial. Lo creó StatSoft, empresa que lo desarrolla y mantiene.

StatSoft nació en 1984 de un acuerdo entre un grupo de profesores universitarios y científicos.

Sus primeros productos fueron los programas PsychoStat-2 y PsychoStat-3. Después desarrolló Statistical Supplement for Lotus 1-2-3, un complemento para las hojas de cálculo de Lotus. Finalmente, en 1991, lanzó al mercado la primera versión de STATISTICA para MS-DOS

Actualmente compite con otros paquetes estadísticos tanto propietarios, como SPSS, SAS, Matlab o Stata, como libres, como R.

El programa consta de varios módulos. El principal de ellos es el Base, que implementa las técnicas estadísticas más comunes. Éste puede completarse con otros módulos específicos tales como:

Advanced: técnicas multivariantes y modelos avanzados de regresión lineal y no lineal

QC: técnicas de control de calidad, análisis de procesos (distribuciones no normales,Gage R&R, Weibull) y diseño experimental

Data Miner: minería de datos, análisis predictivos y redes neurales

El paquete puede ser extendido a través de una interfaz con el lenguaje R. Además, se pueden modificar y añadir nuevas librerías usando el lenguaje NET.

e. MINITAB:

Es un programa de computadora diseñado para ejecutar funciones estadísticas básicas y avanzadas. Combina lo amigable del uso de Microsoft Excel con la capacidad de ejecución de análisis estadísticos. En 1972, instructores del programa de análisis estadísticos de la Universidad Estatal de Pensilvania (Pennsylvania State University) desarrollaron MINITAB como una versión ligera de OMNITAB, un programa de análisis estadístico del Instituto Nacional de Estándares y Tecnología (NIST) de los Estados Unidos.

Este programa es un paquete estadístico que abarca todos los aspectos necesarios para el aprendizaje y la aplicación de la estadística en general. El programa incorpora opciones vinculadas a las principales técnicas de análisis estadísticos (análisis descriptivo, contrastes de hipótesis, regresión lineal y no lineal, series temporales, análisis de tiempos de fallo, control de calidad, análisis factorial, ANOVA, análisis cluster, etc), además de proporcionar un potente grafico y de ofrecer total compatibilidad con los editores de texto, hojas de cálculo y bases de datos más usuales.

f) MATLAB:

Nace como una solución a la necesidad de mejores y más poderosas herramientas de cálculo para resolver problemas de cálculo complejos en los que es necesario aprovechas las amplias capacidades de proceso de datos de grandes computadores.

Éste es un entorno de computación y desarrollo de aplicaciones totalmente integrado orientado para llevar a cabo proyectos en donde se encuentren implicados elevados cálculos matemáticos y la visualización gráfica de los mismos. MATLAB integra análisis numérico, cálculo matricial, proceso de señal y visualización gráfica en un entorno completo donde los problemas y sus soluciones son expresados del mismo modo en que se escribirían tradicionalmente, sin necesidad de hacer uso de la programación tradicional.

Está dirigido a ingenieros y científicos, éste requiere que el operador adquiera conocimientos en su lenguaje de programación, se ejecuta principalmente a través de una interfaz de línea de comandos y es más pesado al momento de instalarse, además requiere mayor capacidad en el disco duro, un equipo más rápido (mayor memoria RAM).

Para finalizar se puede decir que MATLAB es un lenguaje de alto nivel y un entorno interactivo para el cálculo numérico, visualización y programación. Usando MATLAB, puede analizar los datos, desarrollar algoritmos y crear modelos y aplicaciones. El lenguaje, las herramientas y funciones matemáticas integradas que permiten explorar múltiples enfoques y llegar a una solución más rápida que con hojas de cálculo o lenguajes de programación tradicionales, como C / C + + o Java.

g. R:

Es un lenguaje y entorno de programación para análisis estadístico y gráfico. Se trata de un proyecto de software libre, resultado de la implementación GNU del premiado lenguaje S. R y S-Plus -versión comercial de S- son, probablemente, los dos lenguajes más utilizados en investigación por la comunidad estadística, siendo además muy populares en el campo de la investigación biomédica, la bioinformática y las matemáticas financieras. A esto contribuye la posibilidad de cargar diferentes bibliotecas o paquetes con finalidades específicas de cálculo o gráfico.

Este programa se distribuye bajo la licencia GNU GPL y está disponible para los sistemas operativos Windows, Macintosh, Unix y GNU/Linux. Fue desarrollado inicialmente por Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad de Auckland en 1993. Su desarrollo actual es responsabilidad del R Development Core Team.

A continuación se enumeran algunos hitos en el desarrollo de R

· Versión 2.11.0 (22 de abril de 2010): Soporte para sistemas Windows de 64 bits.

· Versión 2.13.0 (14 de abril de 2011): Añadida una nueva función al compilador que permite acelerar las funciones convirtiéndolas a byte-code.

· Versión 2.14.0 (31 de octubre de 2011): Añadidos espacios de nombres obligatorios para los paquetes. Añadido un nuevo paquete de paralelización.

· Versión 2.15.0 (30 de marzo de 2012): Nuevas funciones de balanceo de cargas. Mejorada la velocidad de serialización para grandes vectores.

· Versión 3.0.0 (3 de abril de 2013): Mejoras en GUI, funciones gráficas, gestión de memoria, rendimiento e internacionalización.

El mayor inconveniente que podría presentarse con este software más utilizado en nuestro medio es el hecho de funcionar mediante comandos, lo que para algunos usuarios puede resultar engorroso. Para solventar esta dificultad existe un paquete llamado R Commander que permite utilizar R sin tener que escribir los comandos, es decir, con la sola utilización del ratón.

h) Past (Paleontological STatistics: Estadísticas Paleontológicas):

Past es el software libre para el análisis de datos científicos, con funciones de manipulación de datos, el trazado, estadísticas univariantes y multivariantes, análisis ecológico de series de tiempo y análisis espacial, morfometría y la estratigrafía.

Este programa pasó por un rediseño completo en 2013. La nueva versión 3 aún no contiene toda la gama de funciones del antiguo pasado, pero estamos trabajando en ello!

El programa, llamado PAST (PAleontological STatistics: Estadísticas Paleontológicas), funciona en ordenadores con sistema operativo Windows y es de libre disposición (gratuito). PAST incluye entrada de datos del tipo hoja de cálculo, con estadísticas univariante y multivariante, ajuste de curvas, análisis de series temporales, representación gráfica de datos y análisis filogenético sencillo.

Muchas de las funciones son específicas para paleontología y ecología, y no se encuentran en paquetes de análisis estadístico estándar, de carácter más amplio. PAST también incluye catorce ejemplos (archivos de datos y ejercicios) que ilustran el uso del programa en problemas paleontológicos, lo que lo convierte en un paquete educativo completo para asignaturas sobre métodos cuantitativos.

i) Open Stat:

Es un paquete estadístico de software libre fue desarrollado por William Miller, diseñado especialmente para Windows y Linux (para este sistema operativo se trabaja la versión LinOStats) que ofrece una interfaz similar a SPSS. Inicialmente este software fue desarrollado como apoyo a los estudiantes y profesores en el área de estadística introductoria y avanzada de las ciencias sociales, Pico y Manzón, 2007 p: 11.

Open Stat se puede descargar de manera gratuita en Internet y ser usado diversos campos sin necesidad de tener una licencia para su uso y/o reproducción, es decir que se puede descargar e instalar sin costo. No obstante, no se puede modificar puesto que está restringido el acceso a su código fuente, Pico y Manzón, 2007 p: 11.

OpenStat (OS4), conocido antes como OS3 y OS2, es uno de los más funcionales que encontramos en el software libre, ya que tiene acceso a muchas aplicaciones de manera directa sin necesidad de programación, además presenta una interfaz muy amigable y menús que permiten acceder a diferentes análisis desde cualquier lugar del programa, Pico y Manzón, 2007 p:11.

Este paquete estadístico permite la manipulación de datos, cálculos estadísticos, financieros y económicos; además que cuenta con una interfaz similar a la de SPSS, genera gráficos sencillos de las distribuciones e histogramas y es capaz de trabajar con datos de diversos formatos (bin, tex, txt, s4u, entre otros), Pico y Manzón, 2007 p:8.

Algunas de sus características se mencionan a continuación:

· Una interfaz amigable

· Varias opciones de gráficas como pie, barras, líneas e incluso plots.

· Menú de ayuda gráfico y teórico como apoyo para realizar simulaciones y análisis para procedimientos descriptivos, de variabilidad, correlación, regresiones (simple, múltiple), probabilidad y financieros entre otros.

· Cuenta con calculadora, procesador de textos y editor de textos y opciones que nos permiten cambiar fácilmente las configuraciones iniciales.

· Código ASCII (Código Normalizado Americano para Intercambio de la Información), el cual permite ver el número del último carácter integrado en la celda.

j) Genstat Discovery Edition 3:

Es un paquete de análisis comercial desarrollado por VSN International, una compañía de desarrollo de software para biociencias, pero que para ciertos países puede ser descargado gratuitamente previo registro. Aunque su interfase es amistosa, sus salidas no lo son tanto y no son muy completas. Tiene la ventaja eso sí, que se puede importar el código de R y usarlo en sus propias rutinas.

Archivo de datos

Es un proceso de transformación de datos en información utilizable que a menudo se presenta en forma de un artículo analítico publicado, con el fin de agregar valor a la producción estadística.

Variables y sus atributos

Las variables, también suelen ser llamados caracteres cuantitativos, son aquellos que pueden ser expresados mediante números. Son caracteres susceptibles de medición. Como por ejemplo, la estatura, el peso, el salario, la edad, entre otros. Según, Murray R. Spiegel, (1992) "una variable es un símbolo, tal como X, Y, Hx, que puede tomar un valor cualquiera de un conjunto determinado de ellos, llamado dominio de la variable. Si la variable puede tomar solamente un valor, se llama constante."

Todos los elementos de la población poseen los mismos tipos de caracteres, pero como estos en general no suelen representarse con la misma intensidad, es obvio que las variables toman distintos valores. Por lo tanto estos distintos números o medidas que toman los caracteres son los "valores de la variable". Todos ellos juntos constituyen una variable.

Los atributos también llamados caracteres cualitativos, son aquellos que no son susceptibles de medición, es decir que no se pueden expresar mediante un número.

IUTIN (1997). "Reciben el nombre de variables cualitativas o atributos, aquellas características que pueden presentarse en individuos que constituyen un conjunto.

La forma de expresar los atributos es mediante palabras, por ejemplo; profesión, estado civil, sexo, nacionalidad, entre otros. Puede notar que los atributos no se presentan en la misma forma en todos los elementos. Estas distintas formas en que se presentan los atributos reciben el nombre de "modalidades".

Creación de archivo de datos
(SPSS)

Cuando se inicia la sesión con SPSS aparece el editor de datos en blanco, ya reparado para crear las variables y entrar sus correspondientes valores.

1. Definir las variables. Antes de introducir los datos es preciso definir las variables, es decir, especificar el nombre de la

variable y el tipo de datos que contendrá cada columna.

Puede hacerse con opciones de menú:

Datos

Insertar variable

Con lo que se define la variable con las características por defecto o activando Vista de variables.

El Nombre de la variable debe empezar por una letra y como máximo puede tener 8 caracteres. No puede contener espacios en blanco, caracteres especiales (¡ , ?, ', *) ni palabras clave SPSS (ALL, AND, NOT, OR...). Lógicamente no puede asignarse el mismo nombre a dos o más variables.

El Tipo de variable por defecto es numérico con 8 dígitos, 2 de ellos decimales. Para modificarlo se debe seleccionar el botón

lateral y se accede al cuadro de diálogo Tipo de variable:

Los tipos más frecuentes son:

• Numérico: presenta los decimales separados por un punto o coma dependiendo de la configuración numérica del ordenador.

• Coma: presenta los millares separados por una coma y los decimales por un punto.

• Punto: presenta los millares separados por un punto y los decimales por una coma.

• Fecha: abre un amplio directorio de formatos fecha.

• Cadena: recoge variables no numéricas y alinea a la izquierda sus categorías.

La columna Etiqueta permite asignar una descripción a la variable. Las etiquetas de las variables no pueden exceder de 120 caracteres.

La columna Valores permite asignar etiquetas a los valores de la variable. Éstos son especialmente útiles cuando la variable es categórica y se emplean números para representar las categorías. Por ejemplo: 0 'hombre' 1 'mujer'.

La columna Valores perdidos abre un cuadro de diálogo que permite especificar el código de valores missing que se asigna a la variable.

En Columna y Alineación se puede modificar el ancho y la alineación del contenido de la columna.

Por último, se puede especificar la escala de medida de la variable eligiendo entre: Escala, Ordinal y Nominal.

2. Entrar los datos: Los datos pueden ser tecleados en el orden que más convenga: por filas (elementos) o por columnas (variables). Para desplazar el cursor a la fila siguiente se debe pulsar la tecla Enter, mientras que para desplazarlo a la siguiente columna la tecla es Tab. Si se quiere acceder de forma rápida a una fila o columna determinada se pueden utilizar los iconos.

Importación y exportación de archivos de datos.

La importación de datos es un proceso que consiste en introducir información externa, previamente ordenada y clasificada a un programa de gestión.

Ventajas de utilizar la Importación de Datos

Facilidad para instalarlas

Utilizar un software de importación de datos no representa una instalación costosa o un proceso de adaptación muy duro.

Trabajo en la nube.

Muchas de las herramientas de importación, tienen su interfaz en la nube, por lo que podremos acceder al programa en cualquier momento y desde cualquier dispositivo.

Ahorro de tiempo.

Una de las mayores ventajas es el ahorro de tiempo para el trabajador, ya que implantando una de estas herramientas, automatizarás muchas de las tareas más repetitivas y costosas en tiempo del día a día.

Más control.

Utilizando uno de estos software, además de ahorrarte mucho tiempo, obtendrás información en forma de datos que podrás ofrecer a tu cliente, lo que te permitirá mejorar tu servicio.

Exportar significa "forzar" a una aplicación a crear un documento que la misma aplicación no podrá editar luego, o bien podrá editar solo a partir de su posterior importación. En algunos casos, la aplicación que exportó el archivo ni siquiera podrá leerlo luego.

Manipulación de archivos de datos

El manejo de archivp detos es una disciplina que estudia el tratamiento adecuado en las organizaciones a ciertos activos de información denominados. Un Archivo es un activo de información, digital o en papel, que refleja la historia o memoria de la organización respecto a sus actividades. Ejemplos de estos activos son facturas, pedidos, documentos contables, actas, correo electrónico, etc.

Dichos activos se caracterizan por:

No deberían ser alterables una vez creados.
Existe algún tipo de exigencia legal o corporativa para que sean conservados durante un periodo mínimo de tiempo.
Tienen valor para la organización.

La mayoría de los archivos tienen forma de documento, en papel o en formato digital, motivo por el que esta disciplina está íntimamente asociada a la de gestión documental.

Manipulación de variables

Manipulación experimental de una variable independiente se refiere, en una situación simple, a la aplicación de un valor dado de una variable a un grupo de individuos y un valor diferente de la misma variable a un segundo grupo de individuos.

Manipulación de datos

La manipulación de datos es el proceso de cambiar o alterar datos para hacerlos más legibles y organizados. Por ejemplo, puede ordenar los datos alfabéticamente para acelerar el proceso de búsqueda de información útil. Otro ejemplo de manipulación de datos es la gestión de sitios web.

Aplicaciones de Software Estadísticos

¿Qué es el análisis descriptivo?

Uno de los enfoques para el estudio y análisis de los estudios que se extraen de métodos estadísticos es el del análisis descriptivo. Un tipo de aproximación con el que se analizan los datos procediendo a su descripción y sin una hipótesis previa que deba ser o no falseada.

Análisis Descriptivo en Estadística

La estadística es la disciplina encargada de estudiar el comportamiento de entidades e individuos, ya se trate de observar grupos sociales o conjuntos de datos científicos.

En el caso de la estadística de análisis descriptivo, este tipo de metodología proporciona un enfoque por el que se confecciona un resumen de información que dan los datos de una muestra. Es decir, su meta es hacer síntesis de la información para arrojar precisión, sencillez y aclarar y ordenar los datos.

Por ejemplo, el censo de las personas que acudieron al hospital en un año o un mes determinado es análisis descriptivo. Después de recoger los datos, éstos se presentarán a través de gráficas o infografías describiéndolos.

¿Cuál es el objetivo del análisis descriptivo?

El análisis descriptivo da respuesta a alguna pregunta formulada al inicio del despliegue estadístico para:

-Recolectar y ordenar la información por medio de gráficas y medios visuales.

-Extraer las características más representativas de una colección de datos.

-Describir tendencias.

Análisis descriptivo: claves e inconvenientes

Una de las principales características y beneficios del análisis descriptivo es que quien que investiga mantiene una posición neutral poco manipuladora de los datos por sesgos personales. Así, el análisis descriptivo presenta ventajas como:

-Es un método expansivo que ahonda de manera muy amplia los sucesos.

-Supone un método preciso para recoger información y proceder posteriormente a describir las relaciones que se dan entre los datos.

-Gracias a este análisis quien investiga puede acercarse a comprender un problema o fenómeno. Se pueden averiguar rasgos de la población usando información cuantitativa y también cualitativa.

Entre los inconvenientes y puntos negativos de este tipo de análisis:

-Al llevarse a cabo encuestas como método de recolección de datos hay que tener en cuenta que las personas encuestadas pueden dar respuestas poco veraces, repercutiendo en la calidad del propio análisis.

-Para obtener los datos que se necesitan el diseño de la encuesta debe ser apropiado y ajustado al objetivo.

-Existe el peligro de que aparezca un sesgo en la investigación debido a la tendencia a validar datos esperados y descartar los que no cuadran con el diseño previo del estudio. Hay que encontrar la manera de incorporar estos datos al análisis, aunque abran nuevas preguntas que resolver.

-Hay que evitar generalizar y construir las conclusiones basándose en un caso descrito.

Así pues, el análisis descriptivo estadístico puede proceder aplicando variables a los datos para dar forma a la información y asociarla a través de medias, razones, promedios y proporciones. Para describir una tendencia o las características de la población se suele tomar una muestra controlada de ella y extrapolar las conclusiones al resto de individuos.

¿Qué es una variable nominal?

Una variable nominal es un tipo de variable estadística de tipo cualitativo que expresa con nombre una cualidad no necesariamente ordenable.

Dentro de las variables estadísticas podemos encontrarnos, por norma general, dos grandes tipos: cualitativas y cuantitativas.

Así pues, dentro de las variables cualitativas nos encontramos con las nominales. Las cuales, aunque se expresan también con un nombre, se diferencian de las ordinales, en que no necesariamente llevan un orden. Por ejemplo, decir que Juan tiene los ojos verdes, es el caso de una variable nominal. Si tuviéramos una población, ¿cómo podríamos ordenar los colores? ¿De mayor a menor? Salvo que establezcamos una medida, por norma general, no podemos ordenar diferentes colores.

Ejemplo de variables nominales

A continuación tenemos varios ejemplos de variables nominativas:

-Nacionalidad. Por ejemplo, mexicano, argentino y español.

-Sexo. Hombre o mujer.

-Religión. Las diferentes religiones.

-Color de piel, de ojos o pelo.

-Ideología económica. Capitalismo, socialismo, economía mixta, etc.

-Ideología política. Según el diagrama de Nolan tendríamos conservador, progresista, centro, liberal y totalitario.

(Figura) Representación del Diagrama de Nolan en la Política Venezolana.

así podríamos seguir con más ejemplos que no necesariamente se pueden ordenar. Al menos, no en términos cuantitativos (no existe jerarquía). En lo que sigue vamos a ver dos ejemplos más desarrollados respectivos a la nacionalidad y al sexo.

Estudiantes de una clase

Imaginemos que estamos en una clase en la que hay 10 alumnos. Queremos saber cuántos hombres hay y cuántas mujeres hay para conocer la distribución porcentual. Así pues, tenemos la siguiente tabla:

(Figura) Tablas de la Variable Nominal.

Hay, por tanto, cinco hombres y cinco mujeres. Lo que significa que la distribución es del 50% hombres y del 50% mujeres. Se trata de una variable nominal porque no podemos ordenarla jerárquicamente.Sector de un conjunto de empresas

Ahora supongamos que tenemos una tabla de datos que nos ofrece información sobre un conjunto de empresas y sobre el sector económico al que pertenece cada una.

De las 10 empresas encuestadas, 2 pertenecen al sector primario, 3 al sector secundario y 5 al sector terciario. Es decir, un 20% al sector primario, un 30% al sector secundario y un 50% el sector terciario. Podríamos ordenar de mayor a menos peso en la economía, pero entonces la variable estadística sería «La cantidad relativa de empresas por sector» y no «el sector al que pertenecen».

¿Qué es una variable ordinal?

Una variable ordinal es un tipo de variable estadística de tipo cualitativo que expresa con palabras una cualidad de naturaleza ordenable.

Es decir, una variable ordinal es una variable que puede ser ordenada. Así, si decimos que en una carrera de 100 metros lisos Andrés quedó primero, José segundo y Pablo tercero. Esa posición es ordenable, se puede ordenar de mayor a menor o de menor a mayor. Es decir, de forma descendente o ascendente.

De manera que, en referencia a las variables cualitativas nos encontramos con las ordinales. Las variables ordinales, a diferencia de las nominales, sí pueden ser ordenadas de forma jerárquica. Otro ejemplo, en este sentido, podría ser que una lesión es leve, moderada o grave. La variable es la gravedad de la lesión y se puede ordenar en función de la gravedad. En caso de que no sea posible ordenarlo de forma jerárquica estaríamos hablando de una variable nominal.

Ejemplo de variables ordinales

En lo que sigue vamos a ver varios ejemplos de variables ordinales:

-Calificación crediticia. Este será mejor cuanto mayor sea la solvencia según la agencia de calificación.

-Nota de una prueba. Por ejemplo, un examen que se califica como suspenso, aprobado, notable, sobresaliente y matrícula de honor.

-Posición en una carrera deportiva. Primero, segundo, tercero, cuarto, etc.

-Satisfacción con un servicio al cliente. Muy insatisfecho, insatisfecho, neutro, satisfecho y muy satisfecho

Podríamos nombrar otros ejemplos, pero estos son algunos de los más representativos. Lo más importante es saber identificar este tipo de variables estadísticas. Además, vamos a ver dos ejemplos más desarrollados sobre las variables ordinales: nota de una prueba y satisfacción de los clientes de una compañía telefónica respecto al servicio al cliente.

Notas del examen de economía

Un conjunto de 10 alumnos realizaron una prueba sobre conceptos de economía hace una semana y las calificaciones fueron las siguientes:

La tabla anterior muestra las calificaciones de cada uno de los 10 alumnos. En total tenemos 2 suspensos, 3 aprobados, 3 notables, 1 sobresaliente y 1 matrícula de honor. En la frase anterior, acabamos de ordenarlos de manera ascendente. Es decir, primero las calificaciones más bajas (suspensos) y finalmente la calificación más alta (matrícula de honor). Si lo hubiéramos hecho al revés sería en orden descendente.

¿Qué son las variables cuantitativas?

Las variables cuantitativas son aquellas variables estadísticas que otorgan, como resultado, un valor numérico.

Por ejemplo, variables tales como el peso (62 kg, 80 kg), la altura (1,72 cm, 1,85 cm) o la cantidad de miembros en una familia (2, 3 ó 4), son variables cuantitativas.

Características de las variables cuantitativas.

Las principales características de las variables cuantitativas son las siguientes:

-Expresan sus valores con números.

-Son utilizadas generalmente en encuestas o entrevistas.

-Utilizan gráficos llamados diagramas integrales y diagramas diferenciales para mostrar la frecuencia relativa de las variables.

-También pueden servirse de diagramas de barra para otorgar cifras.

Tipos de las variables cuantitativas.

Las variables cuantitativas pueden ser discretas o continuas.

-Discreta.

La variable discreta otorga cifras que se encuentran separadas en escalas, es decir que no poseen valores entre ellas, sino que el resultado comprende un valor exacto.

De esta manera, dichas variables solo pueden adquirir un valor en números enteros. Por ejemplo, una persona puede tener 1, 2, 3 o más perros, pero no un perro y medio.

-Continua.

La variable continua, por otro lado, puede otorgar un valor de cualquier intervalo o medición, es decir que puede haber otros valores en medio de dos exactos. Generalmente estos son representados por valores decimales, por lo cual la cifra será mucho más específica.

Por ejemplo, la estatura de una persona puede ser de 1,75 centímetros.

Ejemplos de variables cuantitativas.

A continuación se proponen algunos ejemplos para comprender mejor la variable cuantitativa:

-Peso exacto de un niño: 40 kg, 30 kg, etc.

-Cantidad de mascotas que posee una persona: 1, 2, 3, etc.

-Velocidad con la que se traslada un automóvil: 160 km/h, 100 km/h, etc.

-Valor económico de un producto: $25, $50, $100, etc.

-Grados de alcohol de una cerveza: 5%, 10%, 12%, etc.

-Cantidad de niños en el aula de una escuela: 20, 30, 40, etc.

-Calificación exacta de un examen universitario: 4, 7, 8, 10, etc.

Diferencias entre cuantitativas y cualitativas.

Las principales diferencias entre una variable cuantitativa y una cualitativa son las siguientes:

-Una variable cuantitativa proporciona un valor numérico, mientras que una variable cualitativa proporciona resultados con características o cualidades.

-La variable cuantitativa suele ser específica, mientras que la variable cualitativa suele ser amplia y relativa.

-Las variables cuantitativas se basan en determinar la correlación o asociación que hay entre variables, mientras que las variables cualitativas se enfocan en profundizar la naturaleza de dichas realidades.

¿Qué es un diagrama de barras?

Un gráfico de barras o gráfico de columnas, es una forma de representar gráficamente un conjunto de datos o valores mediante barras rectangulares de longitud proporcional a los valores representados. Los gráficos de barras pueden ser usados para comparar cantidades de una variable en diferentes momentos o diferentes variables para el mismo momento. Las barras pueden orientarse horizontal y verticalmente.

Existen evidencias del uso de este tipo de diagramas desde hace más de 300 años.

El gráfico de barras es una forma de resumir un conjunto de datos por categorías de variable cualitativa y su frecuencia de aparición en una muestra. Es el gráfico más común, alcanzando un porcentaje cercano al 50% en los libros de texto analizados de Enseñanza Primaria en España.

En el diagrama de barras, los datos se representan con rectángulos de igual base sobre el eje de categorías (eje x o de abscisas); en tanto que la longitud del otro lado corresponde al valor del dato, según la escala utilizada en el eje de valores (eje y o de ordenadas). Cuando se representa más de una categoría existen diferentes tipos de presentación.

No existen reglas estrictas aplicables a los gráficos de barras, pero como normas generales de presentación suelen ser las siguientes:

-El ancho de la barra debe ser uniforme para todas las barras del diagrama.

-La longitud de la barra debe ser proporcional a la cantidad que representa.

-El espacio de separación entre barras por cada categoría debe ser constante.

-Las barras en estos gráficos pueden disponerse vertical u horizontalmente.

Ejemplo:

Este diagrama está basado en los resultados de la Elección del Parlamento Europeo en el 2004 y en 1999. La tabla siguiente lista el número de asientos asignados a cada partido. Los resultados de 1999 han sido multiplicados por 116.933, para compensar los otros años entre estos.

Un gráfico de barras que represente los resultados anteriores de la elección del 2004 se vería así:

(Si todos los datos fuesen ordenados en orden descendiente, este tipo de gráfico de barras sería llamado un diagrama de Pareto.)

Este gráfico de barras muestra ambos resultados (2004 y 1999):

Tipos de gráficos de barras.

-Gráfico de barras verticales.

-Gráfico de barras horizontales

-Gráfico de eje central. Es un tipo de gráfico de barras horizontales que recoge la frecuencia con que se repite una determinada variable dentro de cada uno de los diversos grupos en los que se ha dividido un conjunto. El ejemplo típico de gráfico de eje central es el de pirámide de población.

6)¿Qué es un diagrama de sector?

Un diagrama de sectores es una metodología de representación en una dimensión que recoge tanto la frecuencia absoluta como la variable en cuestión y se expresan mediante porciones de una circunferencia.

En otras palabras, un diagrama de sectores o gráfico sectorial es un gráfico que representa las categorías de la variable en ángulos de una circunferencia.

Esta fórmula devuelve el ángulo que tendrá cada sector en función de su frecuencia absoluta (ni) y el total de observaciones de la muestra (N). El 360 estará siempre en la fórmula y no variará porque es necesario para que el diagrama de sectores tenga una forma circular. Se divide el total de grados disponibles de la circunferencia con el total de observaciones y se multiplica por cada una de las frecuencias absolutas.

Es importante destacar que la frecuencia absoluta lleva consigo el subíndice i para indicar que es una secuencia de elementos y no solo un valor en concreto. Entonces, se destina un sector para cada categoría de la variable.

Se llama sector a cada parte que divide el gráfico. El siguiente gráfico está compuesto por 3 sectores ya que hay 3 particiones:

-Cuantas más particiones tenga el gráfico, más pequeño será el ángulo del sector.

-Cuantas menos particiones tenga el gráfico, más grande será el ángulo del sector.

Un gráfico sectorial que tenga solo un sector tendrá un ángulo de 360° ya que será toda la circunferencia.

Las características a tener en cuenta son:

-Un diagrama de sectores tendrá siempre forma circular ya que la fórmula para calcular los sectores lleva implícita la circunferencia. Esto lo vemos con el 360 de la fórmula. Si el gráfico de sectores no fuera una circunferencia, no aparecería el 360 en la fórmula.

-El queso, al igual que el diagrama de sectores, lo podemos dividir en las partes que deseamos.

Los diagramas de sectores anteriores están divididos en partes iguales. Esto normalmente no sucede en la vida real ya que cada categoría de la variable acostumbra a tener una frecuencia absoluta diferente. Este suceso se refleja en el gráfico mediante sectores más grandes y sectores más pequeños.

Ventajas del diagrama de sectores

-Muy visual, pues este tipo de gráfico es excelente para representar variables que estén fraccionadas en múltiples categorías.

-Rápida construcción, ya que el diagrama de sectores es un gráfico muy fácil de construir digitalmente ya que el propio ordenador ya calcula qué porción del total debe asignarse a cada categoría.

Desventajas del diagrama de sectores.

-Solo se puede usar con datos estáticos, es decir, datos que no pertenezcan a una serie temporal. En este caso se tendría que emplear un gráfico de línea o de columnas o barras.

-Si la variable está fraccionada en muchas categorías puede que la lectura del gráfico se haga difícil y pierda su utilidad.

Ejemplo de diagrama de sectores

Mediante una hoja de cálculo representa la siguiente variable:

Variable: número de ciclistas en las carreteras.

Categorías de la variable: algunos meses del año (Abril – Mayo – Junio – Julio – Agosto – Setiembre).

Mirando la tabla se puede deducir que el mes de agosto es el mes con más ciclistas en las carreteras. Pero si observamos el gráfico de sectores, veremos que es mucho más fácil identificar el mes con más ciclistas: es la porción más grande.

¿Qué es un histograma?

Un histograma es la representación gráfica en forma de barras, que simboliza la distribución de un conjunto de datos. Sirven para obtener una "primera vista" general, o panorama, de la distribución de la población, o de la muestra, respecto a una característica, cuantitativa y continua.

En un histograma el eje de las abscisas consiste del rango en el cual se encuentran los datos. Ahora, las bases de los rectángulos consisten de los intervalos en los cuales agrupamos dichos datos.

Por otro lado, en el eje de las ordenadas tenemos más opciones, dependiendo estas opciones es el tipo de histograma que tenemos. Los dos tipos principales de histogramas son los siguientes:

-Histograma de frecuencias absolutas. Representa la frecuencia absoluta mediante la altura de las barras.

-Histograma de frecuencias relativas.Representa la frecuencia relativa mediante la altura de las barras.

Así, ya que conocemos las características de un histograma, tenemos que para construir uno, dado un conjunto de datos, debemos seguir los siguientes pasos.

-Dibujamos el eje de las abscisas de tal forma que incluya como mínimo el rango de los datos y, posteriormente, dividimos este rango en los intervalos dados.

-Dibujamos el eje de las ordenadas representando las frecuencias absolutas o relativas según sea el caso.

-Se dibujan los rectángulos de anchura igual y proporcional al intervalo (en nuestro caso todos tendrán la misma anchura) y de altura igual a la frecuencia absoluta o relativa, según sea el caso.

Ejemplo. Consideremos los siguientes datos:

Nuestro histograma de frecuencias absolutas sería el siguiente:

Análisis exploratorios de datos

El proceso de utilizar resúmenes numéricos y visualizaciones para explorar sus datos e identificar posibles relaciones entre variables se denomina análisis exploratorio de datos (EDA por sus siglas en inglés).

El análisis exploratorio de datos es un proceso de investigación en el que se usan estadísticas de resumen y herramientas gráficas para llegar a conocer los datos y comprender lo que se puede averiguar de ellos.

Con el EDA, se pueden hallar anomalías en los datos, como valores atípicos u observaciones inusuales, revelar patrones, comprender posibles relaciones entre variables y generar preguntas o hipótesis interesantes que se pueden comprobar más adelante mediante métodos estadísticos más formales.

El análisis exploratorio de datos es como el trabajo detectivesco: se buscan claves y pistas que puedan conducir a la identificación de las posibles causas de origen del problema que se intenta resolver. Se exploran las variables de una en una, luego de dos en dos, y luego muchas variables a la vez.

Aunque el EDA abarca tablas de resúmenes estadísticos como la media y la desviación estándar, la mayor parte de las personas se centran en los gráficos. Se utiliza una variedad de gráficos y herramientas exploratorias, y se va allá donde se dirijan los datos. Si un gráfico o análisis no es informativo, mire los datos desde otra perspectiva.

Como el EDA implica explorar, es un proceso iterativo. Lo más probable es que se averigüen diferentes aspectos sobre los datos a partir de diferentes gráficos. Los objetivos típicos son comprender:

La distribución de variables en su conjunto de datos. Esto es, ¿cuál es la forma de sus datos? ¿Está sesgada la distribución? ¿Tiene forma de montículo? ¿Es bimodal?

Las relaciones entres variables.

Si sus datos tienen o no valores atípicos o puntos inusuales puede indicar problemas de calidad de los datos o conducir a descubrimientos interesantes.

Si sus datos tienen o no patrones temporales.

Cuándo debo utilizarlo?

El análisis exploratorio de datos es una potente herramienta para explorar un conjunto de datos. Incluso cuando su objetivo es efectuar análisis planificados, el EDA puede utilizarse para limpiar datos, para análisis de subgrupos o simplemente para comprender mejor los datos. Un paso inicial importante en cualquier análisis de datos es representar los datos gráficamente.

Para qué hacer un análisis tipo exploratorio?

Estas son algunas de las utilidades de un análisis exploratorio:

Para comprobar si hay datos que faltan y otros errores.

Obtener la máxima información sobre el conjunto de datos y su estructura subyacente.

Descubrir un modelo que explique los datos con un número mínimo de variables predictoras.

Comprobar los supuestos asociados a cualquier ajuste del modelo o prueba de hipótesis.

Crear una lista de valores atípicos u otras anomalías.

Encontrar las estimaciones de los parámetros y sus intervalos de confianza o márgenes de error asociados.

Identificar las variables más influyentes.

Métodos para realizar un análisis exploratorio de datos:

Los métodos para realizar un análisis exploratorio suelen dividirse en métodos gráficos o no gráficos y métodos univariantes o multivariantes. Se basan en gran medida en las imágenes, que los analistas utilizan para buscar patrones, valores atípicos, tendencias y resultados inesperados.

El análisis exploratorio de datos gráfico emplea herramientas visuales para mostrar los datos, como por ejemplo:

Mapas de calor: visualización de datos que utiliza colores para comparar y contrastar números en un conjunto de datos; también se conoce como matrices de sombreado.

Aquí más de las características de un gráfico de mapa de calor.

Histogramas: Un histogramas es un gráfico de barras que agrupa números en una serie de intervalos, especialmente cuando hay una variable infinita, como los pesos y las medidas.

Gráfica de líneas: Uno de los tipos más básicos de gráficos que traza puntos de datos en un gráfico; tiene una gran cantidad de usos en casi todos los campos de estudio. Aquí más de las características de una gráfica de líneas.

Pictogramas: sustituyen los números por imágenes para explicar visualmente los datos. Son habituales en el diseño de infografías, así como en los elementos visuales que los científicos de datos pueden utilizar para explicar hallazgos complejos a los profesionales que no son científicos de datos y al público.

Diagramas de dispersión o scatterplots: Suelen utilizarse para mostrar dos variables en un conjunto de datos y luego buscar correlaciones entre ellos.

viernes, 27 de mayo de 2022

Medidas de tendencia central :

Moda:

La moda es el valor que aparece más dentro de un conglomerado. En un grupo puede haber dos modas y se conoce como bimodal, y más de dos modas o multimodal cuando se repiten más de dos valores, se llama amodal cuando en un conglomerado no se repiten los valores

Las principales características de la moda son:

-Es una muestra muy clara.

-Las operaciones para determinar el resultado son muy fáciles de elaborar.

-Los valores que se presentan pueden ser cualitativos y cuantitativos.

Media:

La media, también conocida como promedio, es el valor que se obtiene al dividir la suma de un conglomerado de números entre la cantidad de ellos.

Algunas características de la media son:

-Considera todas las puntuaciones.

-El numerador de la formula es la cantidad de valores

-Cuando hay puntuaciones extremas, no tiene una representación exacta de la muestrea.

Medidas de dispersión:

es el grado en que una distribución se estira o se comprime.

- Mínimo y máximo:

son los valores de los elementos más grandes y más pequeños de un conjunto de datos ( es decir, la muestra ).

La diferencia entre el valor máximo ( es un muestral de forma que por encima de este no hay valores muestrales ) y mínimo ( es un valor muestral de forma que por debajo de este no hay valores muestrales ) de los valores de una variable.

- Rango o amplitud:

es el intervalo entre el valor máximo y el mínimo, por ello, comparte unidades con los datos. Permite obtener una idea de la dispersión de los datos, cuánto mayor es el rango, aún más dispersos están los datos ( sin considerar la afectación de los valores extremos ).

Rango intervartilico:

es una medida de variabilidad adecuada cuando la medida de posición central empleada ha sido la mediana. Se define como la diferencia entre el tercer cuartil (Q³) y el primer cuartil (Q¹) , es decir: RQ=Q³-Q¹. A la mitad del rango intercuartil se le conoce como derivación cuartil (DQ), es afectada muy poco por cuentas extremas. Esto lo hace una buena medida de dispersión para distribuciones sesgadas: DQ= RQ/2=(Q³-Q¹) /2.

Se usa para construir los diagramas de caja y bigote, que sirven para visualizar la variabilidad de una variable y comparar distribuciones de la misma variable, además de ubicar valores extremos.

- Varianza. desviación típica:

la Varianza es una medida de dispersión que se utiliza para representar la variabilidad de un conjunto de datos respecto de la medida aritmética de los mismos.

La desviación típica es una medida que de utiliza para cuantificar la variación de un conjunto de datos numéricos.

La Varianza es la desviación típica elevada al cuadrado. O al revés , la desviación típica es la raíz cuadrada de la Varianza. La desviación típica de hace para poder trabajar en las unidades de medidas iniciales.

- Coeficiente de dispersión:

cuando se utiliza la desviación estándar y como promedio la media aritmética, la dispersión relativa se conoce como el coeficiente de variacion o dispersión. Este expresa la derivación estándar como un porcentaje del promedio alrededor del cual se toman las desviaciones y nos da idea de la representatividad de la media. Cuánto mayor es este menos representativa es la media.

Medidas de forma :

son aquellas que nos muestran si una distribución de frecuencia tiene características especiales como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución.

- Coeficiente de asimetría:

mide el grado de asimetría de la distribución con respecto a la media .Un valor positivo de este indicador significa que la distribución se encuentra sesgada hacia la izquierda (orientación positiva). Un resultado negativo significa que la distribución se sesga a la derecha.

- Coeficiente de curtosis:

analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución.

Mediana:

La mediana es un conjunto, es un valor que se encuentra a la mitad de los otros valores, es decir, que al ordenar los números de menor a mayor, éste se encuentra justamente en medio entre los que están por arriba.

Algunas características de la mediana son:

•Las operaciones para calcular el valor son muy sencillas de realizar.

•La medida no depende de los valores de las variables, solamente de su orden.

•Generalmente, los valores son enteros.

•Se puede calcular aunque los números que se encuentren arriba y abajo no tengan límites.

Medidas de posición :

Cuartiles:

El cuartil es cada uno de los tres valores que pueden dividir un grupo de números, ordenados de menor a mayor, en cuatro partes iguales. Es decir, cada cuartil determina la separación entre uno y otro subgrupo, dentro de un conjunto de valores estudiados.

Deciles:

En estadística, un decil es cualquiera de los nueve valores que dividen a un grupo de datos ordenados en diez partes iguales, de manera que cada parte representa 1/10 de la muestra o población.

Percentiles:

Un percentil es una medición en la cual ese porcentaje de los valores totales es el mismo o menor que sea medición. Además nos permite saber cómo está situado un valor en función de una muestra.

Cuantiles:

Un cuantil es aquel punto que divide la función de distribución de una variable aleatoria en intervalos regulares. Por tanto, no es más que una técnica estadística para separar los datos de una distribución.

miércoles, 13 de julio de 2022

Módulo III

Paquetes libres y comerciales.

Variables y sus atributos

Creación de archivo de datos (SPSS)

Importación y exportación de archivos de datos.

Ventajas de utilizar la Importación de Datos

Facilidad para instalarlas

Trabajo en la nube.

Ahorro de tiempo.

Más control.

Manipulación de archivos de datos

Manipulación de variables

Manipulación de datos

Aplicaciones de Software Estadísticos

¿Qué es el análisis descriptivo?

Análisis Descriptivo en Estadística

¿Cuál es el objetivo del análisis descriptivo?

Análisis descriptivo: claves e inconvenientes

¿Qué es una variable nominal?

Ejemplo de variables nominales

¿Qué es una variable ordinal?

Ejemplo de variables ordinales

Notas del examen de economía

¿Qué son las variables cuantitativas?

Características de las variables cuantitativas.

Ejemplos de variables cuantitativas.

Diferencias entre cuantitativas y cualitativas.

¿Qué es un diagrama de barras?

Ejemplo:

Tipos de gráficos de barras.

Ventajas del diagrama de sectores

Ejemplo de diagrama de sectores

Análisis exploratorios de datos

Las relaciones entres variables.

Cuándo debo utilizarlo?

Para qué hacer un análisis tipo exploratorio?

Métodos para realizar un análisis exploratorio de datos:

viernes, 27 de mayo de 2022

Módulo III

Creación de archivo de datos
(SPSS)