SOFTWARE ESTADÍSTICOS
Paquetes libres y comerciales.
Este es un conjunto de programas informáticos específicamente diseñados para el análisis estadístico de datos con el propósito de dar solución a problemas bien sea de estadística descriptiva ó inferencial, o de ambos. Este conjunto de programas y subprogramas se encuentran conectados de manera que funcionan de conjunta, es decir que para pasar de uno a otro no se necesita salir del programa y volver a él.
Un programa estadístico es un producto de software que sirve para realizar tareas estadísticas; y lo que se espera de él que lea los datos, reciba ordenes y ejecute el análisis de los mismos. Los paquetes estadísticos actuales superan esas mínimas de manera que permiten:
a) Crear nuevas variables
b) Seleccionar variables y sujetos
c) Reconocer y generar datos en ASCII
d) Añadir las variables creadas al archivo en uso
e) Varios formatos de integración programa-usuario
f) Controlar aspectos del entorno de trabajo
Dentro de los paquetes estadísticos más utilizados están: SAS, BMDP, SPSS, SYSTAT, STATISTICA, STATA y, últimamente están, MINITAB, S-PLUS, EVIEWS, STAT-GRAPHICS y MATLAB.
También se pueden encontrar: R, Past, Open Stat, Genstat Discovery Editión 3.
A continuación se describirán algunos de los de mayor uso.
a. SPSS (Statistical Package for The Social Sciences o Paquete Estadistico para la Ciencias Sociales):
Este programa, desarrollado en la Universidad de Chicago, es uno de los más difundidos, Hernández, Fernández y Batista, p: 410.
Es un paquete Estadístico, de uso general, que integra procedimientos estadísticos y gráficos iteractivos de alta resolución, de tal manera que sirve de apoyo al análisis de datos. Es útil entre otros aspectos para realizar análisis exploratorio desde el punto de vista gráfico, de igual manera se utiliza para realizar análisis estadístico simple y/o avanzado. El programa sirve para profundizar en temas como: Métodos Cuantitativos, Métodos de Investigación, Segmentación de Mercados, Finanzas, Inferencia Estadística, Análisis Multivariado, Pronósticos con series de Tiempo, Métodos Multivariados y otros más.
b. SAS (Statistical Analysis System)
Comprende amplias posibilidades de procedimientos estadísticos (métodos multivariados, regresión múltiple con posibilidades diagnósticas, análisis de supervivencia con riesgos proporcionales y regresión logística) y permite cálculos exactos para tablas r x c y contiene potentes posibilidades gráficas.
· Todos los procedimientos pueden emplearse de una sola ejecución
· Los resultados pueden guardarse como archivos y usarse como entradas para
futuras ejecuciones.
· Es particularmente útil en la gestión de datos y en la redacción de informes
· Algunos procedimientos tienen varias opciones por lo cual debe examinarse
cuidadosamente el manual antes de seleccionar la opción deseada.
· SAS ofrece la mayor flexibilidad para personalizar el manejo y análisis de datos,
sin embargo su principal inconveniente es que no resulta fácil aprender a usarlo.
c. BMDP
Es el más antiguo de los paquetes. El primer manual para BMD Biomedical Computers Programs se publicó en 1961.En 1975 pasó a denominarse BMDP. Cubre un amplio abanico de métodos estadísticos pero su capacidad para manejar datos es limitada, dentro de sus desventajas se puede mencionar: Sus programas se ejecutan por separado,solo puede accederse a uno de ellos en cada ejecución. Los resultados de cada programa se pueden guardar en un archivo de BMDP y utilizarse como entrada en otros programas.
d. STATISTICA:
Statistica (aunque la marca está registrada como STATISTICA, en mayúsculas) es un paquete estadístico usado en investigación, minería de datos y en el ámbito empresarial. Lo creó StatSoft, empresa que lo desarrolla y mantiene.
StatSoft nació en 1984 de un acuerdo entre un grupo de profesores universitarios y científicos.
Sus primeros productos fueron los programas PsychoStat-2 y PsychoStat-3. Después desarrolló Statistical Supplement for Lotus 1-2-3, un complemento para las hojas de cálculo de Lotus. Finalmente, en 1991, lanzó al mercado la primera versión de STATISTICA para MS-DOS
Actualmente compite con otros paquetes estadísticos tanto propietarios, como SPSS, SAS, Matlab o Stata, como libres, como R.
El programa consta de varios módulos. El principal de ellos es el Base, que implementa las técnicas estadísticas más comunes. Éste puede completarse con otros módulos específicos tales como:
Advanced: técnicas multivariantes y modelos avanzados de regresión lineal y no lineal
QC: técnicas de control de calidad, análisis de procesos (distribuciones no normales,Gage R&R, Weibull) y diseño experimental
Data Miner: minería de datos, análisis predictivos y redes neurales
El paquete puede ser extendido a través de una interfaz con el lenguaje R. Además, se pueden modificar y añadir nuevas librerías usando el lenguaje NET.
e. MINITAB:
Es un programa de computadora diseñado para ejecutar funciones estadísticas básicas y avanzadas. Combina lo amigable del uso de Microsoft Excel con la capacidad de ejecución de análisis estadísticos. En 1972, instructores del programa de análisis estadísticos de la Universidad Estatal de Pensilvania (Pennsylvania State University) desarrollaron MINITAB como una versión ligera de OMNITAB, un programa de análisis estadístico del Instituto Nacional de Estándares y Tecnología (NIST) de los Estados Unidos.
Este programa es un paquete estadístico que abarca todos los aspectos necesarios para el aprendizaje y la aplicación de la estadística en general. El programa incorpora opciones vinculadas a las principales técnicas de análisis estadísticos (análisis descriptivo, contrastes de hipótesis, regresión lineal y no lineal, series temporales, análisis de tiempos de fallo, control de calidad, análisis factorial, ANOVA, análisis cluster, etc), además de proporcionar un potente grafico y de ofrecer total compatibilidad con los editores de texto, hojas de cálculo y bases de datos más usuales.
f) MATLAB:
Nace como una solución a la necesidad de mejores y más poderosas herramientas de cálculo para resolver problemas de cálculo complejos en los que es necesario aprovechas las amplias capacidades de proceso de datos de grandes computadores.
Éste es un entorno de computación y desarrollo de aplicaciones totalmente integrado orientado para llevar a cabo proyectos en donde se encuentren implicados elevados cálculos matemáticos y la visualización gráfica de los mismos. MATLAB integra análisis numérico, cálculo matricial, proceso de señal y visualización gráfica en un entorno completo donde los problemas y sus soluciones son expresados del mismo modo en que se escribirían tradicionalmente, sin necesidad de hacer uso de la programación tradicional.
Está dirigido a ingenieros y científicos, éste requiere que el operador adquiera conocimientos en su lenguaje de programación, se ejecuta principalmente a través de una interfaz de línea de comandos y es más pesado al momento de instalarse, además requiere mayor capacidad en el disco duro, un equipo más rápido (mayor memoria RAM).
Para finalizar se puede decir que MATLAB es un lenguaje de alto nivel y un entorno interactivo para el cálculo numérico, visualización y programación. Usando MATLAB, puede analizar los datos, desarrollar algoritmos y crear modelos y aplicaciones. El lenguaje, las herramientas y funciones matemáticas integradas que permiten explorar múltiples enfoques y llegar a una solución más rápida que con hojas de cálculo o lenguajes de programación tradicionales, como C / C + + o Java.
g. R:
Es un lenguaje y entorno de programación para análisis estadístico y gráfico. Se trata de un proyecto de software libre, resultado de la implementación GNU del premiado lenguaje S. R y S-Plus -versión comercial de S- son, probablemente, los dos lenguajes más utilizados en investigación por la comunidad estadística, siendo además muy populares en el campo de la investigación biomédica, la bioinformática y las matemáticas financieras. A esto contribuye la posibilidad de cargar diferentes bibliotecas o paquetes con finalidades específicas de cálculo o gráfico.
Este programa se distribuye bajo la licencia GNU GPL y está disponible para los sistemas operativos Windows, Macintosh, Unix y GNU/Linux. Fue desarrollado inicialmente por Robert Gentleman y Ross Ihaka del Departamento de Estadística de la Universidad de Auckland en 1993. Su desarrollo actual es responsabilidad del R Development Core Team.
A continuación se enumeran algunos hitos en el desarrollo de R
· Versión 2.11.0 (22 de abril de 2010): Soporte para sistemas Windows de 64 bits.
· Versión 2.13.0 (14 de abril de 2011): Añadida una nueva función al compilador que permite acelerar las funciones convirtiéndolas a byte-code.
· Versión 2.14.0 (31 de octubre de 2011): Añadidos espacios de nombres obligatorios para los paquetes. Añadido un nuevo paquete de paralelización.
· Versión 2.15.0 (30 de marzo de 2012): Nuevas funciones de balanceo de cargas. Mejorada la velocidad de serialización para grandes vectores.
· Versión 3.0.0 (3 de abril de 2013): Mejoras en GUI, funciones gráficas, gestión de memoria, rendimiento e internacionalización.
El mayor inconveniente que podría presentarse con este software más utilizado en nuestro medio es el hecho de funcionar mediante comandos, lo que para algunos usuarios puede resultar engorroso. Para solventar esta dificultad existe un paquete llamado R Commander que permite utilizar R sin tener que escribir los comandos, es decir, con la sola utilización del ratón.
h) Past (Paleontological STatistics: Estadísticas Paleontológicas):
Past es el software libre para el análisis de datos científicos, con funciones de manipulación de datos, el trazado, estadísticas univariantes y multivariantes, análisis ecológico de series de tiempo y análisis espacial, morfometría y la estratigrafía.
Este programa pasó por un rediseño completo en 2013. La nueva versión 3 aún no contiene toda la gama de funciones del antiguo pasado, pero estamos trabajando en ello!
El programa, llamado PAST (PAleontological STatistics: Estadísticas Paleontológicas), funciona en ordenadores con sistema operativo Windows y es de libre disposición (gratuito). PAST incluye entrada de datos del tipo hoja de cálculo, con estadísticas univariante y multivariante, ajuste de curvas, análisis de series temporales, representación gráfica de datos y análisis filogenético sencillo.
Muchas de las funciones son específicas para paleontología y ecología, y no se encuentran en paquetes de análisis estadístico estándar, de carácter más amplio. PAST también incluye catorce ejemplos (archivos de datos y ejercicios) que ilustran el uso del programa en problemas paleontológicos, lo que lo convierte en un paquete educativo completo para asignaturas sobre métodos cuantitativos.
i) Open Stat:
Es un paquete estadístico de software libre fue desarrollado por William Miller, diseñado especialmente para Windows y Linux (para este sistema operativo se trabaja la versión LinOStats) que ofrece una interfaz similar a SPSS. Inicialmente este software fue desarrollado como apoyo a los estudiantes y profesores en el área de estadística introductoria y avanzada de las ciencias sociales, Pico y Manzón, 2007 p: 11.
Open Stat se puede descargar de manera gratuita en Internet y ser usado diversos campos sin necesidad de tener una licencia para su uso y/o reproducción, es decir que se puede descargar e instalar sin costo. No obstante, no se puede modificar puesto que está restringido el acceso a su código fuente, Pico y Manzón, 2007 p: 11.
OpenStat (OS4), conocido antes como OS3 y OS2, es uno de los más funcionales que encontramos en el software libre, ya que tiene acceso a muchas aplicaciones de manera directa sin necesidad de programación, además presenta una interfaz muy amigable y menús que permiten acceder a diferentes análisis desde cualquier lugar del programa, Pico y Manzón, 2007 p:11.
Este paquete estadístico permite la manipulación de datos, cálculos estadísticos, financieros y económicos; además que cuenta con una interfaz similar a la de SPSS, genera gráficos sencillos de las distribuciones e histogramas y es capaz de trabajar con datos de diversos formatos (bin, tex, txt, s4u, entre otros), Pico y Manzón, 2007 p:8.
Algunas de sus características se mencionan a continuación:
· Una interfaz amigable
· Varias opciones de gráficas como pie, barras, líneas e incluso plots.
· Menú de ayuda gráfico y teórico como apoyo para realizar simulaciones y análisis para procedimientos descriptivos, de variabilidad, correlación, regresiones (simple, múltiple), probabilidad y financieros entre otros.
· Cuenta con calculadora, procesador de textos y editor de textos y opciones que nos permiten cambiar fácilmente las configuraciones iniciales.
· Código ASCII (Código Normalizado Americano para Intercambio de la Información), el cual permite ver el número del último carácter integrado en la celda.
j) Genstat Discovery Edition 3:
Es un paquete de análisis comercial desarrollado por VSN International, una compañía de desarrollo de software para biociencias, pero que para ciertos países puede ser descargado gratuitamente previo registro. Aunque su interfase es amistosa, sus salidas no lo son tanto y no son muy completas. Tiene la ventaja eso sí, que se puede importar el código de R y usarlo en sus propias rutinas.
Archivo de datos
Es un proceso de transformación de datos en información utilizable que a menudo se presenta en forma de un artículo analítico publicado, con el fin de agregar valor a la producción estadística.
Variables y sus atributos
Las variables, también suelen ser llamados caracteres cuantitativos, son aquellos que pueden ser expresados mediante números. Son caracteres susceptibles de medición. Como por ejemplo, la estatura, el peso, el salario, la edad, entre otros. Según, Murray R. Spiegel, (1992) "una variable es un símbolo, tal como X, Y, Hx, que puede tomar un valor cualquiera de un conjunto determinado de ellos, llamado dominio de la variable. Si la variable puede tomar solamente un valor, se llama constante."
Todos los elementos de la población poseen los mismos tipos de caracteres, pero como estos en general no suelen representarse con la misma intensidad, es obvio que las variables toman distintos valores. Por lo tanto estos distintos números o medidas que toman los caracteres son los "valores de la variable". Todos ellos juntos constituyen una variable.
Los atributos también llamados caracteres cualitativos, son aquellos que no son susceptibles de medición, es decir que no se pueden expresar mediante un número.
IUTIN (1997). "Reciben el nombre de variables cualitativas o atributos, aquellas características que pueden presentarse en individuos que constituyen un conjunto.
La forma de expresar los atributos es mediante palabras, por ejemplo; profesión, estado civil, sexo, nacionalidad, entre otros. Puede notar que los atributos no se presentan en la misma forma en todos los elementos. Estas distintas formas en que se presentan los atributos reciben el nombre de "modalidades".
Creación de archivo de datos
(SPSS)
Cuando se inicia la sesión con SPSS aparece el editor de datos en blanco, ya reparado para crear las variables y entrar sus correspondientes valores.
1. Definir las variables. Antes de introducir los datos es preciso definir las variables, es decir, especificar el nombre de la
variable y el tipo de datos que contendrá cada columna.
Puede hacerse con opciones de menú:
Datos
Insertar variable
Con lo que se define la variable con las características por defecto o activando Vista de variables.
El Nombre de la variable debe empezar por una letra y como máximo puede tener 8 caracteres. No puede contener espacios en blanco, caracteres especiales (¡ , ?, ', *) ni palabras clave SPSS (ALL, AND, NOT, OR...). Lógicamente no puede asignarse el mismo nombre a dos o más variables.
El Tipo de variable por defecto es numérico con 8 dígitos, 2 de ellos decimales. Para modificarlo se debe seleccionar el botón
lateral y se accede al cuadro de diálogo Tipo de variable:
Los tipos más frecuentes son:
• Numérico: presenta los decimales separados por un punto o coma dependiendo de la configuración numérica del ordenador.
• Coma: presenta los millares separados por una coma y los decimales por un punto.
• Punto: presenta los millares separados por un punto y los decimales por una coma.
• Fecha: abre un amplio directorio de formatos fecha.
• Cadena: recoge variables no numéricas y alinea a la izquierda sus categorías.
La columna Etiqueta permite asignar una descripción a la variable. Las etiquetas de las variables no pueden exceder de 120 caracteres.
La columna Valores permite asignar etiquetas a los valores de la variable. Éstos son especialmente útiles cuando la variable es categórica y se emplean números para representar las categorías. Por ejemplo: 0 'hombre' 1 'mujer'.
La columna Valores perdidos abre un cuadro de diálogo que permite especificar el código de valores missing que se asigna a la variable.
En Columna y Alineación se puede modificar el ancho y la alineación del contenido de la columna.
Por último, se puede especificar la escala de medida de la variable eligiendo entre: Escala, Ordinal y Nominal.
2. Entrar los datos: Los datos pueden ser tecleados en el orden que más convenga: por filas (elementos) o por columnas (variables). Para desplazar el cursor a la fila siguiente se debe pulsar la tecla Enter, mientras que para desplazarlo a la siguiente columna la tecla es Tab. Si se quiere acceder de forma rápida a una fila o columna determinada se pueden utilizar los iconos.
Importación y exportación de archivos de datos.
La importación de datos es un proceso que consiste en introducir información externa, previamente ordenada y clasificada a un programa de gestión.
Ventajas de utilizar la Importación de Datos
Facilidad para instalarlas
Utilizar un software de importación de datos no representa una instalación costosa o un proceso de adaptación muy duro.
Trabajo en la nube.
Muchas de las herramientas de importación, tienen su interfaz en la nube, por lo que podremos acceder al programa en cualquier momento y desde cualquier dispositivo.
Ahorro de tiempo.
Una de las mayores ventajas es el ahorro de tiempo para el trabajador, ya que implantando una de estas herramientas, automatizarás muchas de las tareas más repetitivas y costosas en tiempo del día a día.
Más control.
Utilizando uno de estos software, además de ahorrarte mucho tiempo, obtendrás información en forma de datos que podrás ofrecer a tu cliente, lo que te permitirá mejorar tu servicio.
Exportar significa "forzar" a una aplicación a crear un documento que la misma aplicación no podrá editar luego, o bien podrá editar solo a partir de su posterior importación. En algunos casos, la aplicación que exportó el archivo ni siquiera podrá leerlo luego.
Manipulación de archivos de datos
El manejo de archivp detos es una disciplina que estudia el tratamiento adecuado en las organizaciones a ciertos activos de información denominados. Un Archivo es un activo de información, digital o en papel, que refleja la historia o memoria de la organización respecto a sus actividades. Ejemplos de estos activos son facturas, pedidos, documentos contables, actas, correo electrónico, etc.
Dichos activos se caracterizan por:
- No deberían ser alterables una vez creados.
- Existe algún tipo de exigencia legal o corporativa para que sean conservados durante un periodo mínimo de tiempo.
- Tienen valor para la organización.
La mayoría de los archivos tienen forma de documento, en papel o en formato digital, motivo por el que esta disciplina está íntimamente asociada a la de gestión documental.
Manipulación de variables
Manipulación experimental de una variable independiente se refiere, en una situación simple, a la aplicación de un valor dado de una variable a un grupo de individuos y un valor diferente de la misma variable a un segundo grupo de individuos.
Manipulación de datos
La manipulación de datos es el proceso de cambiar o alterar datos para hacerlos más legibles y organizados. Por ejemplo, puede ordenar los datos alfabéticamente para acelerar el proceso de búsqueda de información útil. Otro ejemplo de manipulación de datos es la gestión de sitios web.
No hay comentarios.:
Publicar un comentario