Tecnología

Por Mildreth García

4 Minutos

Publicado el 9/02/2023

5 metodologías de las ciencias de datos que te ayudará para tu estudio

Nueva llamada a la acción

Las metodologías de ciencia de datos proporcionan un marco sobre cómo proceder con los métodos, procesos y argumentos que se utilizarán para obtener respuestas o resultados y así tomar una buena decisión.

En este artículo conocerás cuántas metodologías para ciencia de datos existen y de lo que tratan. 

metodología de ciencia de datos 1

Tipos de metodologías para la ciencia de datos

El profesor Jesús Aguilar González nos señaló que actualmente existen 5 métodos para el estudio de los datos y estas son:

  • KDD (Knowledge Discovery in Databases): está metodología tiene 5 pasos y sirve para descubrir conocimiento en la base de datos, tal y como su nombre en inglés lo indica, inicia con la selección donde de hay que seleccionar de un dataset principal un subconjunto de variables que nos pueden apoyar en la exploración del fenómeno que estamos estudiando. 

    En el segundo paso o pre-procesamiento realizamos la limpieza y balanceo de datos. En la transformación, el cual es el tercer paso, el método sugiere que reduzcamos dimensiones con técnicas estadísticas para manejar la menor cantidad de variables necesarias. Mientras que en el cuarto paso, que es la minería de datos, buscamos patrones de interés o representativos en relación al objetivo de la minería de datos. Finalmente, en el quinto paso, para colarnos al conocimiento pasamos por el proceso de interpretación y evaluación de modelo.  

    metodología de ciencia de datos 3
  • SEMMA (Sample, Explore, Modify, Model and Access): esta metodología es para dar respuesta a un acontecimiento, también es de 5 fases, mismas que se encuentran en su nombre, iniciamos con “sample” o un muestro de la base de datos principal, que asumimos que es muy pesada y lenta de procesar, para poder hacer manipulaciones sobre este pequeño set de una manera ágil. Después exploramos los datos para ganar entendimiento e ideas, así como definir nuestro proceso de búsqueda de anomalías, patrones y tendencias.

    Llegamos entonces al paso de modificar donde nos enfocamos en crear, seleccionar y transformar variables para enfocarnos en un proceso de selección. En esta etapa también se buscan anomalías y reducir el número de variables. Luego sigue la etapa de modelaje en donde debemos aplicar distintos métodos estadísticos evaluando sus fortalezas y cumplimiento de objetivos. Finalmente la etapa de “access” que significa evaluar la confiabilidad y utilidad de los hallazgos. Se evalúa particularmente el “performance”.

  • ASUM DM: este método lo creó IBM en base a la metodología CRISP-DM, este modelo sirve para definir estrategias y actividades a realizar para conseguir el objetivo del proyecto tiene actividades de gestión de proyectos que son iniciar, planear, ejecutar y cerrar. Sus etapas de operación son 10: entendimiento del negocio, enfoque analítico, requerimientos de datos, recolección de datos, entendimiento de datos, preparación de datos, construcción del modelo, evaluación del modelo, despliegue de solución, retroalimentación. 

    metodología de ciencia de datos 2
  • TDPS: esta metodología la creó Microsoft, y de acuerdo con el profesor Aguilar González “es la metodología más completa”. Esta es para desarrollar soluciones y aplicaciones de analítica predictiva eficiente, tiene permitido el error y se ajusta a este, aunque tiene pasos a seguir no importa el orden que siga. Es una metodología robusta, dinámica y permite al usuario estar en todos los pasos.

    TDPS ayuda a mejorar la colaboración y el aprendizaje en equipo al sugerir cómo los roles de equipo funcionan mejor juntos. También incluye procedimientos recomendados y estructuras de Microsoft y otros líderes del sector para ayudar a implementar correctamente iniciativas de ciencia de datos. El objetivo es ayudar a las empresas a que se den cuenta de las ventajas de su programa de análisis.

    TDSP tiene como componentes principales la definición del ciclo de vida de los datos, una estructura de proyecto estandarizada, infraestructura y recursos recomendados para proyectos de ciencia de datos y herramientas recomendadas para la ejecución de los mismos. 

    metodología de ciencia de datos
  • CRISP-DM (Cross-Industry Standard Process for Data Mining): esta metodología proviene de la comunidad europea y está enfocada en la minería de datos. El profesor Jesus Aguilar la recomienda para los profesionistas que van iniciando en el estudio de datos. Este método proporciona una descripción normalizada del ciclo de vida de un proyecto estándar de análisis de datos, de forma análoga a como se hace en la ingeniería del software con los modelos de ciclo de vida de desarrollo de software.

    El modelo CRISP-DM cubre las fases de un proyecto, sus tareas respectivas, y las relaciones entre estas tareas. En este nivel de descripción no es posible identificar todas las relaciones; las relaciones podrían existir entre cualquier tarea según los objetivos, el contexto, y el interés del usuario sobre los datos.

Certifícate en Ciencia de Datos aquí >

Escrito por

Mildreth García

Suscríbete para recibir actualizaciones de nuestro blog

Post Relacionados