Información sobre innovación, productividad y tecnología

Las cinco características clave de una buena pregunta para el análisis de datos

Hay cinco características clave de una buena pregunta para el análisis de datos, que van desde la más básica hasta la más abstracta.


La primera es que sea de interés para la audiencia. Esta dependerá del contexto y el entorno en el que se esté trabajando con los datos. Si fuese algo académico, la audiencia podrían ser otros colaboradores, la comunidad científica, alguna entidad del gobierno, los patrocinadores y/o el público. Si fuese una empresa, la audiencia podrían ser su jefe, los líderes de la empresa y/o los inversores. Por ejemplo, responder a la pregunta de si las ventas de pepperoni son mayores cuando se muestra junto a la salsa de pizza y la masa de pizza o cuando se muestra junto a otros embutidos sería de interés para una cadena de supermercados, pero no para personas de otras industrias.

La segunda es que se ha verificado que aún no ha sido respondida. Con la explosión de datos, la creciente cantidad de datos disponibles públicamente y la aparentemente interminable literatura científica y otros recursos, no es raro descubrir que ha sido respondida. Un poco de investigación y discusión con expertos podrían ayudar a resolver esto. Además, incluso si aún no ha sido respondida, las preguntas relacionadas si podrían haberlo sido y las respuestas a estas son información que podría ayudar a decidir cómo proceder con la pregunta específica.

La tercera es que debería surgir de un marco aceptable. Siguiendo la pregunta anterior, sobre la relación entre las ventas de pepperoni y su ubicación en la tienda, es aceptable porque los compradores que compran ingredientes de pizza tienen más probabilidades que otros compradores de estar interesados en pepperoni y es más probable que lo compren si lo ven al mismo tiempo que están seleccionando los otros ingredientes de la pizza. Una pregunta menos aceptable sería si las ventas de pepperoni se correlacionan con las ventas de yogurt, a menos que se tenga algún conocimiento previo que sugiera que estas deben estar correlacionadas. Si se tiene una pregunta cuyo marco no es aceptable, es probable que se termine con una respuesta difícil de interpretar o en la que no se tenga confianza.

La cuarta es que debería ser respondida. Tal vez no sea necesario indicar esto, pero vale la pena señalar que algunas de las mejores preguntas no se pueden responder, ya sea porque los datos no existen o porque no hay forma de recopilarlos debido a la falta de recursos, viabilidad o problemas éticos. Por ejemplo, se tiene una pregunta sobre un estudio de ciertas células en el cerebro que causan el autismo, pero no es posible realizar biopsias cerebrales para recolectar células vivas para estudiar, las que serían necesarias para responder la pregunta.

La quinta es que es específica. Ejemplo de una pregunta general: ¿Es mejor para uno llevar una dieta más saludable? Por tanto, resulta importante seguir un proceso que refine la pregunta y tener claro qué pasos se tomarán cuando se comience a buscar datos. Siguiendo el ejemplo ¿qué quiere decir una dieta "más saludable"?. Así, el proceso de refinamiento debería conducir a una pregunta final como: "¿Comer al menos 5 porciones al día de frutas y verduras frescas conduce a menos infecciones del tracto respiratorio superior (resfriados)?" Con este nivel de especificidad, el plan a seguir es mucho más claro y la respuesta que se obtendrá al final del análisis de datos será más fácil de interpretar.

Adaptación del libro "The Art of Data Science", de Robert Peng y Elizabeth Matsui.

Share:

La ciencia de datos como arte

El análisis de datos es difícil y parte del problema es que pocas personas pueden explicar cómo hacerlo. No es que no haya personas que realicen análisis de datos de forma regular. Sino que las personas que son realmente buenas en esto aún tienen que iluminar sobre el proceso de pensamiento que siguen.


Imagina que le preguntas a un compositor cómo escribe sus canciones. Hay muchas herramientas a las que puede recurrir. Tenemos una comprensión general de cómo debe estructurarse una buena canción: cuánto tiempo debe durar, cuántos versos, tal vez haya un verso seguido de un coro, etc. En otras palabras, hay un marco abstracto para las canciones en general. De manera similar, la teoría musical nos dice que ciertas combinaciones de notas y acordes funcionan bien juntas y otras combinaciones no suenan bien. Por muy buenas que puedan ser esas herramientas, en última instancia, el conocimiento de la estructura de la canción y la teoría musical por sí solo no lo convierte en una buena canción. Se necesita algo más.

En algún momento, el compositor debe inyectar una chispa creativa en el proceso para unir todas las herramientas de composición y hacer algo que la gente quiera escuchar. Esta es una parte clave del arte de escribir canciones. Esa chispa creativa es difícil de describir, mucho menos de escribir, pero claramente es esencial para escribir buenas canciones. Si no fuera así, tendríamos computadoras creando canciones de éxito con regularidad. Para bien o para mal, eso aún no ha sucedido.

Al igual que la composición de canciones, es importante darse cuenta que el análisis de datos es un arte. Todavía no es algo que podamos enseñarle a una computadora. Los analistas de datos tienen muchas herramientas a su disposición, desde la regresión lineal hasta los árboles de clasificación e incluso el aprendizaje profundo. Y todas esas herramientas se han enseñado cuidadosamente a las computadoras. Pero, en última instancia, un analista de datos debe encontrar una manera de reunir todas las herramientas y aplicarlas a los datos para responder una pregunta relevante, una pregunta de interés para las personas.


Desafortunadamente, el proceso de análisis de datos no es uno que hayamos podido escribir de manera efectiva. Es cierto que hay muchos libros de texto de estadística y tal vez tengamos algunos de ellos. Pero ninguno de estos aborda realmente los problemas centrales involucrados en la realización de análisis de datos del mundo real.

Describir el análisis de datos presenta un enigma difícil. Por un lado, desarrollar un marco útil implica caracterizar los elementos de un análisis de datos utilizando un lenguaje abstracto para encontrar los puntos en común entre los diferentes tipos de análisis. A veces, este idioma es el lenguaje de las matemáticas. Por otro lado, a menudo son los mismos detalles de un análisis lo que hacen que cada uno de ellos sea tan difícil e interesante. ¿Cómo se puede generalizar eficazmente a través de muchos análisis de datos diferentes, cuando cada uno de estos tiene aspectos importantes únicos?

Es así que el proceso de análisis no es una "fórmula" específica para el análisis de datos, algo así como "aplicar este método y luego ejecutar esta prueba", sino que es un proceso general que, con suerte, se puede aplicar en una variedad de situaciones. Finalmente, a través de la experiencia, tanto en la gestión de analistas de datos como en la realización de estos, se observará cuidadosamente qué produce resultados coherentes y qué no produce información útil sobre los datos.


Share:

Recent Posts

Popular Posts