Hay cinco características clave de una buena pregunta para el análisis de datos, que van desde la más básica hasta la más abstracta.
La primera es que sea de interés para la audiencia. Esta dependerá del contexto y el entorno en el que se esté trabajando con los datos. Si fuese algo académico, la audiencia podrían ser otros colaboradores, la comunidad científica, alguna entidad del gobierno, los patrocinadores y/o el público. Si fuese una empresa, la audiencia podrían ser su jefe, los líderes de la empresa y/o los inversores. Por ejemplo, responder a la pregunta de si las ventas de pepperoni son mayores cuando se muestra junto a la salsa de pizza y la masa de pizza o cuando se muestra junto a otros embutidos sería de interés para una cadena de supermercados, pero no para personas de otras industrias.
La segunda es que se ha verificado que aún no ha sido respondida. Con la explosión de datos, la creciente cantidad de datos disponibles públicamente y la aparentemente interminable literatura científica y otros recursos, no es raro descubrir que ha sido respondida. Un poco de investigación y discusión con expertos podrían ayudar a resolver esto. Además, incluso si aún no ha sido respondida, las preguntas relacionadas si podrían haberlo sido y las respuestas a estas son información que podría ayudar a decidir cómo proceder con la pregunta específica.
La tercera es que debería surgir de un marco aceptable. Siguiendo la pregunta anterior, sobre la relación entre las ventas de pepperoni y su ubicación en la tienda, es aceptable porque los compradores que compran ingredientes de pizza tienen más probabilidades que otros compradores de estar interesados en pepperoni y es más probable que lo compren si lo ven al mismo tiempo que están seleccionando los otros ingredientes de la pizza. Una pregunta menos aceptable sería si las ventas de pepperoni se correlacionan con las ventas de yogurt, a menos que se tenga algún conocimiento previo que sugiera que estas deben estar correlacionadas. Si se tiene una pregunta cuyo marco no es aceptable, es probable que se termine con una respuesta difícil de interpretar o en la que no se tenga confianza.
La cuarta es que debería ser respondida. Tal vez no sea necesario indicar esto, pero vale la pena señalar que algunas de las mejores preguntas no se pueden responder, ya sea porque los datos no existen o porque no hay forma de recopilarlos debido a la falta de recursos, viabilidad o problemas éticos. Por ejemplo, se tiene una pregunta sobre un estudio de ciertas células en el cerebro que causan el autismo, pero no es posible realizar biopsias cerebrales para recolectar células vivas para estudiar, las que serían necesarias para responder la pregunta.
La quinta es que es específica. Ejemplo de una pregunta general: ¿Es mejor para uno llevar una dieta más saludable? Por tanto, resulta importante seguir un proceso que refine la pregunta y tener claro qué pasos se tomarán cuando se comience a buscar datos. Siguiendo el ejemplo ¿qué quiere decir una dieta "más saludable"?. Así, el proceso de refinamiento debería conducir a una pregunta final como: "¿Comer al menos 5 porciones al día de frutas y verduras frescas conduce a menos infecciones del tracto respiratorio superior (resfriados)?" Con este nivel de especificidad, el plan a seguir es mucho más claro y la respuesta que se obtendrá al final del análisis de datos será más fácil de interpretar.
Adaptación del libro "The Art of Data Science", de Robert Peng y Elizabeth Matsui.