Introducción

Los dos conceptos que definen esta asignatura son: Datos y Tecnología. En esta primera sección vamos a explorarlos con un poco más de profundidad.

Datos

“Un dato es una representación simbólica (numérica, alfabética, algorítmica, espacial, etc.) de un atributo o variable cuantitativa o cualitativa. Los datos describen hechos empíricos, sucesos y entidades.”

Los datos de forma aislada pueden no contener información relevante para la solución/análisis de un problema. Solo cuando un conjunto de datos se examina conjuntamente a la luz de un enfoque, hipótesis o teoría se puede apreciar la información contenida en dichos datos. Los datos pueden consistir en números, estadísticos o proposiciones descriptivas. Los conceptos de datos, información, conocimientos y sabiduría están interrelacionados; se considera que los datos convenientemente agrupados, estructurados e interpretados son la base de la información humanamente relevante que se puede utilizar en la toma de decisiones, la reducción de la incertidumbre o la realización de cálculos.

fuente

Ciencia de datos

La ciencia de datos es un campo de estudio y práctica que se centra en obtener información de los datos. Mediante el uso de técnicas programación, conocimiento estadístico y técnicas de aprendizaje automático podremos tratar “grandes” conjuntos de datos en busca de patrones que puedan usarse para analizar el pasado o incluso predecir el futuro.

Las tareas que están relacionadas con el análisis de datos son:

  • Capturar datos: extraer los datos de la base de datos de una empresa, extraerlos de un sitio web, acceder a una API, etc.

  • Administrar datos: almacenar correctamente los datos, y casi siempre implicará limpiar los datos.

  • Análisis exploratorio: realizar diferentes análisis y visualizar los datos de varias maneras para buscar patrones, preguntas y oportunidades para un estudio más profundo.

  • Análisis final: profundizar en los datos para responder preguntas comerciales específicas y ajustar modelos predictivos para obtener los resultados más precisos.

  • Informes: presentar los resultados del análisis, lo que podría incluir escribir un informe, producir visualizaciones y hacer recomendaciones basadas en los resultados del análisis. La generación de informes también puede significar conectar los resultados del análisis en un producto de datos o visualizador para que otros miembros del equipo o clientes puedan acceder fácilmente a ellos.

Básicamente, estas tareas se reflejan en el siguiente flujo:

Flujo tratamiento datos

Tecnologías

La programación es una herramienta transversal que podemos utilizar en diferentes partes de nuestros proyectos. No necesitamos ser programadores expertos para poder trabajar con datos, pero es necesario tener conocimientos básicos de programación. Esto nos permitirá automatizar tareas comunes y resolver nuevos problemas con mayor facilidad y rapidez.

En este curso vamos a trabajar con dos marcos tecnológicos diferentes R y Python ambos son lenguajes de programación que nos permiten trabajar con datos. R es considerada una herramienta muy útil en el ámbito académico mientras que Python es un lenguaje de propósito general, es decir, puede servirnos desde para la construcción de páginas web a sistemas de inteligencia artificial avanzados.

Nos será interesante conocer ambos lenguajes porque tienen filosofías de trabajo diferentes y nos pueden ayudar en situaciones diversas.

Logos R y Python