Currícula Data Science - Inteligencia Artificial
Fundamentos
- Algebra Lineal y Matrices
- Algebra Relacional
- Árboles Binarios
- Funciones de Hash
- Bases de Datos
- Teorema de CAP
- Entropía
- 'Sharding'
- Data Frames y Series
- OLAP (Procesamiento Analítico en línea)
- Modelo de datos Multidimensional
- ETL
- Datos tabulares
- JSON y XML
- NoSQL
- Expresiones Regulares (regex)
Estadística
- Datasets
- Estadística Descriptiva (media, moda, mediana, varianza, etc.)
- Histogramas
- Percentiles
- Probabilidad
- Teorema de Bayes
- Variables Aleatorias
- Funciones Acumuladas
- Distribuciones Continuas
- Oblicuas
- Análisis de varianza (ANOVA)
- Teorema Central del Límite
- Método de Monte Carlo
- Chi cuadrado
- Prueba de hipótesis
- Intervalos de Confianza
- p-valor
- Estimación por máxima verosimilitud (MLE)
- Kernel Density Estimation (KDE)
- Regresión
- Covarianza
- Correlación
- Coeficiente de correlación de Pearson
- Causalidad
- Mínimos cuadrados generalizados
- Distancia euclidiana
Programación
- Variables
- Funciones
- Listas
- Arreglos
- Vectores
- Matrices
- Manipulación de Data frames
- Lectura de datos en bruto
- Lectura de datos en formato CSV/JSON/XML
- Lenguajes (Python, R, etc.)
Aprendizaje automático (Machine Learning)
- Variables continuas y discretas
- Conceptos, características y datos de entrada
- Preprocesamiento de datos
- Extracción, Escala y Selección de características
- Muestreo
- Reducción de dimensionalidad
- Análisis de Componentes Principales (Principal Component Analysis - PCA)
- Datos de Entrenamiento, Validación y Prueba
- Aprendizaje supervisado
- Regresión
- Regresión Lineal/Polinómica
- Regresión Logística
- Ranking
- Metricas
- Error Absoluto Medio
- Error Cuadrado Medio
- R cuadrado (R2-Score)
- Explained Variance Score
- Clasificación
- Árboles de decisión
- Entropía
- Ganancia de información
- Algoritmo ID3
- Clasificador Bayesiano Ingenuo
- Máquinas de vectores de soporte (Support Vector Machines)
- K-vecinos más cercanos (K-NN)
- Boosting
- Metricas
- Exactitud
- Tasa de clasificación
- Matriz de confusión
- Precisión y Exhaustividad (Precision & Recall)
- Valor-F (F1 Score)
- Métodos no parametrizados
- Aprendizaje no supervisado
- Agrupamiento (Clustering)
- Clustering jerárquico
- Clustering K-means
- Aprendizaje reforzado
- Reglas de asociación (Lift)
- Secuencia de etiquetado (Sequence labeling)
- Subajuste y Sobreajuste (Underfitting & Overfitting)
- Sesgo y Varianza
- Curvas de aprendizaje
- Validación Cruzada (Cross-Validation)
- Análisis de sentimiento
- Detección de anomalías
- Sistemas de recomendación
- Filtrado colaborativo
Redes Neuronales Artificiales (Artificial Neural Networks - ANN)
- Perceptrones
- Función Sigmoidea
- Descenso por gradiente
Aprendizaje Profundo (Deep Learning)
- Redes Neuronales Convolucionales (CNN)
- Redes Neuronales Recurrentes (RNN)
- Memoria de largo y corto plazo (LSTM)
- Aprendizaje de Secuencia a Secuencia
- Redes Adversarias Generativas
- Aprendizaje en un solo tiro (one-shot learning)
Procesamiento de lenguajes naturales (NLP)
- Mapeo de vocabulario
- Clasificador de texto
- Reglas de asociación
- Frecuencia de términos y pesos
- Matriz Documento-Término
- Aplicaciones para la administración de información no estructurada (UIMA)
- Análisis de texto
- Reconocimiento de nombres de entidades (NER)
- Corpus lingüístico
Habla
- Reconocimiento de voz (speech to text)
- Conversor texto-voz (text to speech)
Visión artificial (Computer vision)
- Reconocimiento de Imágenes
- Visión de máquina
Visualización de datos
- Tableau
- IBM ManyEyes
- InfoVis
- Árbol de decisión
- Línea de tiempo
- Survey Plot
- Gráfico de líneas
- Gráficos Espaciales
- Diagrama de dispersión (Scatter Plot)
- Tree & Tree Map
- Histograma & Torta
- D3.js
- ggplot2
- Visualización Univariable/Multivariable
- Exploración de datos en R (Hist, Boxplot, etc.)
Big Data
- Map Reduce
- Hadoop
- Hadoop Distributed File System (HDFS)
- Principios de replicación de datos
- Name & DataNodes
- Job & Task Tracker
- Programación R/M
- Sqoop
- Flume/Scribe (para datos no estructurados)
- SQL con Pig
- Data Warehouse con Hive
- Scribe/Chukwa (para weblogs)
- Zookeeper Avro
- Storm: Hadoop en tiempo real
- Rhadoop/Rhipe
- rmr
- Cassandra
- MongoDB, Neo4j
Data Ingestion (‘Ingestión de datos’)
Data Munging (‘Limpieza de datos’)
Computación Evolutiva
- Algoritmos genéticos
- Programación genética
- Programación evolutiva
- Programación por expresión de genes (GEP)
- Neuroevolución
Robótica
Agentes Inteligentes
Toolbox
- Matriz de Herramientas
- NLTK - Librería Python
- Weka (Análisis de conocimiento en Java - GNU-GPL)
- R/R-Studio/Rattle
- Knime
- RapidMiner
- Mahout
- Spark/Storm
- Flume/Scibe/Chukwa
- Shiny/ggplot2/D3.js
- Nutch/Talend/Scraperwiki