En los campos de estudio de la inteligencia artificial el cerebro supone un gran referente y fuente de inspiración sobre la cual se han desarrollado muchos de los conceptos más importantes del Machine Learning.
Uno de estos conceptos es el de los paradigmas de aprendizaje. Los mecanismo que permiten que podamos procesar toda aquella información nueva que percibimos para acabar transformándola en conocimiento. Saber como funcionan estos mecanismo es algo fundamental en el campo del machine learning. Y esto así hasta tal punto que todos los algoritmos y técnicas dentro de este campo pueden ser clasificados en tres grandes grupos según cual sea el paradigma de aprendizaje que estén utilizando.
Estos tres grupos son:
Aprendizaje Supervisado
Aprendizaje No supervisado
Aprendizaje Reforzado
Vamos a centrarnos en el segundo, el no supervisado que junto con el supervisado es uno de los más utilizado.
Por definición el aprendizaje no supervisado es el paradigma que consigue producir conocimiento únicamente de los datos que se proporcionan como entrada. Sin necesidad, en ningún momento, de explicarle al sistema que resultados queremos obtener. Así de primeras puede ser una definición un poco abstracta, pero vamos a verlo con un ejemplo.
Imagínate que acabaras de entrar en un mundo desconocido. Un lugar que no conoces y del cual no tienes ninguna información previa. Encuentras un papel escrito con un lenguaje que desconoces sin embargo te das cuenta de algo. Parece que en ese papel puede haber escrito más de un idioma diferente. Tú no entiendes ninguno de ellos pero intentas reconocer que símbolos pertenecen a un idioma u a otro. Reunimos en un lado aquellos símbolos que tienen características similares a los otros y lo mismo con los otros. Este problema que acabamos de ver se llama clasterización. Y es un problema muy importante dentro del campo del aprendizaje no supervisado.
La dificultad de los algoritmos no supervisado es que no tienen ningún ejemplo de respuesta con el que saber si el algoritmo está actuando correctamente.
Una primera ventaja que tiene este modelo de aprendizaje es que los conjuntos de datos para entrenar son menos costosos de conseguir.
Lo que hace el modelo no supervisado es buscar patrones de similitud con los datos de entrada. Por ejemplo los símbolos de un lenguaje.
Lo interesante es que los algoritmos más potentes de este modelo son capaces de descubrir a la perfección cual es la estructura interna que han generado estos datos. Actualmente estos algoritmos ya han sido capaces de aprender estructuras conceptuales como el espacio tridimensional y la posición de los objetos en él. Estas estructuras reciben el nombre de Espacios latentes.
Una vez construyes este espacio las máquinas consiguen capacidades tan interesantes como las de saber si una cosa es similar a otra cosa.
Definición:
El aprendizaje no supervisado es un tipo de aprendizaje automático o machine learning en el que los modelos aprenden a partir de conjuntos de datos sin etiquetar sobre el que se les permite actuar sin supervisión.
No se puede aplicar directamente a un problema de clasificación o regresión porque, al contrario que en el aprendizaje supervisado, en el no supervisado disponemos de los datos de entrada, pero carecemos de los datos de salida. Su objetivo es encontrar la estructura oculta del conjunto de datos, agruparlos según sus semejanzas y devolver una representación útil del conjunto.
No se puede aplicar directamente a un problema de clasificación o regresión porque, al contrario que en el aprendizaje supervisado, en el no supervisado disponemos de los datos de entrada, pero carecemos de los datos de salida. Su objetivo es encontrar la estructura oculta del conjunto de datos, agruparlos según sus semejanzas y devolver una representación útil del conjunto.
Aprendizaje no supervisado: ejemplos
Imagina que el algoritmo de aprendizaje sin supervisión recibe un conjunto de datos de entrada que contiene imágenes de diferentes tipos de gatos y perros. Como no hay un entrenamiento con datos previos, el algoritmo no conoce las características del conjunto de datos. La tarea que este debe realizar es la de identificar las características de las diferentes imágenes. Tarea que ejecutará agrupándolas en función de las semejanzas que encuentre entre ellas.
¿Por qué utilizar el aprendizaje automático no supervisado?
El aprendizaje no supervisado sirve para analizar un conjunto de datos en crudo y convertirlo en información de utilidad.
Se trata de un modo de aprendizaje semejante a la IA real debido a su proximidad al proceso de aprendizaje humano.
Funciona con datos no etiquetados ni categorizados y esto le concede mayor importancia.
Es necesario muy a menudo, porque las ocasiones en las que disponemos de datos de entrada y de salida son muy pocas.
Algoritmos de aprendizaje no supervisado
Agrupamiento
El agrupamiento es un método que reúne los objetos de modo que aquellos que presenten muchas similitudes permanezcan en un grupo. Este tipo de análisis, llamado de conglomerados, encuentra los puntos en común de los objetos que componen el conjunto de datos y los clasifica según la presencia o ausencia de esos puntos en común.
Editorial Luis Bonilla. Expertos en enseñanza, formación a distancia, tutores cualificados y con variedad de cursos online.