Página de inicio de OpenText.
Temas técnicos

¿Qué es el aprendizaje automático?

Ilustración de elementos informáticos centrados en un signo de interrogación

Descripción general

El aprendizaje automático es un subconjunto de la inteligencia artificial centrado en la creación de sistemas capaces de aprender de datos históricos, identificar patrones y tomar decisiones lógicas sin apenas intervención humana. Es un método de análisis de datos que automatiza la construcción de modelos analíticos mediante el uso de datos que abarcan diversas formas de información digital, como números, palabras, clics e imágenes.

Las aplicaciones de aprendizaje automático aprenden de los datos de entrada y mejoran continuamente la precisión de los resultados mediante métodos de optimización automatizados. La calidad de un modelo de aprendizaje automático depende de dos aspectos principales:

  1. La calidad de los datos de entrada. Una frase habitual en torno al desarrollo de algoritmos de aprendizaje automático es "basura dentro, basura fuera". Esto significa que si se introducen datos de baja calidad o desordenados, el resultado del modelo será en gran medida inexacto.
  2. La propia elección del modelo. En el aprendizaje automático hay una plétora de algoritmos que un científico de datos puede elegir, todos con sus propios usos específicos. Es vital elegir el algoritmo correcto para cada caso de uso. Las redes neuronales son un tipo de algoritmo muy popular por su gran precisión y versatilidad. Sin embargo, para cantidades bajas de datos, elegir un modelo más sencillo suele dar mejores resultados.

Cuanto mejor sea el modelo de aprendizaje automático, con mayor precisión podrá encontrar características y patrones en los datos. Eso, a su vez, implica que sus decisiones y predicciones serán más precisas.

OpenText ArcSight Intelligence para CrowdStrike

Protección sin precedentes que combina el aprendizaje automático y la seguridad de los puntos finales junto con la caza de amenazas de categoría mundial como servicio.

Más información

Aprendizaje automático

¿Por qué es importante el aprendizaje automático?

¿Por qué utilizar el aprendizaje automático? El aprendizaje automático está cobrando cada vez más importancia debido a los volúmenes y la variedad cada vez más enormes de datos, el acceso y la asequibilidad de la potencia de cálculo y la disponibilidad de Internet de alta velocidad. Estos factores de transformación digital permiten desarrollar de forma rápida y automática modelos capaces de analizar con rapidez y precisión conjuntos de datos extraordinariamente grandes y complejos.

El aprendizaje automático puede aplicarse a multitud de casos de uso para reducir costes, mitigar riesgos y mejorar la calidad de vida en general, como la recomendación de productos y servicios, la detección de fallos de ciberseguridad y la conducción autónoma de automóviles. Gracias a un mayor acceso a los datos y a la potencia de cálculo, el aprendizaje automático es cada día más omnipresente y pronto se integrará en muchas facetas de la vida humana.


¿Cómo funciona el aprendizaje automático?

Para crear un modelo de aprendizaje automático hay que seguir cuatro pasos fundamentales.

  1. Elegir y preparar un conjunto de datos de entrenamiento

    Los datos de entrenamiento son información representativa de los datos que la aplicación de aprendizaje automático ingiere para ajustar los parámetros del modelo. A veces, los datos de entrenamiento están etiquetados, lo que significa que han sido etiquetados para indicar clasificaciones o valores esperados que el modo de aprendizaje automático debe predecir. Otros datos de entrenamiento pueden no estar etiquetados, por lo que el modelo tendrá que extraer características y asignar clusters de forma autónoma.

    Para el etiquetado, los datos deben dividirse en un subconjunto de entrenamiento y un subconjunto de prueba. El primero se utiliza para entrenar el modelo y el segundo para evaluar su eficacia y encontrar formas de mejorarlo.

  2. Seleccionar un algoritmo para aplicarlo al conjunto de datos de entrenamiento

    El tipo de algoritmo de aprendizaje automático que elija dependerá principalmente de algunos aspectos:

    • Si el caso de uso es la predicción de un valor o la clasificación, que utiliza datos de entrenamiento etiquetados, o si el caso de uso es la agrupación o la reducción dimensional, que utiliza datos de entrenamiento no etiquetados.
    • Cuántos datos hay en el conjunto de entrenamiento
    • La naturaleza del problema que el modelo pretende resolver

    Para los casos de predicción o clasificación, se suelen utilizar algoritmos de regresión como la regresión por mínimos cuadrados ordinarios o la regresión logística. Con datos no etiquetados, es probable que recurra a algoritmos de agrupación como k-means o el vecino más próximo. Algunos algoritmos, como las redes neuronales, pueden configurarse para trabajar tanto con casos de uso de agrupación como de predicción.

  3. Entrenar el algoritmo para construir el modelo

    El entrenamiento del algoritmo es el proceso de ajuste de las variables y parámetros del modelo para predecir con mayor exactitud los resultados adecuados. El entrenamiento del algoritmo de aprendizaje automático suele ser iterativo y utiliza diversos métodos de optimización en función del modelo elegido. Estos métodos de optimización no requieren intervención humana, lo que forma parte de la potencia del aprendizaje automático. La máquina aprende a partir de los datos que se le facilitan sin apenas indicaciones específicas por parte del usuario.

  4. Utilizar y mejorar el modelo

    El último paso consiste en introducir nuevos datos en el modelo para mejorar su eficacia y precisión con el paso del tiempo. La procedencia de la nueva información dependerá de la naturaleza del problema que haya que resolver. Por ejemplo, un modelo de aprendizaje automático para coches autoconducidos ingiere información del mundo real sobre las condiciones de la carretera, los objetos y las leyes de tráfico.


Métodos de aprendizaje automático

Qué es el aprendizaje automático supervisado

Los algoritmos de aprendizaje automático supervisado utilizan datos etiquetados como datos de entrenamiento en los que se conocen las salidas adecuadas a los datos de entrada. El algoritmo de aprendizaje automático recibe un conjunto de entradas y sus correspondientes salidas correctas. El algoritmo compara sus propias salidas previstas con las salidas correctas para calcular la precisión del modelo y, a continuación, optimiza los parámetros del modelo para mejorar la precisión.

El aprendizaje automático supervisado se basa en patrones para predecir valores en datos no etiquetados. Se utiliza sobre todo en la automatización, en grandes cantidades de registros de datos o en casos en los que hay demasiadas entradas de datos para que los humanos las procesen con eficacia. Por ejemplo, el algoritmo puede detectar transacciones con tarjeta de crédito que probablemente sean fraudulentas o identificar al cliente de seguros que con mayor probabilidad presentará una reclamación.

Qué es el aprendizaje automático no supervisado

El aprendizaje automático no supervisado se aplica mejor a los datos que no tienen una respuesta estructurada u objetiva. No hay predeterminación de la salida correcta para una entrada dada. En su lugar, el algoritmo debe comprender la entrada y tomar la decisión adecuada. El objetivo es examinar la información e identificar estructuras en ella.

El aprendizaje automático no supervisado funciona bien con información transaccional. Por ejemplo, el algoritmo puede identificar segmentos de clientes que poseen atributos similares. Los clientes de estos segmentos pueden ser objeto de campañas de marketing similares. Entre las técnicas más utilizadas en el aprendizaje no supervisado figuran el mapeo del vecino más próximo, los mapas autoorganizados, la descomposición del valor singular y la agrupación k-means. Posteriormente, los algoritmos se utilizan para segmentar temas, identificar valores atípicos y recomendar artículos.


¿Cuál es la diferencia entre aprendizaje automático supervisado y no supervisado?

Aspecto

Aprendizaje supervisado

Aprendizaje no supervisado

Proceso

Se proporcionan variables de entrada y salida para entrenar el modelo.

Sólo se proporcionan datos de entrada para entrenar el modelo. No se utilizan datos de salida.

Datos de entrada

Utiliza datos etiquetados.

Utiliza datos no etiquetados.

Algoritmos admitidos

Admite algoritmos de regresión, algoritmos basados en instancias, algoritmos de clasificación, redes neuronales y árboles de decisión.

Admite algoritmos de agrupación, algoritmos de asociación y redes neuronales.

Complejidad

Más sencillo.

Más complejo.

Subjetividad

Objetivo.

Subjetivo.

Número de clases

Se conoce el número de clases.

Se desconoce el número de clases.

Principal inconveniente

Clasificar datos masivos con aprendizaje supervisado es difícil.

La elección del número de grupos puede ser subjetiva.

Objetivo principal

Entrenar el modelo para predecir el resultado cuando se le presentan nuevas entradas.

Encuentre ideas útiles y patrones ocultos.


Qué puede hacer el aprendizaje automático: El aprendizaje automático en el mundo real

Aunque las funciones de aprendizaje automático existen desde hace décadas, es la capacidad más reciente de aplicar y calcular automáticamente cálculos matemáticos complejos con grandes volúmenes de datos lo que les ha dado una sofisticación sin precedentes. En la actualidad, el ámbito de aplicación del aprendizaje automático es muy amplio y abarca desde las operaciones de AIO de las empresas hasta el comercio minorista en línea. Algunos ejemplos reales de las capacidades actuales de aprendizaje automático son los siguientes:

  • Ciberseguridad mediante análisis de comportamiento para determinar eventos sospechosos o anómalos que puedan indicar amenazas internas, APT o ataques de día cero.
  • Proyectos de coches autoconducidos, como Waymo (filial de Alphabet Inc.) y Autopilot de Tesla, que está un paso por debajo de los coches autoconducidos reales.
  • Asistentes digitales como Siri, Alexa y Google Assistant que buscan información en la web en respuesta a nuestras órdenes de voz.
  • Recomendaciones personalizadas para el usuario basadas en algoritmos de aprendizaje automático en sitios web y aplicaciones como Netflix, Amazon y YouTube.
  • Soluciones de detección de fraudes y ciberresiliencia que agregan datos de múltiples sistemas, descubren clientes con comportamientos de alto riesgo e identifican patrones de actividad sospechosa. Estas soluciones pueden utilizar el aprendizaje automático supervisado y no supervisado para clasificar las transacciones de las organizaciones financieras como fraudulentas o legítimas. Por este motivo, un consumidor puede recibir mensajes de texto de la compañía de su tarjeta de crédito verificando si una compra inusual realizada con las credenciales financieras del consumidor es legítima. El aprendizaje automático ha avanzado tanto en el ámbito del fraude que muchas empresas de tarjetas de crédito anuncian a los consumidores la ausencia de culpa si los algoritmos de la organización financiera no detectan las transacciones fraudulentas.
  • El reconocimiento de imágenes ha experimentado avances significativos y puede utilizarse de forma fiable para el reconocimiento facial, la lectura de la letra manuscrita en cheques depositados, la vigilancia del tráfico y el recuento del número de personas presentes en una sala.
  • Filtros de spam que detectan y bloquean el correo no deseado de las bandejas de entrada.
  • Empresas de servicios públicos que analizan los datos de los sensores para encontrar formas de mejorar la eficiencia y reducir costes.
  • Dispositivos médicos vestibles que capturan en tiempo real datos valiosos para su uso en la evaluación continua de la salud del paciente.
  • Aplicaciones de taxi que evalúan las condiciones del tráfico en tiempo real y recomiendan la ruta más eficiente.
  • El análisis del sentimiento determina el tono de una línea de texto. Buenas aplicaciones del análisis de sentimientos son Twitter, las opiniones de los clientes y los encuestados:
    • Twitter: una forma de evaluar las marcas es detectar el tono de los tuits dirigidos a una persona o empresa. Empresas como Crimson Hexagon y Nuvi proporcionan esta información en tiempo real.
    • Opiniones de clientes: Puedes detectar el tono de las reseñas de los clientes para evaluar cómo le va a tu empresa. Esto resulta especialmente útil si no existe un sistema de clasificación asociado a las opiniones de texto libre de los clientes.
    • Encuestas: El uso del análisis de sentimientos en las respuestas de texto libre de las encuestas puede ofrecerte una evaluación de un vistazo de cómo se sienten los encuestados. Qualtrics lo tiene implementado con sus encuestas.
  • El análisis de segmentación del mercado utiliza el aprendizaje automático no supervisado para agrupar a los clientes en función de sus hábitos de compra y determinar diferentes tipos o personas de clientes. Esto le permite conocer mejor a sus clientes más valiosos o desatendidos.
  • Es fácil pulsar ctrl+F para buscar palabras y frases exactas en un documento, pero si no conoces el texto exacto que buscas puede resultar difícil buscar documentos. El aprendizaje automático puede utilizar técnicas como los métodos difusos y el modelado de temas puede facilitar mucho este proceso al permitir buscar documentos sin conocer la frase exacta que se busca.

El papel del aprendizaje automático seguirá creciendo

A medida que crecen los volúmenes de datos, aumenta la potencia de cálculo, se amplía el ancho de banda de Internet y los científicos de datos mejoran sus conocimientos, el aprendizaje automático seguirá impulsando una eficiencia mayor y más profunda en el trabajo y en casa.

Con las crecientes ciberamenazas a las que se enfrentan las empresas hoy en día, el aprendizaje automático es necesario para proteger datos valiosos y mantener a los piratas informáticos alejados de las redes internas. Nuestro principal software UEBA SecOps, ArcSight Intelligence, utiliza el aprendizaje automático para detectar anomalías que puedan indicar acciones maliciosas. Tiene un historial probado de detección de amenazas internas, ataques de día cero e incluso ataques agresivos de equipos rojos.

Notas al pie