Entrenar un modelo de aprendizaje automático para realizar una tarea de manera efectiva, como la clasificación de imágenes, implica mostrar al modelo miles, millones o incluso miles de millones de imágenes de ejemplo. La recopilación de conjuntos de datos tan enormes puede ser especialmente desafiante cuando la privacidad es una preocupación, como con las imágenes médicas. Investigadores del MIT y de la startup DynamoFL, nacida en el MIT, ahora han tomado una solución popular para este problema, conocida como aprendizaje federado, y la han hecho más rápida y precisa.
El aprendizaje federado es un método colaborativo para entrenar un modelo de aprendizaje automático que mantiene la privacidad de los datos confidenciales del usuario. Cientos o miles de usuarios entrenan cada uno su propio modelo utilizando sus propios datos en su propio dispositivo. Luego, los usuarios transfieren sus modelos a un servidor central, que los combina para crear un mejor modelo que envía a todos los usuarios.
Una colección de hospitales ubicados en todo el mundo, por ejemplo, podría usar este método para entrenar un modelo de aprendizaje automático que identifique tumores cerebrales en imágenes médicas, mientras mantiene seguros los datos de los pacientes en sus servidores locales.
Pero el aprendizaje federado tiene algunos inconvenientes. Transferir un gran modelo de aprendizaje automático hacia y desde un servidor central implica mover una gran cantidad de datos, lo que tiene altos costos de comunicación, especialmente porque el modelo debe enviarse de ida y vuelta docenas o incluso cientos de veces. Además, cada usuario recopila sus propios datos, por lo que esos datos no necesariamente siguen los mismos patrones estadísticos, lo que dificulta el rendimiento del modelo combinado. Y ese modelo combinado se hace tomando un promedio, no está personalizado para cada usuario.
Los investigadores desarrollaron una técnica que puede abordar simultáneamente estos tres problemas del aprendizaje federado. Su método aumenta la precisión del modelo de aprendizaje automático combinado al tiempo que reduce significativamente su tamaño, lo que acelera la comunicación entre los usuarios y el servidor central. También garantiza que cada usuario reciba un modelo más personalizado para su entorno, lo que mejora el rendimiento.
Los investigadores pudieron reducir el tamaño del modelo en casi un orden de magnitud en comparación con otras técnicas, lo que llevó a que los costos de comunicación fueran entre cuatro y seis veces más bajos para los usuarios individuales. Su técnica también pudo aumentar la precisión general del modelo en aproximadamente un 10 por ciento.
«Muchos artículos han abordado uno de los problemas del aprendizaje federado, pero el desafío era unir todo esto. Los algoritmos que se enfocan solo en la personalización o la eficiencia de la comunicación no brindan una solución lo suficientemente buena. Queríamos estar seguros de que pudimos optimizar para todo, por lo que esta técnica podría usarse en el mundo real», dice Vaikkunth Mugunthan PhD ’22, autor principal de un artículo que presenta esta técnica.
Mugunthan escribió el artículo con su asesora, la autora principal Lalana Kagal, científica investigadora principal en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL). El trabajo será presentado en la Conferencia Europea de Visión por Computador.
Recortar un modelo a medida
El sistema que desarrollaron los investigadores, llamado FedLTN, se basa en una idea de aprendizaje automático conocida como la hipótesis del billete de lotería. Esta hipótesis dice que dentro de modelos de redes neuronales muy grandes existen subredes mucho más pequeñas que pueden lograr el mismo rendimiento. Encontrar una de estas subredes es similar a encontrar un boleto de lotería ganador. (LTN significa «red de boletos de lotería»).
Las redes neuronales, basadas libremente en el cerebro humano, son modelos de aprendizaje automático que aprenden a resolver problemas utilizando capas interconectadas de nodos o neuronas.
Encontrar una red de boletos de lotería ganadores es más complicado que un simple raspadito. Los investigadores deben usar un proceso llamado poda iterativa. Si la precisión del modelo está por encima de un umbral establecido, eliminan los nodos y las conexiones entre ellos (al igual que podar las ramas de un arbusto) y luego prueban la red neuronal más delgada para ver si la precisión permanece por encima del umbral.
Otros métodos han utilizado esta técnica de poda para el aprendizaje federado para crear modelos de aprendizaje automático más pequeños que podrían transferirse de manera más eficiente. Pero si bien estos métodos pueden acelerar las cosas, el rendimiento del modelo sufre.
Mugunthan y Kagal aplicaron algunas técnicas novedosas para acelerar el proceso de poda mientras hacían los nuevos modelos más pequeños más precisos y personalizados para cada usuario.
Aceleró la poda al evitar un paso en el que las partes restantes de la red neuronal podada se «rebobinan» a sus valores originales. También entrenaron al modelo antes de podarlo, lo que lo hace más preciso para que pueda podarse a un ritmo más rápido, explica Mugunthan.
Para hacer que cada modelo fuera más personalizado para el entorno del usuario, tuvieron cuidado de no eliminar las capas de la red que capturan información estadística importante sobre los datos específicos de ese usuario. Además, cuando se combinaron todos los modelos, hicieron uso de la información almacenada en el servidor central para que no se comenzara desde cero en cada ronda de comunicación.
También desarrollaron una técnica para reducir la cantidad de rondas de comunicación para usuarios con dispositivos con recursos limitados, como un teléfono inteligente en una red lenta. Estos usuarios comienzan el proceso de aprendizaje federado con un modelo más ágil que ya ha sido optimizado por un subconjunto de otros usuarios.
Ganar a lo grande con las redes de boletos de lotería
Cuando pusieron a FedLTN a prueba en simulaciones, se logró un mejor rendimiento y se redujeron los costos de comunicación en todos los ámbitos. En un experimento, un enfoque de aprendizaje federado tradicional produjo un modelo de 45 megabytes de tamaño, mientras que su técnica generó un modelo con la misma precisión de solo 5 megabytes. En otra prueba, una técnica de última generación requirió 12 000 megabytes de comunicación entre los usuarios y el servidor para entrenar un modelo, mientras que FedLTN solo requirió 4500 megabytes.
Con FedLTN, los clientes con peor rendimiento aún vieron un aumento de rendimiento de más del 10 por ciento. Y la precisión general del modelo superó al algoritmo de personalización de última generación en casi un 10 por ciento, agrega Mugunthan.
Ahora que han desarrollado y perfeccionado FedLTN, Mugunthan está trabajando para integrar la técnica en una startup de aprendizaje federado que fundó recientemente, DynamoFL.
En el futuro, espera seguir mejorando este método. Por ejemplo, los investigadores han demostrado éxito usando conjuntos de datos que tenían etiquetas, pero un desafío mayor sería aplicar las mismas técnicas a datos sin etiquetar, dice.
Mugunthan tiene la esperanza de que este trabajo inspire a otros investigadores a repensar cómo abordan el aprendizaje federado.
«Este trabajo muestra la importancia de pensar en estos problemas desde un aspecto holístico, y no solo en las métricas individuales que deben mejorarse. A veces, mejorar una métrica en realidad puede causar una degradación en las otras métricas. En su lugar, deberíamos centrarnos en cómo podemos mejorar un montón de cosas juntos, lo cual es realmente importante si se va a implementar en el mundo real», dice.