Entre las preguntas más importantes que rodean a modelos como ChatGPT, Gemini y Midjourney desde su lanzamiento está la de qué papel, si es que tendrá alguno, desempeñarán en nuestra vida cotidiana. Es algo que Apple se esfuerza por responder con su propia versión, Apple Intelligence, que presentó oficialmente en la WWDC 2024.
Cuando el vicepresidente senior de Apple Craig Federighi no estaba haciendo paracaidismo o practicando parkour con la ayuda de algo de magia de Cupertino, Apple estaba decidida a demostrar que sus modelos internos eran tan capaces como los de la competencia.
Las versiones beta no se lanzaron hasta el lunes, pero desde entonces la compañía ha revelado algo de lo que hace que su enfoque de la IA generativa sea diferente. Lo primero y más importante es el alcance. Muchas de las empresas más destacadas del sector adoptan un enfoque de «cuanto más grande, mejor». El objetivo de estos sistemas es servir como una especie de ventanilla única para la información disponible en el mundo.
El enfoque de Apple, por el contrario, se basa en algo más pragmático. Apple Intelligence tiene un enfoque más personalizado para la IA generativa, creado específicamente con los diferentes sistemas operativos de la compañía como base. Es un enfoque muy Apple en el que prioriza sobre todo una experiencia de usuario sin fricciones.
Apple Intelligence es un ejercicio de marca en una dirección, pero en otra diferente, la compañía prefiere que los aspectos generativos de la IA se integren perfectamente en el sistema operativo. Es incluso preferible, en realidad, si el usuario no tiene conocimiento de las tecnologías subyacentes que impulsan estos sistemas. Así han funcionado siempre los productos Apple.
Mantener los modelos pequeños
La clave es crear modelos más pequeños: entrenar los sistemas en un conjunto de datos personalizado diseñado específicamente para los tipos de funcionalidad requeridos por los usuarios de sus sistemas operativos. No está claro de inmediato cuánto afectará el tamaño de estos modelos al aspecto de la caja negra, pero Apple cree que, como mínimo, tener más modelos temáticos aumentará la transparencia sobre por qué el sistema toma decisiones específicas.
Debido a la naturaleza relativamente limitada de estos modelos, Apple no espera que haya una gran variedad de servicios para solicitar al sistema, por ejemplo, resumir un texto. Sin embargo, en última instancia, la variación de una respuesta o sugerencia a otra depende de la extensión del texto que se resuma. Los sistemas operativos también cuentan con un mecanismo de retroalimentación en el que los usuarios pueden informar problemas con el sistema de IA generativa.
Si bien Apple Intelligence está mucho más enfocado hacia modelos más grandes, puede cubrir un espectro de solicitudes gracias a la inclusión de “adaptadores”, que están especializados para diferentes tareas y estilos. Sin embargo, en términos generales, el enfoque de Apple no es un enfoque de “cuanto más grande, mejor” para crear modelos, ya que es necesario tener en cuenta aspectos como el tamaño, la velocidad y la potencia de cálculo, especialmente cuando se trata de modelos integrados en un dispositivo.
ChatGPT, Gemini y el resto
Abrirse a modelos de terceros como ChatGPT de OpenAI tiene sentido al considerar el enfoque limitado de los modelos de Apple. La compañía entrenó sus sistemas específicamente para la experiencia macOS/iOS, por lo que habrá mucha información que estará fuera de su alcance. En los casos en que el sistema crea que una aplicación de terceros sería más adecuada para brindar una respuesta, un mensaje del sistema le preguntará si desea compartir esa información externamente. Si no recibe un mensaje como este, la solicitud se está procesando sobre los modelos internos de Apple.
Esto debería funcionar igual con todos los modelos externos con los que Apple se asocia, incluido Google Gemini. Es uno de esos raros casos en los que el sistema llamará la atención al usuario sobre el uso de IA generativa de esta forma externa. La decisión se tomó, en parte, para eliminar cualquier preocupación por la privacidad. Cada empresa tiene estándares diferentes a la hora de recopilar y formar sobre los datos de los usuarios.
Exigir a los usuarios que se inscriban cada vez elimina parte de la responsabilidad de Apple, incluso si agrega algo de fricción al proceso. También puede optar por no utilizar plataformas de terceros en todo el sistema, aunque hacerlo limitaría la cantidad de datos a los que puede acceder el sistema operativo/Siri. Esto supone que el usuario no puede darse de baja de Apple Intelligence en un solo punto, una vez. Tendrá que hacerlo por función o aplicación que usa un modelo externo.
Computación en la nube privada
Por otro lado, no queda claro si el sistema procesa una consulta específica en el dispositivo o a través de un servidor remoto con Private Cloud Compute. La filosofía de Apple es que tales revelaciones no son necesarias, ya que mantiene sus servidores con los mismos estándares de privacidad que sus dispositivos, hasta el silicio de origen en el que se ejecutan.
Una forma de saber con certeza si la consulta se administra dentro o fuera del dispositivo es desconectar su máquina de Internet. Si el problema requiere computación en la nube para resolverse, pero la máquina no puede encontrar una red, generará un error indicando que no puede completar la acción solicitada.
Apple está desglosando los detalles sobre qué acciones requerirán procesamiento basado en la nube. Hay varios factores en juego, y la naturaleza siempre cambiante de estos sistemas significa que algo que podría requerir computación en la nube hoy podría lograrse en el dispositivo mañana. La informática en el dispositivo no siempre será la opción más rápida, ya que la velocidad es uno de los parámetros que Apple Intelligence tiene en cuenta al determinar dónde procesar el mensaje.
Sin embargo, existen determinadas operaciones que siempre se realizarán en el dispositivo. El más notable del grupo es Image Playground, ya que el modelo de difusión completo se almacena localmente. Apple modificó el modelo para que genere imágenes en tres estilos de casa diferentes: animación, ilustración y boceto. El estilo de animación se parece bastante al estilo propio de la casa de otra empresa fundada por Steve Jobs. De manera similar, la generación de texto está actualmente disponible en tres estilos: amigable, profesional y conciso.
Incluso en esta etapa beta inicial, la generación de Image Playground es impresionantemente rápida y a menudo solo toma un par de segundos. En cuanto a la cuestión de la inclusión al generar imágenes de personas, el sistema requiere que ingrese detalles específicos, en lugar de simplemente adivinar cosas como el origen étnico.
Cómo manejará Apple los conjuntos de datos
Los modelos de Apple se entrenan en una combinación de conjuntos de datos con licencia y rastreando información de acceso público. Esto último se logra con AppleBot. El rastreador web de la compañía existe desde hace algún tiempo y proporciona datos contextuales a aplicaciones como Spotlight, Siri y Safari. El rastreador tiene una función de exclusión voluntaria para los editores.
«Con Applebot-Extended», señala Apple, «los editores web pueden optar por no utilizar el contenido de su sitio web para entrenar los modelos básicos de Apple que impulsan las funciones de inteligencia artificial generativa en todos los productos Apple, incluidos Apple Intelligence, Services y Developer Tools».
Esto se logra con la inclusión de un mensaje dentro del código del sitio web. Con la llegada de Apple Intelligence, la compañía ha introducido un segundo mensaje, que permite incluir sitios en los resultados de búsqueda pero excluirlos del entrenamiento del modelo de IA generativa.
IA responsable
Apple publicó un documento técnico el primer día de la WWDC titulado «Presentación de los modelos básicos de servidores y dispositivos de Apple». Entre otras cosas, destaca los principios que rigen los modelos de IA de la empresa. En particular, destaca cuatro puntos:
- “Proporcionar a los usuarios herramientas inteligentes: identificamos áreas donde la IA se puede utilizar de manera responsable para crear herramientas que aborden las necesidades específicas de los usuarios. Respetamos cómo nuestros usuarios eligen utilizar estas herramientas para lograr sus objetivos”.
- “Representar a nuestros usuarios: creamos productos profundamente personales con el objetivo de representar auténticamente a los usuarios de todo el mundo. Trabajamos continuamente para evitar perpetuar estereotipos y sesgos sistémicos en nuestras herramientas y modelos de IA”.
- “Diseñar con cuidado: tomamos precauciones en cada etapa de nuestro proceso, incluido el diseño, la capacitación del modelo, el desarrollo de funciones y la evaluación de la calidad para identificar cómo nuestras herramientas de inteligencia artificial pueden usarse indebidamente o provocar daños potenciales. Mejoraremos continua y proactivamente nuestras herramientas de IA con la ayuda de los comentarios de los usuarios”.
- “Proteger la privacidad: protegemos la privacidad de nuestros usuarios con un potente procesamiento en el dispositivo y una infraestructura innovadora como Private Cloud Compute. No utilizamos los datos personales privados de nuestros usuarios ni las interacciones de los usuarios cuando entrenamos nuestros modelos básicos”.
El enfoque personalizado de Apple para los modelos fundamentales permite que el sistema se adapte específicamente a la experiencia del usuario. La compañía ha aplicado este enfoque de UX primero desde la llegada del primer Mac. Proporcionar una experiencia lo más fluida posible al servicio del usuario, no debe hacerse a expensas de la privacidad.
Este será un acto de equilibrio difícil que la compañía tendrá que afrontar a medida que la diferentes versiones beta del sistema operativo alcance la disponibilidad general este año. El enfoque ideal es ofrecer tanta (o tan poca) información como requiera el usuario final. Ciertamente habrá mucha gente a la que no le importará, digamos, si una consulta se ejecuta o no en una máquina o en la nube. Se contentan con que el sistema utilice de forma predeterminada lo que sea más preciso y eficiente.
Para los defensores de la privacidad y otras personas interesadas en esos detalles, Apple debería esforzarse por lograr la mayor transparencia posible para los usuarios, sin mencionar la transparencia para los editores que tal vez prefieran que su contenido no se obtenga para entrenar estos modelos. Hay ciertos aspectos en los que el problema de la caja negra es actualmente inevitable, pero en los casos en los que se pueda ofrecer transparencia, debería estar disponible a petición de los usuarios.