La confrontación entre el software de código abierto y el software propietario es ampliamente reconocida en el ámbito académico. En las últimas décadas, las tensiones que caracterizan el mundo del software se han extendido al emergente campo de la inteligencia artificial, generando controversias que lo acompañan.
Recientemente, el periódico New York Times publicó un elogioso análisis sobre el director ejecutivo de Meta, Mark Zuckerberg, destacando su renovada popularidad en Silicon Valley gracias a su implementación de inteligencia artificial de código abierto. No obstante, se plantea una discrepancia, ya que los modelos de lenguaje de gran escala de la marca Llama de Meta no cumplen con la verdadera definición de código abierto.
¿O sí la cumplen?
La mayoría de las estimaciones indican que las inteligencias artificiales no lo son. Sin embargo, destaca la posible controversia que surgirá en los próximos años en torno a la idea de «IA de código abierto». La Open Source Initiative (OSI), liderada por el director ejecutivo Stefano Maffulli, está abordando este tema. Maffulli ha estado trabajando en esta cuestión durante más de dos años a través de un esfuerzo global que incluye conferencias, talleres, paneles, seminarios web, informes y otras actividades.
Durante más de veinticinco años, la Organización de Estándares Abiertos (OSI, por sus siglas en inglés) ha desempeñado un papel fundamental como administrador de la Definición de Código Abierto (OSD), la cual establece los criterios para la aplicación del término «código abierto» al software. Las licencias que se ajustan a esta definición son consideradas legítimamente como «código abierto», a pesar de que abarcan un amplio espectro que va desde aquellas muy permisivas hasta otras menos flexibles.
La transferencia de convenciones de denominación y licencias del software a la inteligencia artificial plantea dificultades. Según Joseph Jacks, evangelista, defensor del código abierto y fundador de la empresa VC OSS Capital, afirmar que «No existe la IA de código abierto» es pertinente, ya que indica que «el código abierto fue creado específicamente para el código fuente del software».
En contraste, los «pesos de la red neuronal» (NNW), término empleado en el ámbito de la inteligencia artificial para referirse a los parámetros o coeficientes que la red utiliza para aprender durante el entrenamiento, no pueden ser equiparados de forma relevante con el software.
Según Jacks, los pesos netos neuronales no constituyen el código fuente de software, siendo imposible para los seres humanos leerlos o depurarlos. Asimismo, los derechos fundamentales del código abierto no se aplican de manera coherente a los pesos netos neuronales.
La concepción de «pesos abiertos» llevó a Jacks y a su colega de OSS Capital, Heather Meeker, a desarrollar una definición su propia definición.
Antes de alcanzar una definición precisa de «Inteligencia Artificial de código abierto», se pueden identificar tensiones en el proceso de definición debido a la falta de consenso sobre la existencia misma del objeto a definir. ¿Cómo lograr un acuerdo en torno a una definición si no se comparte la percepción de la existencia de la entidad que se intenta definir?
Maffulli, en caso de ser relevante, está de acuerdo.
En una entrevista, el interlocutor afirmó: «El argumento es válido. Al principio consideramos la posibilidad de denominarlo Inteligencia Artificial de código abierto, sin embargo, el término ya estaba ampliamente difundido».
La situación descrita evidencia algunos de los retos presentes en el ámbito amplio de la Inteligencia Artificial, donde se suscitan debates acerca de si lo que actualmente se denomina «IA» constituye realmente es Inteligencia Artificial o simplemente sistemas avanzados instruidos para identificar patrones dentro de extensas colecciones de datos. A pesar de que la mayoría de los críticos se muestran resignados a la existencia de la terminología «IA», consideran que resulta fútil oponerse a la misma.
La Open Source Initiative (OSI), establecida en 1998, es una organización sin ánimo de lucro que se dedica a diversas actividades relacionadas con el código abierto, centrándose en la promoción, educación y la definición del concepto de código abierto. En la actualidad, la financiación de la organización proviene de patrocinios, contando con miembros destacados como Amazon, Google, Microsoft, Cisco, Intel, Salesforce y Meta.
En este momento, la participación de Meta en OSI es especialmente destacada en relación con el concepto de «Inteligencia Artificial de código abierto». Aunque Meta se destaca por su enfoque en Inteligencia Artificial de código abierto, la empresa impone restricciones significativas en cuanto al uso de sus modelos Llama. Estos modelos pueden ser utilizados de manera gratuita para fines comerciales e investigativos, sin embargo, los desarrolladores de aplicaciones con una base de usuarios mensuales superior a los 700 millones deben solicitar una licencia especial a Meta. La empresa otorgará dicha licencia únicamente a su discreción.
Los hermanos Big Tech de Meta tienen la capacidad de tomar decisiones según su voluntad, en resumen.
El lenguaje utilizado por Meta con respecto a sus LLM es flexible. A pesar de que la empresa nombró a su Modelo Llama 2 como de código abierto, con la introducción de Llama 3 en abril, ha modificado ligeramente su terminología, empleando expresiones como «abiertamente disponible» y «abiertamente accesible». Sin embargo, en ciertos contextos, aún hace referencia al modelo como «código abierto».
Según Maffulli, todos los participantes de la conversación coinciden en que Llama en sí no cumple con los criterios para ser considerado de código abierto. Además, menciona que las personas con las que ha conversado y que trabajan en Meta reconocen que esta afirmación es un tanto exagerada.
Adicionalmente, se podría sostener que existe un conflicto de intereses en esta situación: ¿una empresa que ha manifestado interés en capitalizar la marca de código abierto está también otorgando financiamiento a los administradores de «la definición»?
La Open Source Initiative (OSI) está buscando diversificar su financiamiento, habiendo obtenido recientemente una subvención de la Fundación Sloan. Esta subvención, de aproximadamente 250.000 dólares, respalda su iniciativa global para definir la inteligencia artificial de código abierto. El director ejecutivo, Maffulli, espera que este apoyo financiero pueda cambiar la percepción sobre la dependencia de financiamiento corporativo de la organización.
Maffulli señaló que la subvención Sloan enfatiza la posibilidad de prescindir del financiamiento de Meta en cualquier momento. Además, expresó su confianza en recibir donaciones de otras fuentes, lo que podría haber ocurrido incluso antes de la mencionada subvención. Asimismo, destacó que empresas como Microsoft, GitHub, Amazon y Google son conscientes de que no pueden interferir en la organización debido a su estructura interna.
Definición práctica de IA de código abierto
La versión actual del borrador de la definición de Inteligencia Artificial de código abierto es la 0.0.8, la cual se compone de tres partes fundamentales: en primer lugar, el «preámbulo» que establece el propósito del documento; seguido de la definición misma de Inteligencia Artificial de código abierto; y finalmente, una lista de verificación que detalla los elementos requeridos para un sistema de Inteligencia Artificial compatible con código abierto.
De acuerdo con el documento preliminar, un sistema de inteligencia artificial de código abierto debe permitir la utilización del sistema para cualquier fin sin necesidad de autorización previa; posibilitar que terceros estudien su funcionamiento e inspeccionen sus elementos; así como modificar y compartir el sistema con cualquier propósito.
Uno de los desafíos más significativos se ha vinculado con la gestión de los datos en los sistemas de Inteligencia Artificial. Surge la interrogante sobre si un sistema de IA puede ser considerado como «código abierto» si la empresa no ha compartido el conjunto de datos de entrenamiento para su revisión por parte de terceros. Según Maffulli, resulta crucial conocer el origen de los datos, así como el proceso de etiquetado, deduplicación y filtrado realizado por el desarrollador. Asimismo, es fundamental contar con acceso al código utilizado para compilar el conjunto de datos a partir de diversas fuentes.
Según Maffulli, es preferible adquirir dicho conocimiento en lugar de poseer únicamente el conjunto de datos.
Aunque sería beneficioso contar con acceso al conjunto de datos completo, el Open Source Initiative lo considera como un componente «opcional». Según Maffulli, en numerosas situaciones esto no resulta factible ni conveniente. Esta limitación puede atribuirse a la presencia de información confidencial o sujeta a derechos de autor en el conjunto de datos, los cuales el desarrollador no está autorizado a redistribuir. Por otro lado, se han desarrollado técnicas para entrenar modelos de aprendizaje automático sin necesidad de compartir los datos en sí con el sistema. Estas técnicas incluyen el aprendizaje federado, la privacidad diferencial y el cifrado homomórfico.
Esto pone de manifiesto de manera precisa las diferencias fundamentales entre el «software de código abierto» y la «IA de código abierto»: si bien las intenciones pueden ser similares, no son equiparables, y esta disparidad es el enfoque que la OSI busca reflejar en su definición.
En el ámbito del software, el código fuente y el código binario representan dos perspectivas de un mismo artefacto, siendo manifestaciones diferentes de un mismo programa. Por otro lado, los conjuntos de datos de entrenamiento y los modelos entrenados resultantes son entidades separadas; es posible utilizar el mismo conjunto de datos sin garantizar la reproducción consistente del mismo modelo.
Durante el entrenamiento, se produce una diversidad de lógica estadística y aleatoria que impide su replicabilidad de la misma forma que el software, según señaló Maffulli.
En consecuencia, un sistema de inteligencia artificial de código abierto debe ser fácil de reproducir y contar con instrucciones claras. La faceta de la lista de verificación de la definición de inteligencia artificial de código abierto cobra importancia en este contexto. Esta se basa en un artículo académico reciente titulado «El marco modelo de apertura: promoción de la integridad y la apertura para la reproducibilidad, la transparencia y la usabilidad en la inteligencia artificial».
En este artículo se presenta el Model Openness Framework (MOF), el cual es un sistema de clasificación que evalúa los modelos de aprendizaje automático según su integridad y transparencia. El Ministerio de Hacienda ha establecido como requisito que los elementos particulares del desarrollo de modelos de inteligencia artificial sean divulgados y compartidos bajo licencias abiertas adecuadas, lo que incluye tanto las metodologías de entrenamiento como los detalles sobre los parámetros del modelo.
Versión Estable
La Organización Internacional de Estandarización (ISO) designa como «versión estable» al lanzamiento oficial de la definición, siguiendo un proceso similar al que una empresa emplearía para una aplicación que ha sido sometida a rigurosas pruebas y depuraciones antes de su lanzamiento. La ISO evita denominarlo como «versión final» deliberadamente, ya que es probable que algunas secciones continúen evolucionando.
Maffulli expresó que no se puede anticipar que la definición actual perdure por 26 años como la definición de código abierto. Señaló que es probable que la parte fundamental de la definición, como la conceptualización de un sistema de inteligencia artificial, permanezca estable, pero planteó dudas sobre la estabilidad de los componentes específicos mencionados en la lista de verificación, ya que estos pueden verse afectados por el avance tecnológico.
Se anticipa que la Junta aprobará la definición oficial de Inteligencia Artificial de código abierto en la Conferencia Global de todas las cosas a finales de octubre. Durante los meses intermedios, la Open Source Initiative (OSI) llevó a cabo una gira mundial abarcando cinco continentes con el objetivo de recopilar más aportes diversos sobre la futura definición de la Inteligencia Artificial de código abierto. Es probable que las modificaciones finales sean principalmente ajustes menores en el texto.
Según Maffulli, «Estamos en la etapa final del proceso. Hemos alcanzado una versión integral de la definición, contamos con todos los elementos necesarios. En este momento, estamos utilizando una lista de verificación para asegurarnos de que no haya imprevistos, verificando la inclusión o exclusión de sistemas necesarios».