OpenAI lanza O3-Mini, su último modelo de 'razonamiento'

Locked Content

In order to view this content please choose a subscription plan. Click the button to view the plans.

OpenAI lanzó un nuevo modelo de «razonamiento» de AI, O3-Mini, el más nuevo de la familia O de los modelos de razonamiento de la compañía.

OpenAi se previó por primera vez con una vista previa del modelo en diciembre junto con un sistema más capaz llamado O3, pero el lanzamiento llega en un momento crucial para la compañía, cuyas ambiciones, y desafíos, aparentemente están creciendo día a día.

OpenAI está luchando contra la percepción de que está cediendo terreno en la carrera de IA hacia compañías chinas como DeepSeek, que OpenAI alega que podría haber robado de sus fuentes. Ha estado tratando de apuntalar su relación con Washington ya que simultáneamente persigue un ambicioso proyecto de centro de datos, y como se informa que establece las bases para una de las rondas de financiación más grandes de la historia.

Lo que nos lleva a O3-Mini. OpenAI está lanzando su nuevo modelo como «poderoso» y «asequible».

«Un paso importante hacia la ampliación de la accesibilidad a la IA avanzada en el servicio de nuestra misión ”, dijo un portavoz de OpenAI.

Razonamiento más eficiente

A diferencia de la mayoría de los modelos de lenguaje grandes, los modelos de razonamiento como o3-Mini revisan a fondo antes de dar resultados. Esto les ayuda a evitar algunas de las trampas con las que normalmente tropiezan con los modelos. Estos modelos de razonamiento tardan un poco más en llegar a soluciones, pero la compensación es que tienden a ser más confiables, aunque no perfectas, en dominios como la física.

O3-Mini está ajustado para problemas STEM, específicamente para programación, matemáticas y ciencias. OpenAI afirma que el modelo está en gran medida a la par con la familia O1, O1 y O1-Mini, en términos de capacidades, pero funciona más rápido y cuesta menos.

La compañía afirmó que los probadores externos prefirieron las respuestas de O3-Mini sobre las de O1-Mini más de la mitad del tiempo. O3-Mini aparentemente también cometió un 39% menos de «errores importantes» en «preguntas difíciles del mundo real» en Pruebas A/B versus O1-Mini, y produjo respuestas «más claras» mientras ofrecía respuestas aproximadamente un 24% más rápidas.

O3-Mini estará disponible para todos los usuarios a través de ChatGPT, pero los usuarios que pagan el ChatGPT Plus y los planes de equipo de OpenAI obtendrán un límite de tarifa más alto de 150 consultas por día. Los suscriptores de ChatGPT Pro tendrán acceso ilimitado, y O3-Mini vendrá a los clientes de ChatGPT Enterprise y ChatGPT EDU en breve.

Los usuarios con planes premium pueden seleccionar O3-Mini utilizando el menú desplegable ChatGPT. Los usuarios gratuitos pueden hacer clic o tocar el nuevo botón «Razón» en la barra de chat, o hacer que ChatGPT «vuelva a generar» una respuesta.

O3-Mini también estará disponible a través de la API de Openai para desarrolladores, pero inicialmente no tendrá soporte para analizar imágenes. Los desarrolladores pueden seleccionar el nivel de «esfuerzo de razonamiento» (bajo, medio o alto) para que O3-Mini «piense más duro» en función de su caso de uso y necesidades de latencia.

O3-Mini tiene un precio de $ 0.55 por millón de tokens de entrada en caché y $ 4.40 por millón de tokens de salida, donde un millón de tokens equivale a aproximadamente 750,000 palabras. Eso es 63% más barato que O1-Mini, y competitivo con el precio del modelo de razonamiento R1 de Deepseek. Deepseek cobra $ 0.14 por millón de tokens de entrada almacenados en caché y tokens de salida de $ 2.19 por millón para el acceso R1 a través de su API.

En ChatGPT, O3-Mini está establecido en un esfuerzo de razonamiento medio, que según OpenAI proporciona «una compensación equilibrada entre velocidad y precisión». Los usuarios de pago tendrán la opción de seleccionar «O3-Mini-High» en el selector de modelo, que entregará lo que OpenAI llama «inteligencia más alta» a cambio de respuestas más lentas.

Independientemente de qué versión de los usuarios de O3-Mini ChatGPT elija, el modelo funcionará con la búsqueda para encontrar respuestas actualizadas con enlaces a fuentes web relevantes. OpenAI advierte que la funcionalidad es un «prototipo», ya que funciona para integrar la búsqueda en sus modelos de razonamiento.

«Si bien O1 sigue siendo nuestro modelo de razonamiento general más amplio, O3-Mini proporciona una alternativa especializada para dominios técnicos que requieren precisión y velocidad», escribió OpenAI en una publicación de blog. «El lanzamiento de O3-Mini marca otro paso en la misión de OpenAI de superar los límites de la inteligencia rentable».

Abundan las advertencias

O3-Mini no es el modelo más poderoso de OpenAI hasta la fecha, ni supera el modelo de razonamiento R1 de DeepSeek en cada punto de referencia.

O3-Mini supera a R1 en AIME 2024, una prueba que mide qué tan bien los modelos entienden y responden a instrucciones complejas, pero solo con un gran esfuerzo de razonamiento. También supera a R1 en la prueba de prueba centrada en la programación verificado (por 0,1 punto), pero nuevamente, solo con un gran esfuerzo de razonamiento. En un bajo esfuerzo de razonamiento, O3-Mini está detrás R1 en GPQA Diamond, que prueba modelos con preguntas de física, biología y química a nivel de doctorado.

Para ser justos, O3-Mini responde muchas consultas a un coste y latencia competitivamente de bajo. En la publicación, OpenAI compara su rendimiento con la familia O1:

«Con un bajo esfuerzo de razonamiento, O3-Mini logra un rendimiento comparable con O1-Mini, mientras que con un esfuerzo medio, O3-Mini logra un rendimiento comparable con O1», escribe OpenAI. “O3-Mini con esfuerzo de razonamiento medio coincide con el rendimiento de O1 en matemáticas, codificación y ciencia mientras ofrece respuestas más rápidas. Mientras tanto, con un gran esfuerzo de razonamiento, O3-Mini supera a O1-Mini y O1 «.

Vale la pena señalar que la ventaja de rendimiento de O3-Mini sobre O1 es escasa en algunas áreas. En el AIME 2024, O3-Mini vence a O1 por solo 0.3 puntos porcentuales cuando se establece en un esfuerzo de razonamiento alto. Y en GPQA Diamond, O3-Mini no supera el puntaje de O1 incluso en un gran esfuerzo de razonamiento.

OpenAI afirma que O3-Mini es tan «seguro» o más seguro que la familia O1, sin embargo, gracias a los esfuerzos de equipo rojo y su metodología de «alineación deliberativa», lo que hace que los modelos «piensen» sobre la política de seguridad de OpenAi mientras responden a consultas. Según la compañía, O3-Mini «supera significativamente» uno de los modelos insignia de OpenAI, GPT-4O, en «evaluaciones desafiantes de seguridad y jailbreak».

Busque su consulta

Enlaces útiles

Technologies:

Categorías

Enlaces útiles

OpenAI lanza O3-Mini, su último modelo de ‘razonamiento’

Locked Content

Razonamiento más eficiente

Abundan las advertencias

AMD anuncia el lanzamiento de sus GPU de centro de datos de próxima generación

Los ingresos trimestrales de Apple aumentan, a pesar de que las ventas de China disminuyen un 11%

Italia envía la primera solicitud de vigilancia de datos a Deepseek: «Los datos de millones de italianos están en riesgo»

DeepSeek: impactos

ElevenLabs está lanzando su modelo de voz a texto

Sesame y su asistente virtual Maya, libera su modelo IA

¿La IA nos hace menos reflexivos?

Categorías

Enlaces útiles

¿Listo para suscribirte?

Bienvenid@ a TRPlane.com

Enlaces útiles

Categorías

Enlaces útiles

OpenAI lanza O3-Mini, su último modelo de ‘razonamiento’

Locked Content

Razonamiento más eficiente

Abundan las advertencias

AMD anuncia el lanzamiento de sus GPU de centro de datos de próxima generación

Los ingresos trimestrales de Apple aumentan, a pesar de que las ventas de China disminuyen un 11%

Italia envía la primera solicitud de vigilancia de datos a Deepseek: «Los datos de millones de italianos están en riesgo»

DeepSeek: impactos

ElevenLabs está lanzando su modelo de voz a texto

Sesame y su asistente virtual Maya, libera su modelo IA

¿La IA nos hace menos reflexivos?

.tdi_195{margin-bottom:10px!important} .tdi_195{color:var(--trp-white);font-family:var(--trp-sans-serif)!important;font-size:18px!important;line-height:1.2!important}@media (min-width:768px) and (max-width:1018px){.tdi_195{font-size:16px!important}}Categorías

.tdi_199{margin-bottom:10px!important} .tdi_199{color:var(--trp-white);font-family:var(--trp-sans-serif)!important;font-size:18px!important;line-height:1.2!important}@media (min-width:768px) and (max-width:1018px){.tdi_199{font-size:16px!important}}Enlaces útiles

.tdi_202{margin-bottom:10px!important} .tdi_202{color:var(--trp-white);font-family:var(--trp-sans-serif)!important;font-size:18px!important;line-height:1.2!important}@media (min-width:768px) and (max-width:1018px){.tdi_202{font-size:16px!important}}¿Listo para suscribirte?

Bienvenid@ a TRPlane.com

Categorías

Enlaces útiles

¿Listo para suscribirte?