Cómo funciona DLSS 3 de Nvidia (y por qué AMD FSR no puede ponerse al día por ahora)
Las tarjetas gráficas de la serie RTX 40 de Nvidia llegarán en unas pocas semanas, pero entre todas las mejoras de hardware se encuentra lo que podría ser el huevo de oro de Nvidia: DLSS 3 . Es mucho más que una simple actualización de la popular función DLSS (Deep Learning Super Sampling) de Nvidia, y podría terminar definiendo la próxima generación de Nvidia mucho más que las propias tarjetas gráficas.
AMD ha estado trabajando arduamente para que su FidelityFX Super Resolution (FSR) esté a la par con DLSS y, durante los últimos meses, ha tenido éxito. Parece que DLSS 3 cambiará esa dinámica, y esta vez, es posible que FSR no pueda ponerse al día pronto.
Cómo funciona DLSS 3 (y cómo no)
Se le perdonaría pensar que DLSS 3 es una versión completamente nueva de DLSS , pero no lo es. O al menos, no es del todo nuevo. La columna vertebral de DLSS 3 es la misma tecnología de superresolución que está disponible en los títulos de DLSS en la actualidad, y es de suponer que Nvidia seguirá mejorándola con nuevas versiones. Nvidia dice que ahora verá la porción de súper resolución de DLSS 3 como una opción separada en la configuración de gráficos.
La parte nueva es la generación de cuadros. DLSS 3 generará un cuadro completamente único cada dos cuadros, generando esencialmente siete de cada ocho píxeles que ve. Puede ver una ilustración de eso en el diagrama de flujo a continuación. En el caso de 4K, su GPU solo procesa los píxeles para 1080p y usa esa información no solo para el cuadro actual sino también para el próximo cuadro.
La generación de cuadros, según Nvidia, será un cambio separado de la súper resolución. Esto se debe a que la generación de cuadros solo funciona en las GPU de la serie RTX 40 por ahora, mientras que la súper resolución seguirá funcionando en todas las tarjetas gráficas RTX, incluso en los juegos que se han actualizado a DLSS 3. No hace falta decirlo, pero si la mitad de su los marcos se generan por completo, eso aumentará mucho su rendimiento.
Sin embargo, la generación de marcos no es solo una salsa secreta de IA. En DLSS 2 y herramientas como FSR , los vectores de movimiento son una entrada clave para la ampliación. Describen dónde se mueven los objetos de un fotograma al siguiente, pero los vectores de movimiento solo se aplican a la geometría de una escena. Los elementos que no tienen geometría 3D, como sombras, reflejos y partículas, tradicionalmente se han enmascarado fuera del proceso de escalado para evitar artefactos visuales.
El enmascaramiento no es una opción cuando una IA está generando un marco completamente único, que es donde entra en juego el Acelerador de flujo óptico en las GPU de la serie RTX 40. Es como un vector de movimiento, excepto que la tarjeta gráfica sigue el movimiento de píxeles individuales de un cuadro al siguiente. Este campo de flujo óptico, junto con los vectores de movimiento, la profundidad y el color, contribuyen al cuadro generado por IA.
Suena como todo lo bueno, pero hay un gran problema con los marcos generados por la IA: aumentan la latencia. El cuadro generado por la IA nunca pasa a través de su PC: es un cuadro "falso", por lo que no lo verá en las lecturas de fps tradicionales en juegos o herramientas como FRAPS. Por lo tanto, la latencia no disminuye a pesar de tener tantos marcos adicionales y, debido a la sobrecarga computacional del flujo óptico, la latencia en realidad aumenta. Por eso, DLSS 3 requiere Nvidia Reflex para compensar la mayor latencia.
Normalmente, su CPU almacena una cola de procesamiento para su tarjeta gráfica para asegurarse de que su GPU nunca esté esperando a que se haga el trabajo (eso causaría tartamudeos y caídas de velocidad de fotogramas). Reflex elimina la cola de procesamiento y sincroniza su GPU y CPU para que, tan pronto como su CPU pueda enviar instrucciones, la GPU comience a procesarlas. Cuando se aplica sobre DLSS 3, Nvidia dice que Reflex a veces incluso puede resultar en una reducción de la latencia.
Donde la IA marca la diferencia
El FSR 2.0 de AMD no usa IA y, como escribí hace un tiempo, demuestra que puede obtener la misma calidad que DLSS con algoritmos en lugar de aprendizaje automático. DLSS 3 cambia eso con sus capacidades únicas de generación de cuadros, así como con la introducción del flujo óptico.
El flujo óptico no es una idea nueva: existe desde hace décadas y tiene aplicaciones en todo, desde aplicaciones de edición de video hasta automóviles autónomos. Sin embargo, calcular el flujo óptico con aprendizaje automático es relativamente nuevo debido a un aumento en los conjuntos de datos para entrenar modelos de IA. La razón por la que querría usar IA es simple: produce menos errores visuales con suficiente capacitación y no tiene tanta sobrecarga en tiempo de ejecución.
DLSS se está ejecutando en tiempo de ejecución. Es posible desarrollar un algoritmo, libre de aprendizaje automático, para estimar cómo se mueve cada píxel de un cuadro al siguiente, pero es costoso desde el punto de vista computacional, lo que va en contra del objetivo del supermuestreo en primer lugar. Con un modelo de IA que no requiere mucha potencia y suficientes datos de entrenamiento (y tenga la seguridad de que Nvidia tiene muchos datos de entrenamiento con los que trabajar), puede lograr un flujo óptico de alta calidad y puede ejecutarse en tiempo de ejecución.
Eso conduce a una mejora en la velocidad de fotogramas incluso en juegos que tienen una CPU limitada. El supermuestreo solo se aplica a su resolución, que depende casi exclusivamente de su GPU. Con un nuevo marco que pasa por alto el procesamiento de la CPU, DLSS 3 puede duplicar la velocidad de cuadros en los juegos, incluso si tiene un cuello de botella completo en la CPU . Eso es impresionante y actualmente solo es posible con IA.
Por qué FSR 2.0 no puede ponerse al día (por ahora)
AMD realmente ha hecho lo imposible con FSR 2.0. Se ve fantástico, y el hecho de que sea independiente de la marca es aún mejor. He estado listo para deshacerme de DLSS por FSR 2.0 desde que lo vi por primera vez en Deathloop . Pero por mucho que disfruto FSR 2.0 y creo que es un gran equipo de AMD, no va a alcanzar a DLSS 3 en el corto plazo.
Para empezar, desarrollar un algoritmo que pueda rastrear cada píxel entre cuadros sin artefactos es lo suficientemente difícil, especialmente en un entorno 3D con detalles finos y densos ( Cyberpunk 2077 es un buen ejemplo). Es posible, pero difícil. El problema más importante, sin embargo, es cuán inflado debería ser ese algoritmo. Rastrear cada píxel a través del espacio 3D, hacer el cálculo del flujo óptico, generar un cuadro y limpiar cualquier percance que ocurra en el camino: es mucho pedir.
Lograr que se ejecute mientras se ejecuta un juego y seguir brindando una mejora en la velocidad de fotogramas al nivel de FSR 2.0 o DLSS, eso es aún más pedir. Nvidia, incluso con procesadores dedicados y un modelo entrenado, todavía tiene que usar Reflex para compensar la mayor latencia impuesta por el flujo óptico. Sin ese hardware o software, FSR probablemente intercambiaría demasiada latencia para generar marcos.
No tengo dudas de que AMD y otros desarrolladores llegarán allí eventualmente, o encontrarán otra forma de solucionar el problema, pero eso podría demorar algunos años. Es difícil de decir en este momento.
Lo que es fácil de decir es que DLSS 3 se ve muy emocionante. Por supuesto, tendremos que esperar hasta que esté aquí para validar las afirmaciones de rendimiento de Nvidia y ver cómo se mantiene la calidad de la imagen. Hasta ahora, solo tenemos un breve video de Digital Foundry que muestra imágenes de DLSS 3 (arriba), que recomiendo ver hasta que veamos más pruebas de terceros. Sin embargo, desde nuestro punto de vista actual, DLSS 3 ciertamente parece prometedor.
Este artículo es parte de ReSpec , una columna quincenal continua que incluye discusiones, consejos e informes detallados sobre la tecnología detrás de los juegos de PC.