¿La próxima RTX 40 2 veces más rápida que la RTX 30?

Federico Parejamayo 15, 2022

0 5 2 minutos de lectura

Este es el rumor del día sobre las próximas tarjetas de Nvidia. Estas nuevas filtraciones provienen kopte7kimi y hablar sobre el diagrama de bloques de la arquitectura de la nueva generación de greens. Una imagen del diagrama de bloques del GPU AD102 ‘Ada Lovelace’ nos permitirá proyectarnos sobre el rendimiento de las próximas RTX 40.

RTX40

RTX 40: una hoja de especificaciones impresionante (si es cierto)

Para empezar, la GPU Ada Lovelace AD102 contará con hasta 12 GPC (Grupos de procesamiento de gráficos). Esto es un aumento del 70% de en GA102 (el más grande de la gama actual) que tiene solo 7 GPC. Cada GPU constará de 6 TPC y 2 SM, que es la misma configuración que el chip existente. Cada SM (multiprocesador de transmisión) albergará cuatro subnúcleos, que también es lo mismo que la GPU GA102. El cambio real es la configuración del kernel FP32 e INT32. Cada subnúcleo constará de 128 unidades FP32, pero las unidades FP32 + INT32 combinadas llegarán a 192. Esto se debe a que las unidades FP32 no comparten el mismo subnúcleo que las unidades IN32. Los 128 núcleos FP32 están separados de los 64 núcleos INT32.

Esquema RTX 40 — Una de las imágenes del diagrama de una GPU Kopte7kimi RTX 40

El almacenamiento en caché debe ser otra área en la que NVIDIA ha anulado las GPU Ampere existentes. Las GPU Ada Lovelace contendrán 192 KB de caché L1 por SM, un aumento del 50 % con respecto a Ampere. Esto equivale a un total de 4,5 MB de caché L1 en la GPU AD102 superior. El caché L2 se incrementará a 96 MB, un número que se menciona regularmente en varias filtraciones. Eso es casi 16 veces más en comparación con la GPU Ampere, que solo alberga 6 MB de caché L2. El caché se compartirá en la GPU.

READ Trailer de Neverwinter: el primer episodio de la expansión de Sharandar tiene fecha de lanzamiento

Si las filtraciones son ciertas, tenemos un aumento exponencial en el caché L2, que aumenta a un total de 96 MB por’ AD102 . En cuanto a los ROP, habría el doble de unidades en esta arquitectura, 32 por GPC para ser precisos, lo que nos daría un total de 384 O para una posible RTX 4090 contra 112 para la RTX 3090… Sobre el papel es monstruoso.

Comparación de RTX 40 — Comparación de características de GPU. AD102 sería el tope de gama de las RTX 40

Pero después de esta orgía de datos técnicos, ¿qué ganancias podemos esperar realmente?

Evidentemente, aún es pronto para tener una idea precisa, pero si se confirman estos elementos, la hoja técnica muestra una gran diferencia en relación con Ampere. Para resumir:

X2 GPC (en comparación con Ampere)
50 % más de núcleos (en comparación con Ampere)
50 % más de caché L1 (en comparación con Ampere)
16 veces más caché L2 (en comparación con Ampere)
ROP X2 (en comparación con Ampere)
Tensor de cuarta generación y núcleos RT de tercera generación

Pero, ¿qué podemos esperar en términos de rendimiento real?

Es muy difícil porque nos falta un dato fundamental: la frecuencia de funcionamiento.

Si especulamos un poco sobre este tema, logramos proyectarnos en una potencia en el FP32 de 90 TFLOPS, más del doble del actual GA102. Sin embargo, con TFLOPS también podemos tener sorpresas. Si te dan una idea del rendimiento bruto, nunca te permiten prejuzgar los resultados en el uso “cotidiano”. Los anuncios filtrados de x2 a x2.2 en comparación con el RTX 30… Obviamente habrá una ganancia, parece un gran problema. Pero para decidir más allá de eso, tendremos que esperar un poco más.

READ Sus inicios de sesión y contraseñas pueden ser parte de esta filtración masiva de 3.2 mil millones de cuentas