A GPU não é o gargalo, a questão é que a maioria dos jogos não serão mais rápidos do que eram nos Penryn. O Nehalem deve melhorar a performance em HPC, bancos de dados e virtualização, mas não vai muita coisa na performance dos jogos.
Por que? A maioria dos jogos necessitam de caches rápidos e uma super performance para números inteiros. A maioria da ação ligada às operações de pontos flutuantes está ocorrendo na GPU. As CPUs Core 2 deram um grande passo na operação com números inteiros se comparadas com as outras CPUs da época (P4 e K8).
O Nehalem deu apenas um pequeno passo em direção à performance com números inteiros e os ganhos graças à essa performance são negados pelo novo sistema de cache. Ele tem um cache L1 de 32KB com latência de 4 ciclos e um cache L2 de 256KB com latência de 12 ciclos e também conta com um cache L3 de 8MB, extremamente lento, com 40 ciclos. O cache L2 do Penryn é 24 vezes mais rápido do que o do Nehalem.
Fonte: BABOO Hardware