contador gratis

Anunciada arquitetura AMD VEGA, conheça em detalhes

É hora de receber VEGA, A arquitetura gráfica top de linha da AMD, que herdou o nome comum de α Lyr, uma estrela localizada a cerca de 25 anos-luz de nosso Sol, e considerada pela comunidade científica como a “segunda estrela mais importante no céu depois do Sol“Ao longo dos séculos, os dados da observação desta estrela têm sido usados ​​para fazer grandes descobertas no campo da astrofísica. Também ganhou lugar entre várias culturas e mitologias.

É por isso que AMD decidiu nomear seu processador gráfico de próxima geração comparando-o a este majestoso corpo azul-celeste, como nós contra a arquitetura de alto desempenho mais importante já desenvolvida pela AMD depois da microarquitetura zen, que buscará que a AMD possa ressurgir como uma fênix no mercado de processadores.

AMD VEGA 10 740x371 0

Com VEGA começa Arquitetura Gráfica CoreNext de 5ª geração, uma nova iteração do maquinário gráfico interno da AMD, mas todos com um design completamente novo para a GPU. As GPUs continuarão a empregar unidades de computação GCN, mas irão aumentá-las com vários novos componentes vistos anteriormente. Isto melhorar a eficiência do chip apesar de lidar com gráficos complexos e cargas de trabalho de processamento geral.

A ideia por trás da VEGA é lidar com cargas de trabalho emergentes, e isso se traduz em deixe para trás o impasse em resoluções desatualizadas como 1080p para resoluções populares, como 2K e 4K que exigem um aumento proporcional no desempenho da GPU. Além disso, a carga de trabalho requer otimização em nível de silício, portanto, não requer otimizações por meio de software. Isso significa dar à GPU a capacidade de aprender como um aplicativo 3D se comporta, e permite que você se otimizar para o aplicativo em execução. Para isso, a AMD adicionou um segundo conjunto de memória ultrarrápida que funciona em conjunto com a memória gráfica.

Arquitetura AMD VEGA 740x374 1

A GPU também precisa capacidades expandidas de processamento de geometria para lidar com o realismo crescente nas cenas 3D fotorrealistas de hoje. Para trabalhar com a enorme quantidade de matemática necessária, a GPU precisa um novo projeto de unidade de cálculo com desempenho adicional. Por último, você precisa um mecanismo de pixel atualizado Eu coloco tudo para desenhar a cena em 3D. A AMD afirma ter feito grandes mudanças em todas as quatro áreas com a VEGA.

Agora podemos explicar os diagramas que vazaram esta manhã. Não é um diagrama fundido típico, não é nem mesmo o layout do módulo multi-chip que algumas das primeiras GPUs VEGA serão, mas sim uma arquitetura de memória completamente renovada, que garante que os dados entrem e saiam da GPU sem problemas e que recursos valiosos não sejam desperdiçados procurando dados na máquina host.

As GPUs AMD são tradicionalmente dotadas de muita largura de banda de memória Com larguras de barramento de memória ampla, no entanto, a AMD acredita que há espaço para melhorar a maneira como a GPU faz malabarismos entre o host e sua memória de vídeo local.

AMD acredita que há uma disparidade entre a alocação de memória e o acesso real à memória por aplicativos. Um aplicativo pode carregar recursos que considera relevantes para a cena 3D que está renderizando, mas não pode acessá-los o tempo todo. Essa disparidade se alimenta de memória valiosa, prejudica a largura de banda da memória e desperdiça ciclos de clock ao tentar mover dados.

Normalmente, a equipe de desenvolvimento do driver gráfico colabora com os desenvolvedores de jogos para minimizar esse fenômeno e corrigi-lo por meio de patches de jogo e atualizações de driver. AMD indica que este pode ser corrigido no nível do hardware. AMD chama isso de “movimento adaptativo de dados refinados“(Movimento de dados refinado adaptável). É um pipeline de alocação de memória abrangente que detecta a relevância dos dados e se move proativamente para a memória física relevante ou adia o acesso.

Desempenho de jogos de movimentação de dados de baixa granularidade adaptável AMD VEGA 740x417 6

Conseguir algo assim requer novos componentes de hardware que não são encontrados em nenhuma GPU AMD vista antes. Começar com um cache rápido que está em um nível acima do cache L2 tradicional, mas é grande o suficiente e tem latência extremamente baixa. Esse cache é um dado de silício separado colocado em cima do intermediário, o substrato de silício que conecta o chip da GPU às pilhas de memória. AMD chama isso de controlador de cache de memória de alta largura de banda (Controlador de cache de largura de banda alta – HBCC). Os controladores de memória GPU convencionais não interagem com esse cache, mas um controlador de cache de alta largura de banda (HBCC) dedicado, localizado na matriz da GPU, o controla. Este cache não tem nada a ver com a memória de alta largura de banda HBM2.

O HBCC tem acesso direto à outra memória ao longo do pipeline de memória, incluindo memória de vídeo, memória do sistema, etc. Tem seu próprio espaço de endereço virtual de 512 TB que é isolado do espaço de endereço geral da máquina. A GPU usa o HBMC para amortecer e suavizar o movimento de dados entre a máquina host e a GPU. Esta abordagem garantiria que a GPU gastasse menos recursos na obtenção de dados irrelevantes e melhora muito a utilização da largura de banda da memória.

A razão para um espaço de endereço virtual tão grande é a mesma encontrada em uma CPU. Os diretórios podem ser alocados de forma mais eficiente com a unidade de gerenciamento de memória na GPU, que gerencia a alocação virtual para física e também torna possível mover páginas de memória entre camadas de armazenamento, semelhante ao funcionamento do arquivo de paginação do Windows.

Também temos NVRAM. Isso significa que a GPU tem a capacidade de interagir diretamente com o NAND Flash ou memória 3D X-Point de um SSD por meio de uma conexão PCIe localizada, fornecendo um bloco de rascunho rápido, ajudando você a trabalhar com conjuntos de dados gigantescos. A porta “Rede” permite que os fabricantes de placas de vídeo adicionem PHYs de rede diretamente à placa (eles ajudariam a renderizar os farms). Desta forma, a AMD está preparando um silício comum para vários aplicativos (gráficos de consumo, gráficos profissionais e fazendas de renderização).

Tudo isso terá suporte da memória HBM2, isso vem com oito vezes a densidade máxima por pilha, e dobre a largura de banda a respeito da memória HBM1, que estreou com o Radeon R9 Fury X. Em teoria, até 32 GB de memória em quatro pilhas, removendo a limitação de 4 GB por pilha do HBM1.

A AMD aprimorou o maquinário de processamento de geometria disponível nas gerações anteriores com o VEGA. A próxima geração de tubulação / tubulação de geometria programável tem mais do que o dobro do desempenho de pico por relógio. VEGA agora suporta shaders primitivos (shaders primitivos), além do shader contemporâneo de vértice e geometria. AMD também melhorou a maneira como você distribui cargas de trabalho entre geometria, computação e mecanismos de pixel.

Um sombreador primitivo é um novo tipo de sombreador de baixo nível que dá ao desenvolvedor mais liberdade para especificar todos os estágios de sombreador que deseja usar e executá-los em uma velocidade mais alta, porque agora estão separados do modelo de sombreador DirectX tradicional. A AMD também tem a capacidade de usar seu driver gráfico para predefinir os casos em um jogo, no qual vários shaders DirectX podem ser substituídos por um único shader primitivo para melhor desempenho.

O Unidade de Cálculo (CU) é, em essência, uma máquina de britagem de números fortemente paralelizada da GPU. Com a VEGA, a AMD melhorou a funcionalidade das UCs, que agora chama de NCUs (Unidades de computação de última geração – Compute Engine de última geração), adicionando suporte para operações super simples de 8 bits, além das operações de 16 bits (FP16) introduzido com Polaris e operações convencionais de ponto flutuante de precisão simples e dupla que suportam gerações anteriores. O suporte para operações de 8 bits permite que os desenvolvedores de jogos simplifiquem seu código, portanto, se você deixar sua pegada dentro da memória do espaço de endereço de 8 bits, 512 deles podem ser destruídos por ciclo de clock.

A AMD também introduziu um novo recurso chamado “Rapid Packed Math“no qual agrupa várias operações de 16 bits entre registros de 32 bits para realizar tarefas mais simples por relógio. Graças a essas melhorias, o VEGA NCU é capaz de realizar quatro vezes as operações por ciclo de clock em comparação com a geração anterior, além de fazê-lo com o dobro da velocidade do clock. AMD trouxe à vida uma memória que economiza largura de banda algoritmos de compressão sem perdas. Por último, AMD melhorou o mecanismo de pixel (Pixel Engine) com uma nova geração de rasterizador binning. Isso permite que os ciclos de clock sejam conservados, o que ajuda na localização do cache de memória e no consumo de memória.

Finalizado indicando que AMD mudou a hierarquia da GPU de uma forma que melhora o desempenho de aplicativos que usam sombreamento lento. O pipeline / pipeline de geometria, o mecanismo de cálculo e o mecanismo de pixel, que saem dos ROPs (cache L1), agora estão vinculados ao cache L2. Anteriormente, os mecanismos de pixel e textura tinham acesso inconsistente à memória onde o mecanismo de pixel gravava no controlador de memória.