Anúncios da NVIDIA no GTC 2012: Plataforma e placa VGX para virtualização e nuvem, plataforma de jogos GeForce GRID para nuvem e tecnologia HybridQ e Dynamic Parallelism para Tesla
Virtualização e Nuvem

A Nvidia anunciou durante o evento GTC 2012 a plataforma Nvidia VGX, que permite aos departamentos de TI distribuírem um desktop virtualizado com os gráficos e a performance de computação de GPU de um PC ou estação de trabalho a funcionários usando qualquer dispositivo conectado. E o evento serviu também para a apresentação da plataforma para jogos na nuvem Nvidia GeForce GRID.
A Nvidia VGX se baseia em três principais avanços da tecnologia:
- Placas Nvidia VGX. Desenvolvidas para hospedar um grande número de usuários com uso eficiente da energia. A primeira placa Nvidia VGX é configurada com quatro GPUs e 16 GB de memória e é compatível com a interface PCI Express padrão do setor em servidores.
- Nvidia VGX GPU Hypervisor. Essa camada de software se integra a hipervisores comerciais, como Citrix XenServer, possibilitando a virtualização da GPU.
- Máquinas Selecionáveis pelo Usuário (USMs) da Nvidia. Essa opção de capacidade de gerenciamento permite que as empresas configurem recursos gráficos fornecidos a usuários individuais na rede, com base em suas demandas. Os recursos variam de experiências de PC verdadeiras, disponíveis com a USM padrão da Nvidia, a experiências de engenharia e design 3D profissional aperfeiçoadas com GPUs Nvidia Quadro ou Nvidia NVS.
A plataforma Nvidia VGX permite que até 100 usuários sejam atendidos a partir de um único servidor com uma placa VGX, prometendo uma melhora drástica na densidade de usuários em um único servidor, em comparação com soluções tradicionais de infraestrutura de desktop virtual (VDI). A nova tecnologia promete também reduzir nitidamente problemas como latência, interação lenta e suporte limitado a aplicações, todos eles associados a soluções de VDI convencionais.
Quanto a nova plataforma para jogos na nuvem, Nvidia GeForce GRID, é uma tecnologia que chega para permitir que os provedores de games como serviço (Games as a Service) forneçam por streaming jogos de última geração em praticamente qualquer dispositivo, sem o atraso que dificulta as ofertas atuais.
A nova plataforma GeForce GRID visa tornar possível aos provedores de jogos como serviço, fornecer os efeitos visuais mais avançados com menos latência, ao mesmo tempo em que geram menos custos operacionais, particularmente relacionados ao uso de energia. Os jogadores poderão se divertir com os games mais recentes e mais sofisticados em qualquer dispositivo conectado, incluindo TVs, smartphones e tablets com iOS ou Android.
“Agora os gamers poderão jogar sem dificuldades os melhores títulos do mundo em qualquer lugar, a qualquer hora, a partir de smartphones, tablets, TVs ou PCs”, afirma Phil Eisler, Gerente Geral de Jogos na Nuvem da Nvidia. “A GeForce GRID representa um enorme avanço no modo como os jogos são distribuídos e jogados”.
A Nvidia e a Gaikai demonstraram um console para jogo virtual, consistindo em uma TV LG Cinema 3D Smart executando um aplicativo da Gaikai, conectada a uma GPU GeForce GRID em um servidor que estava a mais que 15 quilômetros de distância. Foi possível jogar de modo instantâneo, sem atrasos, um jogo para PC altamente complexo, com somente um cabo Ethernet e um gamepad USB sem fio conectado à TV.
Tesla e HPC

Outro anúncio foi a nova família de GPUs Tesla, baseados na arquitetura Kepler de 28 nm. Representada pelos modelos K10 e K20, esta nova geração da Tesla foi projetada para suprir problemas complexos comuns à computação de alta performance, com foco em alta velocidade de processamento e eficiência energética. O que garante a evolução nesses quesitos é justamente a tecnologia Kepler, que é três vezes mais eficiente que a Fermi, arquitetura lançada dois anos atrás.
Enquanto isso, a Tesla K20 é a nova top de linha da família, concebida para atender os sistemas mais exigentes. Espera-se que seja a GPU com a melhor performance do mundo e também a mais eficiente no consumo de energia. A previsão de chegada no mercado é para o último trimestre do ano. A GK110, GPU na qual a Tesla K20 é baseada, deve ser incorporada ao Titan, novo supercomputador que está instalado no Oak Ridge National Laboratory, no Tennessee, e no sistema Blue Waters de Urbana-Champaign.
Hyper-Q
Esta tecnologia permite criar filas entre processos paralelos MPI e clusters CPU-GPU permitindo que múltiplas tarefas MPI sejam disparadas em paralelo pela CPU para a GPU. A GPU Fermi executava apenas uma tarefa MPI por vez. A GPU Kepler pode executar 32 tarefas MPI distintas em paralelo em segmentos diferentes da GPU para que sejam executadas por grupos isolados de núcleos CUDA.

Enquanto tarefas como processamento sísmico conseguem utilizar todos os núcleos CUDA utilizando apenas uma tarefa MPI na GPU, existem outros tipos de processamento, como manipulação de matrizes esparsas ou análise de elementos finitos, nos quais diversos núcleos CUDA ficam ociosos esperando pelo MPI para enviar trabalho a partir da CPU. Nestes processamentos a GPU Fermi apresenta performance ruim, mas com a utilização do Hyper-Q pode-se executar em paralelo na GPU quatro ou oito tarefas MPI para aumentar a eficiencia do processamento utilizando mais núcleos CUDA.
No teste de benchmark do Linpack de multiplicação de matrizes com precisão dupla VGEMM o Hyper-Q conseguiu melhorar o melhor caso de 65 por cento de utilização do pico teórico para 80 a 85%. Em tarefas típicas, a utilização de GPU com as placas Fermi estão entre 25 a 50 por cento, com o Hyper-Q dependendo do código a eficiência pode melhorar para 70 a 90 por cento.
Paralelismo Dinâmico
Além das vantagens com o Hyper-Q, com o Paralelismo Dinâmico o chip Kepler também consegue disparar tarefas para si mesmo em nested loops, recursões e chamadas de bibliotecas aninhadas, evitando que o processamento das rotinas tenham de ir e voltar da CPU para GPU o tempo todo.

Em uma simulação, quando a granularidade da região do cálculo é muito esparsa os resultados não são confiáveis, se a granularidade for muito fina os resultados são mais confiáveis porém demora-se muito pois estará perdendo tempo realizando muitos cálculos em regiões que não possuem dados interessantes ou relevantes. Com o Paralelismo Dinâmico, a GPU Kepler além de aumentar a autonomia da GPU, com o processamento dependendo menos da CPU, também permite que a granularidade dos cálculos sejam ajustados dinâmicamente refletindo a densidade de dados que é gerada para a simulação. A idéia é deixar a granularidade dinâmica, ficando mais fina onde há muitos dados e menos onde há poucos dados. A GPU consegue tomar decisões sobre granularidade durante a execução lançando mais threads para realizar cálculos de granularidade mais fina onde for necessário.

Os recursos de Hyper-Q e Paralelismo Dinâmico estarão disponíveis no Tesla K20 que utilizarão o chip Kepler2/GK110, que só estará disponível no último trimestre deste ano e terão o triplo de performance em precisão dupla que as atuais GPUs Fermi, o que significa quase 2 TFlops com duas GPUs GK110. Enquanto isso a Nvidia disponibilizará o Tesla K10 para servidores, com duas GPUs Kepler1/GX104, que oferecem o triplo de performance em precisão simples que a Tesla M2090.
O Tesla K10 e K20 utilizam PCI-Express 3.0, o que signifira que funcionarão apenas nos servidores Intel Xeon E5 com processadores Sandy Bridge para dois ou quatro soquetes, que são os chips que suportam PCI-Express 3.0 no momento.

A placa Tesla K10 não apresenta boa performance em precisão dupla, sendo até pior que as placas com Fermi M2090, mas com 4.58 TFlops de precisão simples e 320GB/s de banda de memória é indicada para tarefas de sísmica, sinal, imagem, molecular e outros que necessitem apenas de precisão simples. Para os que desejam utilizar para análise de elementos finitos, CFD, outras simulações físicas, cálculos financeiros ou outra simulação que necessite de precisão dupla, terão de aguardar o Tesla K20.
Fontes:
http://news.techworld.com/storage/3357939/nvidia-link-telsa-graphics-processors-with-cloud/
http://insidehpc.com/2012/05/15/nvidias-kepler-pushes-parallelism-up-to-eleven/
- Nvidia to link Telsa graphics processors with the cloud
- Telsa Gun
- Nvidia Shows Why Gaming Consoles Won’t Be Around Forever
- Nvidia announces Tesla K10 and K20 GPUs
- Nvidia Moves to Lift Graphics Into the Cloud
- Nvidia Tries to Link Cloud With Graphics Processors – PCWorld
- NVIDIA virtualizes the GPU for streamed desktops and cloud gaming

Perdas no mercado asiático de tecnologia

Relatórios fiscais de empresas asiáticas:
· Panasonic $10B Loss Year 2011
· Sony $5.6B Loss Year 2011
http://www.bgr.com/2012/05/10/sony-annual-loss-sets-record/
· Sharp $4.7B Loss Year 2011
http://venturebeat.com/2012/04/27/sharp-reports-largest-loss/
· NEC $1.3B Loss Year 2011
http://www.engadget.com/2012/01/29/nec-will-cut-10-000-jobs-after-forecasting-1-3-billion-annual-l/
· Nintendo $460M Loss Year 2011 http://www.engadget.com/2012/04/26/nintendo-annual-financials-2011/
· LG $391M Loss Year 2011
http://www.bgr.com/2012/02/01/lg-reports-second-straight-loss-in-q4/
· Acer $212M Loss Year 2011
http://www.engadget.com/2012/02/15/acer-q4-2011/
· Motorola $86M Loss Quarter (Jan-Mar 2012)
· Sega $86M Loss Year 2011
http://www.engadget.com/2012/03/30/sega-losses/
· Samsung $14.5B Profit Year http://english.donga.com/srv/service.php3?biid=2012020623408
Empresas ocidentais:
· Apple $26B Profit Year
http://www.billingworld.com/news/2011/10/apple-s-annual-profit-nears-26-billion.aspx
· Nokia $1.7B Loss Year 2011
Nvidia lança primeiras GPUs ‘Kepler’ – primeiro Desktops, GPUs para servidores no terceiro trimestre

A NVidia lançou sua nova placa de vídeo topo de linha, a GeForce GTX 680, cuja GPU é baseada na nova micro-arquitetura Kepler (com produção em processo de 28 nanômetros) e com a promessa de ser a mais rápida do mundo consumindo menos energia que o modelo anterior.
Os novos recursos incluem o SMX, novo bloco processador de fluxo (streaming processor), que traz o dobro da performance por watt em comparação à geração anterior (=menos consumo de energia, o que é ótimo); novos componentes usados na construção da placa para que ela trabalhe de modo silencioso; o GPU Boost, capaz de ajustar as velocidades da GPU sozinha e melhorar o desempenho dos games, novas tecnologias de anti-aliasing (FXAA, TXAA e Vsync Adaptável) para melhorar o visual dos games (como pêlos e fraturas/quebras de objetos) e suporte a até quatro monitores independentes (sendo três em 3D) com uma só placa. Além disso, Kepler é a primeira GPU da casa a ter suporte para PCI-E de terceira geração e DirectX 11.1.

- Arquitetura nova de 28nm, a Fermi atual é de 40nm.
- Performance per watt de 3 a 4 vezes maior que a arquitetura Fermi
- 1,536 núcleos CUDA o Fermi atual possui 512, inicialmente lançado com 448.
- Núcleos organizados em 8 unidades SMX (Streaming Multiprocessor eXtreme) com 192 núcleos cada
- 1058Mhz com tecnologia turbo boost para acelerar o processamento quando necessário
- PCI-Express 3.0
- 6Gb/s (256-bit path)
Fontes:
http://ztop.com.br/2012/03/22/numeros-enormes-nvidia-geforce-gtx-680-kepler-chegou/
- MSI GeForce GTX 680 offers easy Kepler overclocking
- Nvidia’s GTX 680 emphasizes efficiency, pours on the speed
- Nvidia shows off first ‘Kepler’ GPUs
- NVIDIA GeForce GTX 680 officially debuts 28nm Kepler GPU
- Nvidia Releases “Kepler” 2GB 680GTX [+Reviews]
- Kepler comes of age: NVIDIA unveils GeForce GTX 680 desktop GPU, GTX 600M series for laptops
- NVIDIA GeForce GTX 680 review roundup
- Nvidia shows off first ‘Kepler’ GPUs – Register

Update do Oracle Linux o transforma um pouco mais em solaris
O update 2 do kernel Unbreakable Linux do Oracle Linux é a baseada na versão 3.0 do kernel Linux, com isso traz as melhorias incorporadas no novo kernel como suporte completo ao filesystem Btrfs, que pode gerenciar 16 exabytes em um namespace, extents, copy on write e otimização para discos SSD, já existe patch para deduplicação. Outras melhorias são o suporte nativo ao Xen e otimização do gerenciamento de memória.
Além dos recursos da versão do kernel 3.0 do linux, a versão da oracle também apresenta duas tecnologias novas como technical previews, o Dtrace e o Linux Containers, e embora ainda não estejam maduras no linux para utilizar em produção já podem ser utilizadas para testes.
O DTrace é uma ferramenta para diagnosticar dinâmicamente processos de programas durante a sua execução, ajudando a localizar e resolver problemas de performance e outros. Esta ferramenta já estava disponível para Solaris.
Outra tecnologia, também advinda do Solaris é a tecnologia chamada de Linux Containers. Como o Solaris Containers, permite diversas instância isoladas do Linux rodarem na máquina, em um modo de virtualização com pouco overhead, e utilizando o mesmo kernel. O administrador pode definir a quantidade de recursos que cada instância, ou container, pode utilizar.
Este novo kernel baseado no Linux 3.0.16 pode ser instalado na versão 5 ou 6 do Oracle Linux. E possui todas as funcionalidades que o RHEL para o usuário e a Oracle a mantém 100% compatível com o kernel da Red Hat.
Fonte:
Artigos relacionados, cortesia de Zemanta:

Empresa startup faz oferta U$1 pelo Webex para a Cisco
A Cisco recebeu uma oferta da Salescrunch, pequena empresa de webconferências, para a compra da Webex, plataforma colaborativa de reuniões online adquirida em 2007 pela fabricante de equipamentos de rede, por US$ 3,2 bilhões. O valor oferecido é irrisório, apenas US$ 1, somado a 15% de participação na nova empresa formada a partir da aquisição que desenvolverá o produto SalesCrunch Platform, que será concorrente do Webex oferecendo uma ferramenta de conferência mais atualizada, intuitiva e interação com redes sociais.
Desde sua incorporação, a Cisco vendeu diversas unidades de negócios da Webex na tentativa de focar no seu negócio principal – roteadores, switches, redes e data centers. Desde então, eliminou serviços correlatos como a unidade telepresença e o setor de câmeras flip. De acordo com analistas, a empresa não conseguiu criar ferramentas para aprimorar o serviço do ramo de comunicação em tempo real. Hoje, o ramo evoluiu principalmente em navegadores e internet, afastando os prováveis clientes da área. A partir de então, rumores da venda da Webex ganharam forças.
O CEO da Salescrunch, Sean Black, defende a compra da Webex pela base de usuários, não pela tecnologia. Segundo ele, 20% deles, o equivalente a 1 milhão de companhias, devem trocar a empresa pela rival Go To Meeting, da Citrix. A plataforma da Cisco não permite integração com nenhum site ou rede social, sistemas de webanalytics ou outras soluções avançadas.
Fontes:
http://www.networkworld.com/news/2012/031312-webex-salescrunch-257221.html?source=nww_rss
Artigos relacionados, cortesia de Zemanta:
Xeon E5-1600/2600
Nova linha Xeon Sandy Bridge-EP de até 8 núcleos
Recursos como AVX e Turbo Boost, além de incrementos na contagem de núcleos de processamento, velocidade do barramento de memória etc. — e tudo isso sem consumir muito mais energia. O ganho de desempenho geral do novo Xeon chega a ser de 80% em comparação com seu antecessor. A nova linha de processadores é composta das séries E3, E5 e E7.
Segurança
Intel Advanced Encryption Standard New Instruction (Intel AES-NI14) acelera o processo de encriptação/decriptação de dados entre diversas aplicações e transações
Intel Trusted Execution Technology (Intel TXT15) reduz a exposição da infraestrutura de servidores a ataques maliciosos

I/O
O Intel Integrated I/O (Intel IIO) e o Intel Data Direct I/O (Intel DDIO) permitem que a controladora Ethernet da Intel (como a nova Intel X540 de 10 Gb) direcione o seu tráfego de dados diretamente para o cache do processador eliminando assim a necessidade de que as informações tenham que passar necessariamente pela memória RAM (e dai para o cache), reduzindo assim a latência do sistema de E/S do sistema em até 30%.

Integração de seu controlador de E/S (incluindo o barramento PCI Express 3.0) diretamente no microprocessador, multiplicando em até três vezes seu tráfego de dados tanto de entrada quanto de saída.

FLOPS
Intel Advanced Vector eXtension (Intel AVX) é um novo set de instruções x86 que acelera o cálculo de operações de ponto flutuante em mais de duas vezes, aumentando registradores SIMD XMM de 128 bits para YMM de 256 bits.

Fonte: http://ztop.com.br/2012/03/08/com-xeon-e5-16002600-intel-corre-atras-da-nuvem/
Artigos relacionados, cortesia de Zemanta:
- Intel Xeon E5 Processors Hit the Streets
- Intel launches Xeon processor E5-2600 product family
- Intel Xeon E5 features ultra-fast IO and (much) increased power-efficiency
- Intel Rolls Out Sandy Bridge EP Processors
- Intel launches Xeon E5-2600 server chips for cloud computing

Supercomputador Gordon só usa Flash
O primeiro supercomputador que usa memória flash ao invés de discos rígidos tradicionais promete ser imbatível na velocidade de acesso aos dados
A personagem Flash Gordon deu o nome ao novo supercomputador do Scripps Research Institute , um instituto dedicado à investigação biomédica. Gordon porque este é o primeiro supercomputador a dispensar por completo os discos rígidos tradicionais a favor da memória flash.
O sistema de armazenamento é constituído por 1024 unidades Solid State Drive (SSD) da Intel, que totalizam 300 terabytes de capacidade.
De acordo com a Wired , o Gordon apresenta uma nova arquitetura de gestão do armazenamento, desenvolvida para aproveitar a velocidade extra das unidades SSD, que permite um desempenho 10 vezes superior ao desempenho dos sistemas de armazenamento tradicional.
Acha que os discos rígidos tradicionais vão acabar por desaparecer?
Ler mais: http://aeiou.exameinformatica.pt/supercomputador-gordon-so-usa-flash=f1011371#ixzz1gR7H5NJX
- 1,024 dual-socket compute nodes, each with 2 8-core Intel Xeon E5 Family processors, and 64 GB (gigabyte) DDR3 1333 memory
- Over 300 trillion bytes of high-performance Intel SSD 710 Series, flash memory solid state drives via 64 dual-socket Intel Xeon processor 5600 Series I/O nodes
- Large memory supernodes capable of presenting more than 2 TB of cache coherent memory using ScaleMP’s vSMP Foundation software
- 3D torus interconnect: Coupled with the dual rail QDR network to provide a cost-effective, power efficient, and fault-tolerant interconnect
- High-performance parallel file system with over 4 PB (petabytes) of capacity, and sustained rates of 100 GB/s (gigabytes per second). Peak over 200GB/s.
- “IOPSoMeter” at SC11 clocked the Gordon supercomputer at an unprecedented 35 Million IOPs.
Gordon User Guide: Technical Summary
Gordon is a dedicated XSEDE cluster designed by Appro and SDSC consisting of 1024 compute nodes and 64 I/O nodes. Each compute node contains two 8-core 2.6 GHz Intel EM64T Xeon E5 (Sandy Bridge) processors and 64 GB of DDR3-1333 memory. The I/O nodes each contain two 6-core 2.67 GHz Intel X5650 (Westmere) processors, 48 GB of DDR3-1333 memory, and sixteen 300 GB Intel 710 solid state drives. The network topology is a 4×4x4 3D torus with adjacent switches connected by three 4x QDR InfiniBand links (120 Gbit/s). Compute nodes (16 per switch) and I/O nodes (1 per switch) are connected to the switches by 4x QDR (40 Gbit/s). The theoretical peak performance of Gordon is 341 TFlop/s.
Technical Summary
| System Component | Configuration |
| Intel EM64T Xeon E5 Compute Nodes | |
| Sockets | 2 |
| Cores | 16 |
| Clock speed | 2.6 GHz |
| Flop speed | 333 Gflop/s |
| Memory capacity | 64 GB |
| Memory bandwidth | 85 GB/s |
| STREAM Triad bandwidth | GB/s |
| I/O Nodes | |
| Sockets | 2 |
| Cores | 12 |
| Clock speed | 2.67 GHz |
| Memory capacity | 48 GB |
| Memory bandwidth | 64 GB/s |
| Flash memory | 4.8 TB |
| Full System | |
| Total compute nodes | 1024 |
| Total compute cores | 16384 |
| Peak performance | 341 Tflop/s |
| Total memory | 64 TB |
| Total memory bandwidth | 87 TB/s |
| Total flash memory | 300 TB |
| QDR InfiniBand Interconnect | |
| Topology | 3D Torus |
| Link bandwidth | 8 GB/s (bidirectional) |
| Peak bisection bandwidth | TB/s (bidirectional) |
| MPI latency | 1.3 µs |
| DISK I/O Subsystem | |
| File Systems | NFS, Lustre |
| Storage capacity (usable) | 150 TB: Dec 2010 2 PB: June 2011 4 PB: July 2012 |
Processador 16-core Opteron da AMD
Principais características:
- De 4 a 16 cores
- Eficiência de 4.38W por core
- Até 12 DIMM por CPU (384GB)
O novo chip Opteron 6200, codenome Interlagos, promete ser de 25% a 30% mais rápido que o Opteron 6100 de 12 cores.
Os 16 cores na verdade são 8 módulos bulldozers que são cores duplos que possuem unidades FPU e fetch/decode/execute compartilhadas.
A linha E5-2600 da Intel suporta atualmente até 8 cores.
http://www.pcworld.com/article/243774/amds_16core_opteron_chips_arrive_after_wait.html#tk.rss_news
Intel Sandy Bridge-E e X79
Chipset X79 adiciona quad-channel DDR3 2666 MHz, 16x PCIe 3.0 (32GB/s) suporta agora dual 16x/16x e é possível até conexão de triple-SLI/Crossfire (16x/16x/8x) com 40 lanes PCIe, o X58 suportava até PCIe 2.0 e triple channel, o P55 suportava apenas 16 lanes (8x/8x em sli/crossfire) e dual channel.
O processador SNB-E i7-3960X roda a 3.6 GHz indo até 3.9 GHz (TurboBoost) com TDP 130W. Podendo chegar a 4.5Ghz e 4.7Ghz com Turboboost utilizando o water cooler da própria intel
Fonte:
http://www.anandtech.com/show/5089/sandy-bridgee-and-x79-the-asus-p9×79-pro-review
Fujitsu anuncia Supercomputador PRIMEHPC FX10
Tokyo, 7 de Novembro de 2011 — A Fujitsu anunciou hoje a disponibilidade global do Supercomputador PRIMEHPC FX10, que possui um pico teórico de capacidade de processamento de 23.2 petaflops.
Combinando o alto desempenho e eficiência de energia superior da tecnologia já utilizada no computador K da Fujitsu (atualmente o computador melhor rankeado no TOP500 com 10.5 PFLOPS, mas que foi lançado com 8PFLOPS em Junho de 2011). Todos os componentes do computador, desde o processador até o middleware, foram desenvolvidos pela Fujitsu.
O novo sistema pretende manter a arquitetura da Fujitsu para ser compatível com o atual sistema K, com processador SparcIXfx e inteconexão TOFU, e também na disputa pelo topo do rank TOP500, que em 2012 contará com os sistemas TITAN da Cray (upgrade do Jaguar) e o Sequóia (da IBM, baseado em BlueGene/Q) em sua lista, ambos também projetados para 20PFLOPS.
Notícia original: http://www.fujitsu.com/global/news/pr/archives/month/2011/20111107-01.html
Product Features
1. Delivers a world-class, high-speed, ultra-large-scale computing environment of up to 23.2 petaflops
In its largest potential configuration consisting of 98,304 nodes, 1,024 racks, the supercomputer delivers a high-speed, ultrascale computing environment with a theoretical computing performance of 23.2 petaflops and 6 petabytes of memory.
2. SPARC64™ IXfx processors deliver high performance with low power consumption
PRIMEHPC FX10 runs on the newly-developed SPARC64™ IXfx processors, which offer a very significant boost in performance over the SPARC64™ VIIIfx processor on which they are based and which power the K computer. Each processor has 16 cores and achieves world-class standalone performance levels of 236.5 gigaflops and performance per watt of over 2 gigaflops.
3. Delivers high execution performance with massively parallel applications
PRIMEHPC FX10 features a variety of enhancements for high-performance computing, such as high memory bandwidth, scalable “Tofu” interconnects with 10 links, each delivering high performance levels of 5 GB/s × 2 (both directions), and Fujitsu’s original HPC middleware, Technical Computing Suite, which has a compiler and library, resulting in high execution performance for massively parallel applications.
Fujitsu’s original technology VISIMPACT makes it easy to automatically implement a hybrid parallel programming model that combines threads(3) with Message Passing Interface(4) enhancing scalability.
4. Proprietary reliable technology and high operability for a large-scale system
Product Specifications
1. Hardware
| Hardware | |||
| Node | Theoretical computational performance | 236.5GFLOPS | |
| Processor | SPARC64™ IXfx (1.848GHz, 16 cores) × 1 | ||
| Memory capacity | 32GB, 64GB | ||
| Memory bandwidth | 85GB/s | ||
| Inter-node transfer rate | 5GB/s × 2 (bidirectional) / link | ||
| System | No. Racks | 4 ~ 1,024 | |
| Nodes | 384 ~ 98,304 | ||
| Theoretical computational performance | 90.8 ~ 23,248TFLOPS | ||
| Total memory | 12 ~ 6,291TB | ||
| InterConnect | “Tofu” Interconnect | ||
| Cooling Method | Direct water cooling + air cooling (Optional: Exhaust cooling unit) | ||







