Processadores RISC

Conceitos básicos
RISC
Pipeline
Restrições
Problemas de processamento em pipeline
SPARC - Scalable Processor ARChitecture
Alpha
Terminologia

Conceitos básicos

Conceitos diferentes:

RISC: Reduced Instruction Set Code (Conjunto Reduzido de Instruções de Código)
Pipeline

Um dos elementos fundamentais para que um processador se caracterize como RISC é ter pelo menos um pipeline.

Pipeline corresponde à divisão do processamento de cada instrução por diferentes componentes do processador. Estes componentes denominam-se estágios ou andares de execução.

RISC

O conceito de processador RISC baseia-se na premissa de que será menos eficiente executar uma instrução complexa do que executar o conjunto de instruções simples equivalente.

Assim, os processadores RISC têm por objectivo simplificar o conjunto de instruções em diversas dimensões por forma a maximizar esta premissa.

Para isso, um processador RISC caracteriza-se por:

Ter um conjunto de instruções com tamanho fixo, normalmente do tamanho da Word do processador e do barramento de dados, para que esta seja lida (fetch) e descodificada num único ciclo de relógio;
Como tal, o número de instruções é mais reduzido que num processador CISC, em que não existe propriamente um tamanho limite para a instrução;
Para reduzir o tamanho e facilitar o fetch e a descodificação, opta-se por reduzir às possibilidades de combinar diferentes tipos de operandos nas instruções. De facto, os operandos limitam-se a registos.

Pipeline

O processamento de uma instrução é composto pelo menos por cinco fases:

Instruction fetch;
Instruction decode;
Operand fetch;
Execution;
Write back.

O resultado é um pipeline de cinco estágios:

Como o estágio de instruction decode (descodificação) não necessita de aceder à memória (recurso partilhado), pode ser realizado em simultâneo com a fase de operand fetch (que usa a memória). O resutlado é um pipeline com 4 estágios.

Esta corresponde a uma abordagem minimalista e original, mas hoje em dia os pipeline não se limitam a 4 ou cinco estágios, mas podem chegar a 20 ou 30 estágios (Intel Pentium 4).

O princípio operacional dum pipeline é que podem estar em processamento várias instruções em simultâneo, pois cada um dos estágios é logicamente independente dos outros.

O resultado é que em execução óptima, o processador executa até uma instrução por ciclo de relógio, mesmo que cada instrução demore mais do que um ciclo de relógio a ser processada.

Portanto, teoricamente é possível executar uma instrução por cada ciclo de relógio.

Restrições

No entanto, para que todo o conceito/processo funcione é necessário que determinadas restrições se verifiquem. Nomeadamente, é prioritário que todas as instruções permaneçam em cada estágio o mesmo tempo, para que:

O sinal de relógio seja usado como cadência de processamento;
Não sejam necessários “buffers”;
Não ocorram paragens (i.e. “wait states”/”interlocking”).

Porque o processamento é diferente de estágio para estágio, para que o processo ocorra num único ciclo de relógio é necessário analisar o problema a resolver e encontrar soluções convenientes.

Instruction fetch

Problema:

Fetch (leitura) num único acesso a memória.

Solução:

As instruções tenham o mesmo tamanho;
Que seja igual à largura do barramento de dados do processador.

Instruction decode

Problema:

Decode num único ciclo de relógio.

Solução:

Instruções simples (o que é facilitado devido ao tamanho fixo da instrução);
Limitação de tipos de operandos nas instruções.

Operand fetch

Problema:

Acesso (load) num único ciclo de relógio.

Solução:

Limitar tipos de operandos das instruções a registos;
Load de valores nos registos devem obedecer às restrições de qualquer outra instrução.

Execution

Problema:

Execução da instrução num único ciclo de relógio.

Solução:

Fazê-lo!

Write-back

Problema:

Escrever no destino num único ciclo de relógio.

Solução:

Limitar tipos de operandos das instruções a registos;
Instruções de escrita devem obedecer às mesmas restrições de qualquer outra instrução.

Portanto, é fundamental que sejam observadas as seguintes restrições:

As instruções têm todas os mesmo tamanho, igual a uma posição de memória;
As instruções trabalham apenas com os registos;
As únicas operações efectuadas na memória são a escrita e a leitura;
As instruções são simples.

Problemas de processamento em pipeline

No entanto, este conceito de processamento tem alguns problemas, motivados pelo facto de estarem em processamento várias instruções em simultâneo.

São identificados dois tipos de problemas:

Problemas de falta de operandos;
Problemas de fluxo de execução.

Falta de operandos

A falta de operandos ocorre quando o resultado de uma instrução é usado na instrução da seguinte. Como o resultado da primeira instrução só se torna efectivo (write back) quando a seguinte já está a executar (execution), então os valores dos operandos da segunda instrução não estão correctos.

Considere-se o código seguinte:

	mov ax, var1
	mov bx, var2
	add ax, bx
	instr4

que corresponde à seguinte representação de execução:

No estágio de execução da instrução add ax, bx, o valor de bx não é o correcto, pois a instrução anterior (mov bx, var2) ainda não escreveu o valor no registo bx.

Existem duas soluções possíveis:

Por hardware:
- Forwarding
- Interlocking
Por software:
- Reordenação
- Introdução de NOP

A solução de “forwarding” corresponde a fazer o valor passar directamente para o andar de execução sem passar pelos registos.

A solução de “interlocking” corresponde a fazer parar a instrução seguinte até que o valor correcto dos operandos esteja disponível. Assim, o exemplo anterior teria a seguinte execução:

A solução por software implica um de dois estratagemas:

Reordenação de instruções, de forma a que a instrução que necessita do valor ainda não disponível seja atrasada, mas que a seguinte a ultrapasse para não haver diminuição de performance. No entanto isto nem sempre é possível;

Introdução de instrução NOP (no operation). Quando não é possível reorganizar as operações, é introduzida a instrução NOP.

Fluxo de execução

Quando uma instrução de salto (branch) está a ser executada, já seguinte também esta a ser executada. Mas a instrução a executar a seguir é dependente do resultado da instrução de branch, pelo que não é possível antes disso determinar qual a instrução seguinte.

Considere o exemplo seguinte:

	inicio:
		mov cx, var1
		mov dx, var2
		mov ax, var3
		mov bx, var4
		
		% calcula o menor de dois valores e coloca em ax
		cmp ax, bx
		jle fimteste
	bxmenor:
		mov ax, bx
	fimteste:
		add cx, ax
		sub dx, ax

A execução corresponde ao modelo seguinte, considerando que o processador tem o mecanismo de “forwarding”:

Algumas instruções irão portanto ser processadas sem que haja garantias de que devam ser executadas. No caso de não deverem ocorre uma “bubble”. É o caso das instruções mov ax, bx (corresponde a colocar em ax o menor valor entre ax e bx) e add cx, ax (corresponde ao processo a seguir ao cálculo do menor valor). Ambas irão ser iniciadas independentemente do resultado da instrução “jle fimteste”.

Em função do resultado da instrução jle fimteste, duas hipóteses existem:

Valor de ax é menor ou igual (jle - jump if less or equal) que valor de bx e portanto não é necessário alteração em ax. Consequentemente a execução salta para fimteste (i+4);

Valor de ax é maior que valor de bx e portanto não é necessário alteração em ax. Consequentemente a execução passa para a instrução seguinte (i+3/bxmenor):

Os efeitos do processamento duma bubble têm de ser desfeitos, o que causa complicações à gestão do pipeline. Esta não é normalmente uma solução aceitável sob o ponto de vista do micro código, pelo que é evitada.

O ponto de partida da solução é o denominado “branch delay slot”. Um branch delay slot corresponde a um ciclo de relógio (slot) em que não é iniciada uma nova instrução por causa dum branch condicional. No caso dos processadores com pipelines de 4 estágios, sempre que ocorrer um branch condicional, também ocorem 2 branch delay slots.

Existem várias potenciais soluções:

Deixar a cargo do processador a introdução de instruções “stalls” (processo equivalente ao interlocking);
Ser o programador/compilador a definir instruções NOP imediatamente seguintes ao branch condicional;
Usar uma instrução “branch and execute”, que define a instrução de branch e as instruções que podem/devem ser executadas nos branch delay slots, e que não dependem do resultado do branch.

No caso do exemplo anterior, seria possível definir uma instrução de “branch and execute” que executasse as instruções mov cx, var1 e mov dx, var2 nos branch delays slots observados. Estas instruções podem ser usadas pois não provocam dependências nas seguintes (mov ax, var3 e mov bx, var4) pois os seus resultados só vão ser usados em add cx, ax.

Portanto, o “branch and execute” corresponde em muitas situações a uma reordenação de instruções sem a necessidade de termos dois saltos.

SPARC - Scalable Processor ARChitecture

Não é um processador;
É uma arquitectura de microprocessadores RISC;
Desenhada originalmente em 1985 pela SUN Microsystems;
Marca registada da SPARC International, Inc. (1989);
Arquitectura disponibilizada a preços razoáveis a terceiros, que implementam processadores específicos a partir da arquitectura;
Exemplos de fabricantes SPARC: Fujitso, Texas Instruments, Cypress Semicondutor.

Arquitectura

Register Window

Muitos registos
Poucas instruções

Alpha

Tal como SPARC, também Alpha é uma arquitectura;
Desenvolvida pela Digital (agora Compaq);
A Samsung é um dos principais fabricantes de processadores com arquitectura Alpha;
Primeiros CPUs Alpha foram lançados em 1998.

Originalmente a arquitectura Alpha é caracterizada por:

Registos de 64 bits;
Barramento de dados de 256 bits;
32 registos de inteiros:
32 registos de vírgula flutuante;
Capacidade de reordenamento de instruções (Out-of-order execution) até 80 instruções:
- Lógica de reordenação (em micro-código);
- 48+40 registos temporários para conterem os valores das instruções pendentes;
- Lógica de interlocking para detectar dependências;
- e claro, contém a lógica capaz de exteriorizar os resultados segundo o programa original;
Pipeline de 7 estágios:
- Instruction fetch (branch prediction);
- Operand fetch;
- Rename (map) instruction registers;
- Issue instructions from the queues;
- Read register file;
- Execução;
- Write back.

Outras características tão ou mais importantes:

Várias unidades de execução: processador super-escalar;
Não possui registo de flags, para não ser motivo de engarrafamentos por parte das várias unidades de execução;
Permite teste sobre valores de registos;
Permite "MOVs" condicionais, o que diminui a necessidade de saltos condicionais para fazer apenas "MOVs".

Terminologia

Pipeline

Super Pipeline

Pipeline com muitos estágios.

Processador super-escalar

Quando existe mais do que uma unidade de execução no processador.

Normalmente a existência de mais do que uma unidade de execução está associada a processadores RISC (com pipeline), mas o número de unidades de execução é independente do número de pipelines.

Branch prediction

Através do historial de instruções, determinar qual o caminho mais provável que o teste+salto irá tomar.

Execução expeculativa

Ordenar/Executar as instrucões em função do resultado do branch prediction.

Reordenação de execução (out-of-order execution)

	mov ax,var1
	mov bx,var2
	add ax,bx
	; as instruções seguintes não dependem das anteriores
	; portanto podem ser executadas fora da ordem
	mov cx,var4
	mov dx,var5
	add cx,dx
	mov var6,cx

Renomeação de registos

	mov ax,var1
	mov bx,var2
	add ax,bx
	mov var3,ax
	; as instruções seguintes não dependem das anteriores
	; mas estão a usar os mesmos registos
	 se usarmos um mecanismo de “register renaming” então as
	; instruções usarão outros registos e já serão executadas “fora da ordem”
	mov ax,var4
	mov bx,var5
	add ax,bx
	mov var6,ax

Buffer de reordenação

Local de reserva dos resultados das instruções, antes de serem colocados ordenadamente segundo o programa original nas suas localizações definitivas.

Reservation stations

Também denominadas filas de espera de instruções.

Última actualização: 2005-05-25