Processadores RISC

Conceitos básicos
RISC
Pipeline
Restrições
Problemas de processamento em pipeline
SPARC - Scalable Processor ARChitecture
Alpha
Terminologia

Conceitos básicos

Conceitos diferentes:

RISC: Reduced Instruction Set Code (Conjunto Reduzido de Instruções de Código)
Pipeline, Pipeline corresponde à divisão do processamento de cada instrução por diferentes componentes do processador. Estes componentes denominam-se estágios ou andares de execução

Pipeline é uma forma de implementação de microprocessadores, pelo que pode ser usado para implementar microprocessadores que não se caracterizem como RISC.

No entanto, um dos elementos mais habitualmente usados para identificar um processador RISC é a existência de pelo menos um pipeline. Contudo existem processadores RISC que não têm pipeline (PTSC Ignite) e outros que não são RISC e que têm pipeline (Intel Pentium, é um processador CISC no que respeita ao seu conjunto de instruções, mas traduz essas instruções para um conjunto de instruções outras RISC, que são usadas internamente pelo pipeline.) .

RISC

O conceito de processador RISC baseia-se na premissa de que será menos eficiente executar uma instrução complexa do que executar o conjunto de instruções simples equivalente.

Assim, os processadores RISC têm por objectivo simplificar o conjunto de instruções em diversas dimensões por forma a maximizar esta premissa.

Para isso, um processador RISC caracteriza-se por:

Ter um conjunto de instruções com tamanho fixo, normalmente do tamanho da Word do processador e do barramento de dados, para que esta seja lida (fetch) e descodificada num único ciclo de relógio;
Como tal, o número de instruções é mais reduzido que num processador CISC, em que não existe propriamente um tamanho limite para a instrução;
Para reduzir o tamanho e facilitar o fetch e a descodificação, opta-se por reduzir às possibilidades de combinar diferentes tipos de operandos nas instruções. De facto, os operandos limitam-se a registos e os modos de endereçamento são normalmente em número reduzido.

Pipeline

O processamento de uma instrução é composto pelo menos por cinco fases:

Instruction fetch;
Instruction decode;
Operand fetch;
Execution;
(Memory);
Write back.

O resultado é um pipeline de cinco estágios:

Como o estágio de instruction decode (descodificação) não necessita de aceder à memória (recurso partilhado), pode ser realizado em simultâneo com a fase de operand fetch (que usa a memória). O resultado é um pipeline com 4 estágios.

Este corresponde a uma abordagem minimalista e original, mas hoje em dia os pipeline não se limitam a 4 ou cinco estágios, mas podem chegar a 20 ou 30 estágios (Intel Pentium 4).

O princípio operacional dum pipeline é que podem estar em processamento várias instruções em simultâneo, pois cada um dos estágios é logicamente independente dos outros.

O resultado é que em execução óptima, o processador executa até uma instrução por ciclo de relógio, mesmo que cada instrução demore mais do que um ciclo de relógio a ser processada.

Portanto, teoricamente e na melhor das hipóteses, é possível executar uma instrução por cada ciclo de relógio, menos os ciclos iniciais em que os estágios não são completamente utilizados em processamento.

Ou seja:

número de estágios (e)
número de instruções (i)
número de ciclos necessário à execução (c)

c = i + e - 1

Restrições

No entanto, para que todo o conceito/processo funcione é necessário que determinadas restrições se verifiquem. Nomeadamente, é prioritário que todas as instruções permaneçam em cada estágio o mesmo tempo, para que:

O sinal de relógio seja usado como cadência de processamento;
Não sejam necessários “buffers”;
Não ocorram paragens (i.e. “wait states”/”interlocking”).

Porque o processamento é diferente de estágio para estágio, para que o processo ocorra num único ciclo de relógio é necessário analisar o problema a resolver e encontrar soluções convenientes.

Instruction fetch

Problema:

Fetch (leitura) num único acesso a memória.

Solução:

As instruções tenham o mesmo tamanho;
Que seja igual à largura do barramento de dados do processador, o que equivale normalmente também a largura dos registos (word).

Instruction decode

Problema:

Decode num único ciclo de relógio.

Solução:

Instruções simples (o que é facilitado devido ao tamanho fixo da instrução);
Limitação de tipos de operandos nas instruções. Normalmente as instruções trabalham apenas com registos, à excepção das instruções de Load e Store que acedem a memória.

Operand fetch

Problema:

Acesso (load) num único ciclo de relógio.

Solução:

Limitar tipos de operandos das instruções a registos;
Load de valores nos registos devem obedecer às restrições de qualquer outra instrução.

Execution

Problema:

Execução da instrução num único ciclo de relógio.

Solução:

Fazê-lo, eventualmente dividindo esta fase em sub-fases mais simples e portanto, de processamento mais rápido.

(Memory)

Problema:

Ler ou escrever na memória num único ciclo de relógio.

Solução:

Uso de memória cache.
Limitar tipos de operandos a registos.

Write-back

Problema:

Escrever no destino num único ciclo de relógio.

Solução:

Limitar tipos de operandos das instruções a registos;

Portanto, é fundamental que sejam observadas as seguintes restrições:

As instruções têm todas os mesmo tamanho (word);
As instruções trabalham apenas com os registos;
As únicas operações efectuadas na memória são a escrita e a leitura;
As instruções são simples.

Problemas de processamento em pipeline

No entanto, este conceito de processamento tem alguns problemas, motivados pelo facto de estarem em processamento várias instruções em simultâneo.

São identificados dois tipos de problemas:

Problemas de falta de operandos;
Problemas de fluxo de execução.

Falta de operandos (Data hazards)

A falta de operandos ocorre quando o resultado de uma instrução é usado na instrução da seguinte. Como o resultado da primeira instrução só se torna efectivo (write back) quando a seguinte já está a executar (execution), então os valores dos operandos da segunda instrução não estão correctos.

Considere-se o código seguinte:

	mov ax, var1
	mov bx, var2
	add ax, bx
	instr4

que corresponde à seguinte representação de execução:

No estágio de execução da instrução add ax, bx, o valor de bx não é o correcto, pois a instrução anterior (mov bx, var2) ainda não escreveu o valor no registo bx.

Existem duas soluções possíveis:

Por hardware:
- Forwarding
- Interlocking (stall)
- Execução fora de ordem (semelhante à reordenação por software, mas feita por hardware)
Por software:
- Reordenação
- Introdução de NOPs

A solução de “forwarding” corresponde a fazer o valor passar directamente para o andar de execução (ou outro) sem passar pelos registos.

A solução de “interlocking” corresponde a fazer parar a instrução seguinte até que o valor correcto dos operandos esteja disponível. Assim, o exemplo anterior teria a seguinte execução:

A solução por software implica um de dois estratagemas:

Reordenação de instruções, de forma a que a instrução que necessita do valor ainda não disponível seja atrasada, mas que a seguinte a ultrapasse para não haver diminuição de performance. No entanto isto nem sempre é possível;

Introdução de instrução NOP (no operation). Quando não é possível reorganizar as operações, é introduzida a instrução NOP.

Fluxo de execução (Control hazards)

Quando uma instrução de salto (branch) está a ser executada, já a seguinte também está a ser executada. Mas a instrução a executar a seguir é dependente do resultado da instrução de branch, pelo que não é possível antes disso determinar qual a instrução seguinte.

Considere o exemplo seguinte:

	inicio:
		mov cx, var1
		mov dx, var2
		mov ax, var3
		mov bx, var4
		
		% calcula o menor de dois valores e coloca em ax
		cmp ax, bx
		jle fimteste
	bxmenor:
		mov ax, bx
	fimteste:
		add cx, ax
		sub dx, ax

A execução corresponde ao modelo seguinte, considerando que o processador tem e aplica o mecanismo de “forwarding”:

Algumas instruções irão portanto ser processadas sem que haja garantias de que devam ser executadas. No caso de não deverem ocorre uma “bubble”. É o caso das instruções mov ax, bx (corresponde a colocar em ax o menor valor entre ax e bx) e add cx, ax (corresponde ao processo a seguir ao cálculo do menor valor). Ambas irão ser iniciadas independentemente do resultado da instrução “jle fimteste”.

Em função do resultado da instrução jle fimteste, duas hipóteses existem:

Valor de ax é menor ou igual (jle - jump if less or equal) que valor de bx e portanto não é necessário alteração em ax. Consequentemente a execução salta para fimteste (i+4);

Valor de ax é maior que valor de bx e portanto não é necessário alteração em ax. Consequentemente a execução passa para a instrução seguinte (i+3/bxmenor):

Os efeitos do processamento errado duma bubble têm de ser desfeitos (penalty), o que causa complicações à gestão do pipeline. Esta não é normalmente uma solução interessante ou fácil de implementar, pelo que é evitada.

O ponto de partida da solução é o denominado “branch delay slot”, a tal "bubble", que pode ter comprimento de 1 ou mais ciclos. Um branch delay slot corresponde a um ciclo de relógio (slot) em que não é iniciada uma nova instrução por causa dum branch condicional. O comprimento do branch delay slot varia de processador para processador, e quanto mais cedo a decisão de salto for tomada, menor será o seu comprimentos e portanto menor será a penalização. No caso anterior o comprimento da bubble é 2 (decisão sbore o branch é tomada no terceiro estágio do pipeline), enquanto no DLX é de 1(decisão tomada no segundo branch). Há processadores cujo comprimento do delay slot é de 5-10 ou mesmo mais slots, mas como a frequência de relógio é muito elevada (muitos estágios, frequência elevada), as penalizações acabam por não ser maiores que nalguns processadores em que o branch delay slot tem comprimento menor mas cujo ciclo é maior que nos outros.

Existem várias potenciais soluções:

Deixar a cargo do processador a introdução de instruções “stalls” (processo equivalente ao interlocking);
Ser o programador/compilador a definir instruções NOP imediatamente seguintes ao branch condicional;
Usar uma instrução “branch and execute”, que define a instrução de branch e as instruções que podem/devem ser executadas nos branch delay slots, e que não dependem do resultado do branch;
Implementar sistemas de previsão (ver Branch Prediction e Speculative Execution).

No caso do código anterior, seria possível definir uma instrução de “branch and execute” que executasse as instruções mov cx, var1 e mov dx, var2 nos 2 branch delays slots considerados anteriormente.

com branch condicional	com branch e execution
inicio: mov cx, var1 mov dx, var2 mov ax, var3 mov bx, var4 % calcula o menor de dois valores e coloca em ax cmp ax, bx jle fimteste bxmenor: mov ax, bx fimteste: add cx, ax sub dx, ax	inicio: mov ax, var3 mov bx, var4 % calcula o menor de dois valores e coloca em ax cmp ax, bx jle fimteste mov cx, var1 mov dx, var2 bxmenor: mov ax, bx fimteste: add cx, ax sub dx, ax

Estas instruções podem ser usadas pois não provocam dependências nas seguintes (mov ax, var3 e mov bx, var4) pois os seus resultados só vão ser usados em add cx, ax.

Portanto, o “branch and execute” corresponde em muitas situações a uma reordenação de instruções sem a necessidade de termos dois saltos.

SPARC - Scalable Processor ARChitecture

Não é um processador;
É uma arquitectura de microprocessadores RISC;
Desenhada originalmente em 1985 pela SUN Microsystems;
Marca registada da SPARC International, Inc. (1989);
Arquitectura disponibilizada a preços razoáveis a terceiros, que implementam processadores específicos a partir da arquitectura;
Exemplos de fabricantes SPARC: Fujitsu, Texas Instruments, Cypress Semicondutor.

Arquitectura

Register Window

Muitos registos
Poucas instruções

Alpha

Tal como SPARC, também Alpha é uma arquitectura;
Desenvolvida pela Digital (agora Compaq);
A Samsung é um dos principais fabricantes de processadores com arquitectura Alpha;
Primeiros CPUs Alpha foram lançados em 1989.

Originalmente a arquitectura Alpha é caracterizada por:

Registos de 64 bits;
Barramento de dados de 256 bits;
32 registos de inteiros:
32 registos de vírgula flutuante;
Capacidade de reordenamento de instruções (Out-of-order execution) até 80 instruções (reservation stations):
- Lógica de interlocking para detectar dependências;
- Lógica de reordenação;
- 48+40 registos temporários para conterem os valores das instruções pendentes (buffers de reordenação);
- e claro, contém a lógica capaz de exteriorizar os resultados segundo o programa original;
Pipeline de 7 estágios:
- Instruction fetch com branch prediction;
- Operand fetch;
- Rename (map) instruction registers;
- Issue instructions from the queues;
- Read register file;
- Execução;
- Write back.

Outras características tão ou mais importantes:

Várias unidades de execução: processador super-escalar;
Não possui registo de flags, para não ser motivo de engarrafamentos por parte das várias unidades de execução;
Permite teste sobre valores de registos;
Permite "MOVs" condicionais, o que diminui a necessidade de saltos condicionais para fazer apenas "MOVs".

Terminologia

Pipeline

Super Pipeline

Pipeline com muitos estágios.

Processador super-escalar

Quando existe mais do que uma unidade de execução no processador.

Normalmente a existência de mais do que uma unidade de execução está associada a processadores RISC (com pipeline), mas o número de unidades de execução é independente do número de pipelines.

Branch prediction

Determina qual o caminho mais provável que o teste+salto irá tomar. Há várias formas de "branch prediction", nomeadamente:

Predict-not-taken ou Predict-taken (pré-definido pelo hardware);
Definição de probabilidades durante a programação e compilação (realizada por software);
Cálculo das probabilidade usando informação dinâmica, como por exemplo o histórico de execução (realizada por hardware desoftware de forma dinâmica).

Execução expeculativa

Ordenar/Executar as instruções em função do resultado do branch prediction.

Execução fora de ordem (out-of-order execution)

	mov ax,var1
	mov bx,var2
	add ax,bx
	; as instruções seguintes não dependem das anteriores
	; portanto podem ser executadas fora da ordem
	mov cx,var4
	mov dx,var5
	add cx,dx
	mov var6,cx

Renomeação de registos

	mov ax,var1
	mov bx,var2
	add ax,bx
	mov var3,ax
	; as instruções seguintes não dependem das anteriores
	; mas estão a usar os mesmos registos
	 se usarmos um mecanismo de “register renaming” então as
	; instruções usarão outros registos e já serão executadas “fora da ordem”
	mov ax,var4
	mov bx,var5
	add ax,bx
	mov var6,ax

Buffer de reordenação

Local de reserva dos resultados das instruções, antes de serem colocados ordenadamente segundo o programa original nas suas localizações definitivas.

Reservation stations

Também denominadas filas de espera de instruções.

Última actualização: 2006-10-06