DE60318105T2

DE60318105T2 - Pipeline-coprozessor

Info

Publication number: DE60318105T2
Application number: DE60318105T
Authority: DE
Inventors: Chandan Manassas MATHUR; Scott Amessville HELLENBACH; John W. Manassas RAPP; Larry Manassas JACKSON; Mark Centreville JONES; Troy Culpeper CHERASARO
Original assignee: Lockheed Corp; Lockheed Martin Corp
Current assignee: Lockheed Martin Corp
Priority date: 2002-10-31
Filing date: 2003-10-31
Publication date: 2008-12-04
Anticipated expiration: 2023-11-01
Also published as: KR101035646B1; WO2004042574A2; CA2503613A1; CA2503611A1; AU2003287321A1; EP1573515A2; CA2503622A1; CA2503613C; JP2011170868A; KR101062214B1; EP1559005A2; AU2003287320A1; KR20050086424A; AU2003287319B2; WO2004042569A3; AU2003287317A1; CA2503622C; WO2004042574A3; JP2006515941A; DE60318105D1

Description

Prioritätsbeanspruchung
Diese Applikation beansprucht die Priorität der provisorischen U. S. Anmeldung mit der Anmeldungsnummer 60/422,503, eingereicht am 31. Oktober 2002, welche durch Bezugnahme in diesen Text aufgenommen wird.
Querverweise auf in Beziehung stehende Anmeldungen
Diese Anmeldung steht in Beziehung zu U.S.-Publikationen Nr. 20004/0181621 , betitelt "Computing machine having improved computing architecture and related system and method"; Nr. 2004/0136241 betitelt "Pipeline accelerator for improved computing architecture and related system and method"; 2004/0170070 betitelt "Programmable circuit and related computing machine and method"; sowie Nr. 2004/0130927 betitelt "Pipeline accelerator having multiple Pipeline units and related computing machine and methods"; alle eingereicht am 09. Oktober 2003 und sämtlich einen gemeinsamen Inhaber aufweisend.
Hintergrund
Eine gebräuchliche Rechnerarchitektur zum Verarbeiten relativ großer Mengen von Daten in einer relativ kurzen Zeitdauer beinhaltet mehrere miteinander verbundene Prozessoren, die sich die Rechenlast teilen. Durch Teilen der Rechenlast können diese Mehrfachprozessoren oft die Daten schneller verarbeiten, als es ein einzelner Prozessor bei einer gegebenen Taktfrequenz kann. Beispielsweise kann jeder der Prozessoren einen entsprechenden Teil der Daten verarbeiten oder einen entsprechenden Teil eines Verarbeitungsalgorithmus ausführen.
1 ist ein schematisches Blockdiagramm einer herkömmlichen Rechenmaschine 10 mit einer Multiprozessorarchitektur. Die Maschine 10 beinhaltet einen Hauptprozessor 12 und Co-Prozessoren 14₁ –14_n , die miteinander und mit dem Hauptprozessor über einen Bus 16 kommunizieren, einen Eingangsanschluss 18 zum Entgegennehmen von Rohdaten von einer entfernt angeordneten Vorrichtung (in 1 nicht dargestellt), sowie einen Ausgangsanschluss 20 zum Liefern verarbeiteter Daten an die entfernt angeordnete Quelle. Die Maschine 10 beinhaltet ebenso einen Speicher 22 für den Hauptprozessor 12, entsprechende Speicher 24₁ –24_n für die Co-Prozessoren 14₁ –14_n , sowie einen Speicher 26, den der Hauptprozessor und die Co-Prozessoren über den Bus 16 gemeinsam benutzen. Der Speicher 22 dient sowohl als ein Programm- als auch als ein Arbeitsspeicher für den Hauptprozessor 12, und jeder Speicher 24₁ –24_n dient dient sowohl als ein Programm- als auch als ein Arbeitsspeicher für einen entsprechenden Co-Prozessor 14₁ –14_n . Der gemeinsam benutzte Speicher 26 ermöglicht es dem Hauptprozessor 12 und den Co-Prozessoren 14, über die Anschlüsse 18 bzw. 20 Daten untereinander und von/an die entfernte Vorrichtung zu transferieren. Der Hauptprozessor 12 sowie die Co-Prozessoren 14 empfangen auch ein gemeinsames Taktsignal, welches die Geschwindigkeit steuert, mit der die Maschine 10 die Rohdaten verarbeitet.
Im Allgemeinen teilt die Rechenmaschine 10 das Verarbeiten von Rohdaten unter den Hauptprozessor 12 und die Co-Prozessoren 14 auf. Die entfernt angeordnete Quelle (in 1 nicht dargestellt) wie etwa eine Sonar-Anordnung (5) lädt die Rohdaten über den Anschluss 18 in einen Bereich des gemeinsam benutzten Speichers 26, welcher als ein First-In-First-Out(FIFO)-Puffer (nicht dargestellt) für die Rohdaten fungiert. Der Hauptprozessor 12 ruft die Rohdaten aus dem Speicher 26 über den Bus 16 ab, und dann verarbeiten der Hauptprozessor und die Co-Prozessoren 14 die Rohdaten, dabei Daten nach Bedarf untereinander über den Bus 16 transferierend. Der Hauptprozessor 12 lädt die verarbeiteten Daten in einen anderen FIFO-Puffer (nicht dargestellt), der in dem gemeinsam genutzten Speicher 26 festgelegt ist, und die entfernt angeordnete Quelle ruft die verarbeiteten Daten über den Anschluss 20 aus diesem FIFO ab.
In einem Betriebsbeispiel verarbeitet die Rechenmaschine 10 die Rohdaten durch sequenzielles Ausführen von n + 1 entsprechenden Operationen auf den Rohdaten, wobei diese Operationen zusammen einen Verarbeitungsalgorithmus wie eine schnelle Fourier-Transformation (FFT) bilden. Insbesondere bildet die Maschine 10 aus dem Hauptprozessor 12 und den Co-Prozessoren 14 eine Datenverarbeitungspipeline. Oftmals erlaubt eine derartige Pipeline für eine gegebene Frequenz des Taktsignals, dass die Maschine 10 die Rohdaten schneller verarbeitet als eine Maschine, welche lediglich einen einzelnen Prozessor aufweist.
Nach dem Abrufen der Rohdaten aus dem Rohdaten-FIFO (nicht dargestellt) in dem Speicher 26 führt der Hauptprozessor eine erste Operation, wie etwa eine trigonometrische Funktion, auf den Rohdaten durch. Diese Operation liefert ein erstes Resultat, das der Prozessor 12 in einem Erstresultat-FIFO (nicht dargestellt) abspeichert, welches in dem Speicher 26 gebildet ist. Typischerweise führt der Prozessor 12 ein in dem Speicher 22 gespeichertes Programm durch und führt die vorstehend beschriebenen Aktionen unter der Kontrolle des Programmes aus. Der Prozessor 12 kann auch den Speicher 22 als einen Arbeitsspeicher zum vorübergehenden Speichern von Daten verwenden, die der Prozessor in Zwischenbereichen der ersten Operation erzeugt.
Danach, nach dem Abrufen des ersten Resultates von dem Erstresultat-FIFO (nicht dargestellt) in dem Speicher 26, führt der Co-Prozessor 14₁ eine zweite Operation, wie etwa eine logarithmische Funktion, auf dem ersten Resultat durch. Diese zweite Operation liefert ein zweites Resultat, welches der Co-Prozessor 14₁ in einem Zweitresultat-FIFO (nicht dargestellt), das in dem Speicher 26 gebildet ist, abspeichert. Typischerweise führt der Co-Prozessor 14₁ ein in dem Speicher 24₁ gespeichertes Programm aus und führt die vorstehend beschriebenen Aktionen unter der Kontrolle des Programmes durch. Der Co-Prozessor 14₁ kann auch den Speicher 24₁ als Arbeitsspeicher zum vorübergehenden Speichern von Daten benutzen, die der Co-Prozessor in Zwischenbereichen der zweiten Operation generiert.
Danach führen die Co-Prozessoren 24₂ –24_n sequenziell dritte bis n-te Operationen auf den zweiten bis (n – 1)-ten Resultaten in einer Art und Weise aus, die ähnlich der ist, die vorstehend für den Co-Prozessor 24₁ erörtert worden ist.
Die n-te Operation, die durch den Co-Prozessor 24 ausgeführt wird, liefert das endgültige Ergebnis, d. h. die verarbeiteten Daten. Der Co-Prozessor 24_n lädt die verarbeiteten Daten in ein FIFO für verarbeitete Daten (nicht dargestellt), welches in dem Speicher 26 gebildet ist, und die entfernt angeordnete Vorrichtung (in 1 nicht dargestellt) ruft die verarbeiteten Daten aus diesem FIFO ab.
Da der Hauptprozessor 12 und die Co-Prozessoren 14 gleichzeitig unterschiedliche Operationen des Verarbeitungsalgorithmus ausführen, ist die Rechenmaschine 10 oft in der Lage, die Rohdaten schneller als eine Rechenmaschine zu verarbeiten, welche einen einzelnen Prozessor aufweist, welcher die verschiedenen Operationen nacheinander durchführt. Insbesondere kann der einzelne Prozessor nicht eine neue Menge der Rohdaten abrufen, bis er alle n + 1 Operationen auf der vorhergehenden Menge von Rohdaten ausgeführt hat. Aber durch Verwenden der vorstehend erörterten Pipeline-Technik kann der Hauptprozessor 12 eine neue Menge von Rohdaten abrufen, nachdem er lediglich die erste Operation durchgeführt hat. Demgemäß kann diese Pipeline-Technik bei einer gegebenen Taktfrequenz die Geschwindigkeit, mit der die Maschine 10 die Rohdaten verarbeitet, im Vergleich mit einer Einprozessormaschine (in 1 nicht dargestellt) um einen Faktor von ungefähr n + 1 erhöhen.
Alternativ kann die Rechenmaschine 10 die Rohdaten parallel durch gleichzeitiges Ausführen von n + 1 Instanzen eines Verarbeitungsalgorithmus, wie etwa einer FFT, auf den Rohdaten verarbeiten. Das heisst, wenn der Algorithmus wie in dem vorherigen Beispiel vorstehend beschrieben, n + 1 sequenzielle Operationen beinhaltet, dann führen der Hauptprozessor 12 und die Co-Prozessoren 14 sequenziell alle n + 1 Operationen auf entsprechenden Mengen der Rohdaten aus. Demzufolge kann diese Parallelverarbeitungstechnik wie die vorstehend beschriebene Pipeline-Technik bei einer gegebenen Taktfrequenz die Geschwindigkeit, mit der die Maschine 10 die Rohdaten verarbeitet, im Vergleich mit einer Einprozessormaschine (in 1 nicht dargestellt) um einen Faktor von n + 1 erhöhen.
Obgleich die Rechenmaschine Daten schneller als eine Einprozessor-Rechenmaschine (in 1 nicht dargestellt) verarbeiten kann, ist die Datenverar beitungsgeschwindigkeit der Maschine 10 unglücklicherweise oft signifikant kleiner als die Frequenz des Prozessortaktes. Insbesondere ist die Datenverarbeitungsgeschwindigkeit der Rechenmaschine 10 durch die Zeit begrenzt, die der Hauptprozessor 12 und die Co-Prozessoren 14 zum Verarbeiten der Daten benötigen. Der Kürze halber wird ein Beispiel dieser Geschwindigkeitsbegrenzung im Zusammenhang mit dem Hauptprozessor 12 diskutiert, obgleich es deutlich ist, dass diese Diskussion auch auf die Co-Prozessoren 14 anwendbar ist. Wie vorstehend beschrieben, führt der Hauptprozessor 12 ein Programm aus, das den Prozessor zum Manipulieren der Daten in einer gewünschten Art und Weise steuert. Dieses Programm beinhaltet eine Sequenz von Instruktionen, die der Prozessor 12 ausführt. Unglücklicherweise benötigt der Prozessor 12 typischerweise mehrere Taktzyklen, um eine einzige Instruktion auszuführen, und muss oft mehrere Instruktionen ausführen, um einen einzigen Datenwert zu verarbeiten. Nehmen wir beispielsweise an, dass der Prozessor 12 einen ersten Datenwert A (nicht dargestellt) mit einem zweiten Datenwert B (nicht dargestellt) zu multiplizieren hat. Während eines ersten Taktzyklus empfängt der Prozessor 12 eine Multiplikations-Instruktion aus dem Speicher 22. Während eines zweiten und dritten Taktzyklus ruft der Prozessor 12 A bzw. B aus dem Speicher 26 ab. Während eines vierten Taktzyklus multipliziert der Prozessor 12 A mit B und, während eines fünften Taktzyklus, speichert er das resultierende Produkt in dem Speicher 22 oder 26 oder liefert das resultierende Produkt an die entfernt angeordnete Vorrichtung (nicht dargestellt). Dies ist ein für den besten Fall dargestelltes Szenario, da in zahlreichen Fällen der Prozessor 12 zusätzliche Taktzyklen für Overhead-Aufgaben wie das Initialisieren und das Abschließen von Zählern benötigt. Daher benötigt der Prozessor 12 bestenfalls fünf Taktzyklen oder einen Mittelwert von 2,5 Taktzyklen pro Datenwert, um A und B zu verarbeiten.
Demzufolge ist die Geschwindigkeit, mit der die Rechenmaschine 10 Daten verarbeitet, oftmals signifikant niedriger als die Frequenz des Taktes, der den Hauptprozessor 12 und die Co-Prozessoren 14 ansteuert. Wenn beispielsweise der Prozessor 12 mit 1,0 Gigahertz (GHz) getaktet ist, jedoch einen Mittelwert von 2,5 Taktzyklen pro Datenwert benötigt, dann ist die effektive Datenverarbeitungsgeschwindigkeit gleich (1,0 GHz)/2,5 = 0,4 GHz. Diese effektive Datenverarbeitungsgeschwindigkeit wird oft in Einheiten von Operationen pro Sekunde angegeben. Daher würde der Prozessor 12 in diesem Beispiel bei einer Taktrate von 1,0 GHz mit einer Datenverarbeitungsgeschwindigkeit von 0,4 Gigaoperationen/Sekunde (Gops) eingestuft werden.
2 ist ein Blockdiagramm einer festverdrahteten Datenpipeline 30, die typischerweise Daten schneller als ein Prozessor bei einer gegebenen Taktfrequenz verarbeiten kann, und oft bei im Wesentlichen derselben Rate, mit der die Pipeline getaktet wird. Die Pipeline 30 beinhaltet Operatorschaltungen 32₁ –32_n , von denen jede eine entsprechende Operation auf entsprechenden Daten ausführt, ohne Programm-Instruktionen auszuführen. Das heisst, die gewünschte Operation ist in eine Schaltung 32 "eingebrannt", so dass sie die Operation ohne die Notwendigkeit von Programm-Instruktionen automatisch implementiert. Durch Eliminieren des Overheads, der mit der Ausführung von Programm-Instruktionen verbunden ist, kann die Pipeline 30 typischerweise mehr Operationen bei einer gegebenen Taktfrequenz ausführen, als ein Prozessor es kann.
Beispielsweise kann die Pipeline 30 oftmals die folgende Gleichung bei einer gegebenen Taktfrequenz schneller lösen, als es ein Prozessor kann: Y(xk) = (5xk + 3)2xk (1),wobei x_k eine Sequenz von Rohdatenwerten repräsentiert. In diesem Beispiel ist die Operatorschaltung 32₁ ein Multiplizierer, welcher 5x_k berechnet, die Schaltung 32₂ ist ein Addierer, die 5x_k + 3 berechnet, und die Schaltung 32_n (n = 3) ist ein Multiplizierer, der (5xk + 3)2^xk berechnet.
Während eines ersten Taktzyklus k = 1 empfängt die Schaltung 32₁ den Datenwert x₁ und multipliziert ihn mit 5, um 5x₁ zu erzeugen.
Während eines zweiten Taktzyklus k = 2 empfängt die Schaltung 32₂ 5x₁ aus der Schaltung 32₁ und addiert 3, um 5x₁ + 3 zu erzeugen. Auch erzeugt die Schaltung 32₁ während des zweiten Taktzyklus [den Wert] 5x₂.
Während eines dritten Taktzyklus k = 3 empfängt die Schaltung 32₃ [den Wert] 5x₁ + 3 von der Schaltung 32₂ und multipliziert mit 2^x1 (effektiv eine Rechtsverschiebung 5x₁ + 3 um x₁), um das erste Ergebnis (5x₁ + 3)2^x1 zu erzeugen. Auch während des dritten Taktzyklus erzeugt die Schaltung 32₁ [den Wert] 5x₃ und die Schaltung 32₂ erzeugt [den Wert] 5x₂ + 3.
Die Pipeline 30 fährt mit der Verarbeitung nachfolgender Rohdatenwerte x_k in dieser Weise fort, bis alle Rohdatenwerte verarbeitet sind.
Demzufolge erzeugt die Pipeline [nach] einer Verzögerung von 2 Taktzyklen nach dem Empfangen eines Rohdatenwertes x₁ – diese Verzögerung wird oft die Latenz der Pipeline 30 genannt – das Ergebnis (5x₁ + 3)2^x+1, und danach erzeugt sie ein Resultat pro Taktzyklus.
Die Latenz nicht beachtend, weist die Pipeline 30 daher eine Datenverarbeitungsgeschwindigkeit gleich der Taktrate auf. Im Vergleich kann die Pipeline 30 Daten bei einer gegebenen Taktrate 2,5-mal schneller verarbeiten als die Rechenmaschine 10 (1), wenn angenommen wird, dass der Hauptprozessor 12 und die Co-Prozessoren 14 (1) Datenverarbeitungsgeschwindigkeiten aufweisen, die, wie in dem vorstehenden Beispiel, das 0,4-fache der Taktgeschwindigkeit betragen.
Immer noch auf 2 Bezug nehmend, kann ein Entwerfer sich dafür entscheiden, die Pipeline 30 in einem IC mit programmierbarer Logik (PLIC), wie etwa einem feldprogrammierbaren Gate Array (FPGA), zu implementieren, da ein PLIC eine größere Entwurfs- und Modifikationsflexibilität als ein anwendungsspezifisches IC (ASIC) erlaubt. Um die festverdrahteten Verbindungen innerhalb eines PLICs zu konfigurieren, braucht der Entwerfer lediglich vorbestimmte Binärzustände in innerhalb des PLICs angeordneten Verbindungskonfigurationsregistern einzustellen. Die Kombination aller dieser binären Zustände wird oft "Firmware" genannt. Typischerweise lädt der Entwerfer diese Firmware in einen nichtflüchtigen Speicher (in 2 nicht dargestellt), welcher mit dem PLIC gekoppelt ist. Wenn man das PLIC "einschaltet", lädt dieses die Firmware aus dem Speicher in die Verbindungskonfigurationsregister herunter. Daher ändert der Entwerfer zum Modifizieren der Funktionen des PLICs lediglich die Firmware und ermöglicht es dem PLIC, die modifizierte Firmware in die Verbindungskonfigurationsregister herunterzuladen. Diese Fähigkeit, das PLIC lediglich durch Modifizieren der Firmware zu ändern, ist insbesondere während des Prototypenstadiums und zum Verbessern der Pipeline 30 "im Felde" nützlich.
Unglücklicherweise kann die festverdrahtete Pipeline typischerweise nicht alle Algorithmen ausführen, insbesondere nicht jene, welche das Fällen von wesentlichen Entscheidungen mit sich bringen. Ein Prozessor kann typischerweise eine Entscheidungs-Instruktion (z. B. bedingte Instruktionen wie etwa "wenn A, dann gehe nach B, andernfalls gehe nach C") ungefähr gleich schnell ausführen, wie er eine operationale Instruktion (z. B. "A + B") von vergleichbarer Länge ausführen kann. Aber obgleich die Pipeline 30 fähig sein kann, eine relativ einfache Entscheidung zu treffen (z. B. "A > B?"), kann sie typischerweise nicht eine relativ komplexe Entscheidung ausführen (z. B. "wenn A, dann gehe zu B, andernfalls gehe zu C"). Und obgleich man in der Lage sein mag, die Pipeline 30 so zu entwerfen, so dass sie eine derartige komplexe Entscheidung ausführen kann, macht die Größe und die Komplexität der erforderlichen Schaltungen ein derartiges Design oft unpraktisch, insbesondere, wenn ein Algorithmus mehrere verschiedene komplexe Entscheidungen beinhaltet.
Demzufolge werden Prozessoren typischerweise in Anwendungen benutzt, die signifikanterweise das Treffen von Entscheidungen benötigen, und festverdrahtete Pipelines sind typischerweise beschränkt auf "Zahlenfresser"-Anwendungen, die wenig oder überhaupt keine Entscheidungsfindung mit sich bringen.
Darüber hinaus ist es, wie untenstehend erörtert, typischerweise sehr viel einfacher für jemanden, eine Prozessorbasierte Rechenmaschine zu entwerfen/zu modifizieren, so wie etwa die Rechenmaschine 10 aus 1, als es ist, eine festverdrahtete Pipeline zu entwerfen/zu modifizieren, wie etwa die Pipeline 30 aus 2, insbesondere, wenn die Pipeline 30 mehrere PLICs umfasst.
Rechenkomponenten, wie etwa Prozessoren und ihre Peripherien (z. B. Speicher) beinhalten typischerweise Kommunikationsinterfaces gemäß Indu striestandards, welche das Verbinden der Komponenten erleichtern, um eine Prozessorbasierte Rechenmaschine zu bilden.
Typischerweise beinhaltet ein standardgemäßes Kommunikationsinterface zwei Ebenen: eine physikalische Ebene und eine Diensteebene.
Die physikalische Ebene beinhaltet die Schaltung und die entsprechenden Schaltungsverbindungen, die das Interface bilden, sowie die Betriebsparameter dieser Schaltungen. Beispielsweise beinhaltet die physikalische Ebene die Anschlussstifte, welche die Komponente mit einem Bus verbinden, die Puffer, die Daten, welche aus den Anschlussstiften abgerufen worden sind, verriegeln, und die Treiber, die Daten an den Anschlussstifte ansteuern. Die Betriebsparameter beinhalten die akzeptablen Spannungsbereiche der Datensignale, welche die Anschlussstifte entgegennehmen, sowie die unterstützten Betriebsmodi (z. B. Signalfolge-Modus, Seitenmodus). Herkömmliche physikalische Ebenen beinhalten Transistor-Transistor Logik (TTL) sowie RAMBUS.
Die Diensteebene beinhaltet das Protokoll, durch welches eine Rechenkomponente Daten überträgt. Das Protokoll legt das Format der Daten und die Art und Weise fest, in welcher die Komponente die formatierten Daten sendet und empfängt. Herkömmliche Kommunikationsprotokolle beinhalten das Dateitransferprotokoll (FTP) und TCP/IP (expandieren).
Demzufolge kann man typischerweise das Interface einer derartigen Komponente entwerfen und es unter relativ kleiner Anstrengung mit anderen Rechnerkomponenten verbinden, da Hersteller und andere typischerweise Computerkomponenten entwerfen, welche Kommunikationsebenen nach Industriestandards aufweisen. Dies ermöglicht es einem, den größten Teil der Zeit dem Entwurf der anderen Teile der Rechenmaschine zu widmen und die Maschine durch Hinzufügen oder Entfernen von Komponenten leicht zu modifizieren.
Das Entwerfen einer Rechnerkomponente, welche eine Kommunikationsebene nach einem Industriestandard unterstützt, erlaubt es einem, Entwicklungszeit durch Verwendung eines Designs für die physikalische Ebene aus ei ner Designbibliothek einzusparen. Dies stellt auch sicher, dass er/sie die Komponente leicht mit handelsüblichen Computerkomponenten verbinden kann.
Und das Entwerfen einer Rechenmaschine unter Verwendung von Computerkomponenten, die eine Kommunikationsebene nach einem gängigen Industriestandard unterstützen, ermöglicht es dem Entwickler, die Komponenten mit wenig Zeit und Anstrengung miteinander zu verbinden. Da die Komponenten eine gängige Interfaceebene unterstützen, kann der Entwickler sie über einen Systembus mit geringem Entwicklungsaufwand miteinander verbinden. Da die unterstützte Interfaceebene ein Industriestandard ist, kann man die Maschine leicht modifizieren. Beispielsweise kann man unterschiedliche Komponenten und Peripheriegeräte zu der Maschine hinzufügen, wenn sich die Systemkonstruktion weiter entwickelt, oder man kann leicht Komponenten der nächsten Generation hinzufügen/entwickeln, wie sich die Technologie fortentwickelt. Darüber hinaus kann man in die Software der Rechenmaschine ein existierendes Softwaremodul aufnehmen, das das entsprechende Protokoll implementiert, da die Komponenten eine Diensteebene unterstützen, die einem gängigen Industriestandard entspricht. Daher kann man die Komponenten mit geringer Anstrengung miteinander verbinden, weil die Entwicklung des Interfaces im Wesentlichen bereits vorhanden ist, und man kann sich daher auf das Entwickeln derjenigen Teile der Maschine konzentrieren (z. B. Software), die dafür verantwortlich sind, dass die Maschine die gewünschten Funktionen/die gewünschte Funktion ausführt.
Aber unglücklicherweise gibt es für Komponenten wie etwa PLICs, die verwendet werden, um festverdrahtete Pipelines, wie etwa die Pipeline 30 aus 2, zu bilden keine bekannten Kommunikationsebenen, die Industriestandards entsprechen.
Demzufolge verbringt man typischerweise eine signifikante Zeitdauer damit, um eine Pipeline zu entwickeln, die mehrere PLICs enthält, und übt eine wesentliche Anstrengung aus, die Kommunikationsebene zwischen den PLICs "von Anfang an" zu entwickeln und von Fehlern zu befreien. Typischerweise hängt eine derartige ad-hoc-Kommunikationsebene von den Parametern der zwischen den PLICs übertragenen Daten ab. In ähnlicher Weise müsste man eine signifikante Menge an Zeit verbringen, um eine Pipeline zu entwerfen, die ein Interface mit einem Prozessor bildet, und eine erhebliche Anstrengung ausüben, um die Kommunikationsebene zwischen der Pipeline und dem Prozessor von Anfang an zu entwerfen und von Fehlern zu befreien.
In ähnlicher Weise verbringt man eine signifikante Zeitdauer, um eine Pipeline durch Hinzufügen eines PLICs zu modifizieren, und wendet eine signifikante Anstrengung auf, um die Kommunikationsebene zwischen dem hinzugefügten PLIC und den bereits bestehenden PLICs zu entwerfen und von Fehlern zu befreien. In ähnlicher Weise müsste man eine signifikante Zeitdauer verbringen und eine erhebliche Anstrengung ausüben, um die Kommunikationsebene zwischen der Pipeline und dem Prozessor zu entwickeln und von Fehlern zu befreien, um eine Pipeline durch Hinzufügen eines Prozessors zu modifizieren, oder um eine Rechenmaschine durch Hinzufügen einer Pipeline zu modifizieren.
Demzufolge ist man beim Konstruieren einer Rechenmaschine unter Bezugnahme auf die 1 und 2 wegen der Probleme beim Herstellen von Interfaces für mehrere PLICs und beim Herstellen von Interfaces zwischen einem Prozessor und einer Pipeline oftmals gezwungen, signifikante Kompromisse einzugehen. Beispielsweise ist man bei einer Prozessorbasierten Rechenmaschine gezwungen, einen Kompromiss zu schließen hinsichtlich Zahlenfresser-Geschwindigkeit gegenüber der Fähigkeit, komplexe Entscheidungen zu treffen, sowie der Flexibilität bei dem Entwurf und der Modifikation. Umgekehrt ist man bei einer Pipeline-basierten Rechenmaschine gezwungen, Kompromisse zwischen der Fähigkeit zur Vornahme komplexer Entscheidungen und der Flexibilität beim Entwickeln/Modifizieren gegenüber der Zahlenfresser-Geschwindigkeit einzugehen. Darüber hinaus ist es oftmals infolge der Probleme beim Herstellen von Interfaces zwischen mehreren PLICs unpraktisch für jemanden, eine Pipeline-basierte Maschine mit mehr als wenigen PLICs zu entwerfen. Im Ergebnis weist eine praktische Pipeline-basierte Maschine oft eine begrenzte Funktionalität auf. Und wegen der Probleme beim Herstellen von Interfaces zwischen einem Prozessor und einem PLIC wäre es unpraktisch, einen Prozessor mit einem Interface zu mehr als einem PLIC zu versehen. Im Ergebnis wären die durch das Kombinieren eines Prozessors und einer Pipeline erzielten Vorteile minimal.
Daher ist ein Bedürfnis nach einer neuen Computerarchitektur entstanden, die es einem ermöglicht, die Fähigkeit einer Prozessorbasierten Maschine, Entscheidungen zu treffen, zu kombinieren mit der Zahlenfresser-Geschwindigkeit einer festverdrahteten Pipeline-basierten Maschine. EP-A-0945788 offenbart ein Datenverarbeitungssystem mit einem digitalen Signalprozessorkern und einem Co-Prozessor, der auf Kommandos von dem Digitalsignalprozessorkern antwortet. Die Anmelderin merkt an, dass die durch den digitalen Signalprozessor gesendeten Kommandos Operationscodes beinhalten, die den Rechentyp festlegen, daher sind die Kommandos Programminstruktionen für den Co-Prozessor, und der Co-Prozessor muss diese Programminstruktionen ausführen, um Ergebnisdaten zu verarbeiten und zu erzeugen. Die Anmelderin merkt ebenfalls an, dass der digitale Signalprozessorkern während des Betriebes die durch den Co-Prozessor verwendeten Daten und Koeffizienten durch Laden der zu verarbeiteten Daten in den Datenspeicher und die Koeffizienten in den Koeffizientenspeicher steuert. Nach der Übertragung der zu verarbeiteten Daten signalisiert der digitale Signalprozessorkern dem Co-Prozessor mit dem Kommando für den gewünschten Signalprozessoralgorithmus. Daher sind die durch den digitalen Signalprozessorkern an den Co-Prozessor gesendeten Kommandos Teil des Programmcodes, der durch den digitalen Signalprozessorkern in dem Prozess des Erzeugens der dem Co-Prozessor zuzuspeisenden Daten ausgeführt wird.
S. Bakshi at al., „Partitioning and Pipelining for Performance-Contraint Hardware/Software Systems", IEEE Trans. an VLSI Systems, Vol. 7, No. 4, Dezember 1999, Seiten 419–432, offenbaren (2) eine mit einer Pipeline versehene Architektur, die aus einem oder mehreren Prozessoren, einem oder mehreren ASICs und einem oder mehreren Speicherchips besteht, die alle über einen oder mehrere Busse kommunizieren. Die Anmelderin merkt an, dass ASICs festverdrahtete Schaltungen sind, die danach nicht mehr (re)konfiguriert werden können. G. Levrieux-Lafayette "Un seul FPGA dope le traitement d'images" Electronique CEP Communication, Paris, Nummer 55, 1996, Seiten 98, 101–103 beschreibt einen "Bildcomputer", der einen Mikroprozessor und einen Co-Prozessor basierend auf einem FPGA aufweist, wobei der FPGA während seines Betriebes rekonfigurierbar ist.
Zusammenfassung
In einer Ausführungsform der Erfindung sind eine Peer-Vektor-Maschine, wie in Anspruch 1 dargelegt, sowie ein Verfahren, wie in Anspruch 7 dargelegt, vorgesehen.
(entfallen)
Da die Peer-Vektor-Maschine sowohl einen Prozessor als auch einen festverdrahteten Pipeline-Beschleuniger umfasst, kann diese Daten oftmals effizienter als eine Rechenmaschine verarbeiten, welche lediglich Prozessoren oder lediglich festverdrahtete Pipelines enthält. Beispielsweise kann man die Peer-Vektor-Maschine entwerfen, so dass der Wirtsprozessor Entscheidungen fällende und nicht rechenintensive Operationen durchführt, wohingegen der Beschleuniger rechenintensive Operationen durchführt. Durch Verschieben der rechenintensiven Operationen an den Beschleuniger kann die Peer-Vektor-Maschine oftmals, bei einer gegebenen Taktfrequenz, Daten mit einer Geschwindigkeit verarbeiten, welche die Geschwindigkeit übertrifft, mit der eine lediglich einen Prozessor aufweisende Maschine die Daten verarbeiten kann.
Kurzbeschreibung der Zeichnungen
1 zeigt ein Blockschaltbild einer Rechenmaschine mit einer herkömmlichen Multiprozessorarchitektur.
2 ist ein Blockschaltbild einer herkömmlichen festverdrahteten Pipeline.
3 ist ein schematisches Blockschaltbild einer Rechenmaschine mit einer Peer-Vektor-Architektur gemäß einer Ausführungsform der Erfindung.
4 ist ein schematisches Blockschaltbild eines elektronischen Systems, welches die Peer-Vektor-Rechenmaschine aus 3 gemäß einer Ausführungsform der Beschreibung verkörpert.
Detaillierte Beschreibung
(unvollständiger Satzbau) ... Beschleuniger 44, welcher mindestens einen Teil der Datenverarbeitung durchführt, und der daher effektiv die Bank der Co-Prozessoren 14 in der Rechenmaschine 10 aus 1 ersetzt. Daher sind der Wirtsprozessor 42 und der Beschleuniger 44 "Peers", die Datenvektoren hin und her übertragen können. Da der Beschleuniger 44 keine Programminstruktionen exekutiert, führt er typischerweise rechenintensive Operationen auf Daten signifikant schneller aus, als eine Bank mit Co-Prozessoren es bei einer gegebenen Taktfrequenz kann. Demzufolge weist die Maschine 40 durch Kombinieren der Fähigkeit des Prozessors 42, Entscheidungen zu fällen, und der Fähigkeit des Beschleunigers 44, Zahlen in großen Mengen rasch zu verarbeiten, dieselben Fähigkeiten einer herkömmlichen Rechenmaschine wie etwa der Maschine 10 auf, aber kann Daten oft schneller verarbeiten als diese. Darüber hinaus erleichtert das Versehen des Beschleunigers 44 mit derselben Kommunikationsebene wie der Wirtsprozessor 42, wie in den vorstehend zitierten Publikationen Nr. 2004/0181621, betitelt "Computing machine having improved computing architecture and related system and method", sowie Nr. 2004/0136241, betitelt "Pipeline accelerator for improved computing architecture and related system and method", erörtert, den Entwurf und die Modifikation der Maschine 40, insbesondere wenn die Kommunikationsebene ein Industriestandard ist. Und wenn der Beschleuniger 44 mehrere Komponenten (z. B. PLICs) beinhaltet, erleichtert das Vorsehen dieser Komponenten mit dieser gleichen Kommunikationsebene den Entwurf und die Modifikation des Beschleunigers, insbesondere wenn die Kommunikationsebene ein Industriestandard ist. Darüber hinaus kann die Maschine 40 auch andere Vorzüge wie untenstehend sowie in den vorstehend zitierten Patentanmeldungen beschrieben, aufbieten.
Zusätzlich zu dem Wirtsprozessor 42 und dem Pipeline-Beschleuniger 44 beinhaltet die Peer-Vektor-Rechenmaschine 40 einen Prozessorspeicher, einen Interfacespeicher 48, einen Bus 50, einen Firmware-Speicher 52, optionale Rohdaten-Eingangsanschlüsse 54 sowie 92 (Anschluss 92 in 4 gezeigt), optionale Ausgangsanschlüsse 58 und 94 (Anschluss 94 in 4 gezeigt) zum Ausgeben verarbeiteter Daten, sowie einen optionalen Router 61.
Der Wirtsprozessor 42 beinhaltet eine Verarbeitungseinheit 62 sowie einen Nachrichten-Handhaber 74, und der Prozessorspeicher 46 beinhaltet einen Speicher 66 der Verarbeitungseinheit sowie einen Speicher 68 des Handhabers, die entsprechend sowohl als Programm- als auch als Arbeitsspeicher für die Prozessoreinheit bzw. für den Nachrichten-Handhaber dienen. Der Prozessorspeicher 46 beinhaltet auch einen Beschleuniger-Konfigurationsregistersatz 70 sowie einen Nachrichten-Konfigurationsregistersatz 72, welche entsprechende Konfigurationsdaten speichern, welche es dem Wirtsprozessor 42 erlauben, die Funktionen des Beschleunigers 44 und die Struktur der Nachrichten, die der Nachrichten-Handhaber 64 erzeugt, zu konfigurieren.
Der Pipeline-Beschleuniger 44 ist auf mindestens einem PLIC (nicht dargestellt) aufgestellt und beinhaltet festverdrahtete Pipelines 74₁ –74_n , welche entsprechende Daten verarbeiten, ohne Programminstruktionen auszuführen. Der Firmware-Speicher 52 speichert die Konfigurations-Firmware für den Beschleuniger 44. Wenn der Beschleuniger 44 auf mehreren PLICs aufgestellt ist, können diese PLICs und ihre entsprechenden Firmware-Speicher auf mehreren gedruckten Schaltungen aufgestellt sein, d. h., auf Tochterkarten (nicht dargestellt). Der Beschleuniger 44 und die Tochterkarten werden weiter in den vorstehend zitierten U.S.-Publikationen Nr. 2004/0136241 betitelt "Pipeline accelerator for improved computing architecture and related system and method", sowie Nr. 2004/0130927 betitelt "Pipeline accelerator having multiple Pipeline units and related computing machine and method" erörtert. Alternativ kann der Beschleuniger 44 auf mindestens einem ASIC aufgestellt sein und daher interne Verbindungen aufweisen, die nicht konfigurierbar sind. In dieser Alternative kann die Maschine 40 den Firmware-Speicher 52 fortlassen. Darüberhinaus kann diese lediglich eine einzige Pipeline beinhalten, obgleich der Beschleuniger 44 als mehrere Pipelines 74 enthaltend gezeigt ist.
Immer noch auf 3 Bezug nehmend, wird der Betrieb der Peer-Vektor-Maschine 40 untenstehend gemäß einer Ausführungsform der Erfindung erörtert.
Die Peer-Vektor-Maschine konfigurieren
Wenn die Peer-Vektor-Maschine 40 am Anfang aktiviert wird, konfiguriert die Verarbeitungseinheit 62 den Nachrichten-Handhaber 64 sowie den Pipeline-Beschleuniger 44 (wenn der Beschleuniger konfigurierbar ist), so dass die Maschine den gewünschten Algorithmus ausführen wird. Insbesondere führt die Verarbeitungseinheit 62 ein Wirtsapplikationsprogramm aus, das in dem Speicher 66 gespeichert ist und welches bewirkt, dass die Verarbeitungseinheit den Nachrichten-Handhaber 64 sowie den Beschleuniger 44 wie unten stehend erörtert konfiguriert.
Um den Nachrichten-Handhaber 64 zu konfigurieren, ruft die Verarbeitungseinheit 62 Nachrichtenformat-Informationen aus dem Registersatz 72 ab und liefert diese Formatinformationen an den Nachrichten-Handhaber, welcher diese Informationen in dem Speicher 68 abspeichert. Wenn die Maschine 40 die Daten wie untenstehend erörtert verarbeitet, verwendet der Nachrichten-Handhaber 64 diese Formatinformation, um Datennachrichten zu erzeugen und zu entschlüsseln, die ein gewünschtes Format aufweisen. In einer Ausführungsform sind die Formatinformationen in der erweiterbaren Auszeichnungssprache (XML) aufgeschrieben, obgleich diese auch in einer anderen Sprache oder in einem anderen Datenformat niedergeschrieben werden können. Da die Verarbeitungseinheit 62 den Nachrichten-Handhaber 64 jedes Mal konfiguriert, wenn die Peer-Vektor-Maschine 40 aktiviert wird, kann man das Nachrichtenformat durch bloßes Modifizieren der in dem Registersatz 72 gespeicherten Formatinformationen verändern. Alternativ kann eine externe Nachrichtenkonfigurationsbibliothek (nicht dargestellt) Informationen für mehrere Nachrichtenformate speichern, und man kann die Wirtsanwendung entwerfen und/oder modifizieren, so dass die Verarbeitungseinheit 62 den Registersatz 72 von ausgewählten Teilen der Bibliothek aktualisiert und dann die gewünschten Formatinformationen von dem aktualisierten Registersatz in den Nachrichten-Handhaber 64 herunterlädt. Das Nachrichtenformat und das Erzeugen und Entschlüsseln der Nachrichten werden untenstehend sowie in der vorstehend zitierten U.S.-Publikation Nr. 2004/0181621 , betitelt "Computing machine having improved computing architecture and related system and method", erörtert.
In ähnlicher Weise ruft die Verarbeitungseinheit 62 zum Konfigurieren des Verbindungslayout des Pipeline-Beschleunigers 44 die Konfigurations-Firmware aus dem Registersatz 70 ab und lädt die Firmware über den Nachrichten-Handhaber 64 und den Bus 50 in den Speicher 52 herunter. Der Beschleuniger 44 konfiguriert sich dann selbst durch Herunterladen der Firmware aus dem Speicher 52 in seine Verbindungskonfigurationsregister (nicht dargestellt). Da die Verarbeitungseinheit 62 den Beschleuniger 44 jedes Mal konfiguriert, wenn die Peer-Vektor-Maschine 40 aktiviert wird, kann man das Verbindungslayout und daher die Funktion des Beschleunigers 44 durch bloßes Modifizieren der in dem Registersatz 70 gespeicherten Firmware verändern. Alternativ kann eine externe Beschleunigerkonfigurationsbibliothek (nicht dargestellt) Firmware für mehrere Konfigurationen des Beschleunigers 44 speichern, und man kann die Wirtsapplikation entwerfen und/oder modifizieren, so dass die Verarbeitungseinheit 62 den Registersatz 70 aus den ausgewählten Teilen der Bibliothek heraus aktualisiert und dann die gewünschte Firmware aus dem aktualisierten Registersatz in den Speicher 52 herunterlädt. Darüber hinaus kann die externe Bibliothek oder der Registersatz 70 Firmware-Module speichern, die unterschiedliche Teile und/oder Funktionen des Beschleunigers 44 festlegen. Daher kann man diese Module verwenden, um den Entwurf und/oder die Modifikation des Beschleunigers 44 zu erleichtern. Darüber hinaus kann die Verarbeitungseinheit 62 diese Module verwenden, um den Beschleuniger 44 zu modifizieren, während die Maschine 40 Daten verarbeitet. Die Verbindungskonfiguration des Beschleunigers 44 und die Firmware-Module werden weiter in der vorstehend zitierten U.S.-Publikation Nr. 2004/017007 , betitelt "Programmable circuit and related computing machine and method", erörtert.
Die Verarbeitungseinheit 62 kann den Pipeline-Beschleuniger 44 auch "weich konfigurieren", während die Peer-Vektor-Maschine 40 Daten verarbeitet. D. h., die Verarbeitungseinheit 62 kann die Funktion des Beschleunigers 44 konfigurieren, ohne das Verbindungslayout des Beschleunigers zu verändern. Eine derartige weiche Konfiguration wird im Folgenden sowie in der U.S.-Publikation Nr. 2004/0136241 , betitelt "Pipeline accelerator for improved computing architecture and related system and method", weiter erläutert.
Verarbeiten von Daten mit der Peer-Vektor-Maschine
Im Allgemeinen teilt die Peer-Vektor-Maschine 40 das Verarbeiten der Rohdaten wirksam zwischen dem Wirtsprozessor 42 und dem Pipeline-Beschleuniger 44 auf. Beispielsweise kann der Wirtsprozessor 42 die meisten oder sogar alle der auf die Daten Bezug nehmenden Entscheidungsoperationen ausführen, und der Beschleuniger 44 kann die meisten oder alle der rechenintensiven Operationen auf den Daten vornehmen. Die Maschine 40 kann die Datenverarbeitung jedoch auf jegliche gewünschte Art und Weise aufteilen.
Betrieb des Wirtsprozessors
In einer Ausführungsform empfängt der Wirtsprozessor 42 die Rohdaten von einer entfernt angeordneten Vorrichtung, wie etwa einer Sonar-Anordnung, und liefert die resultierenden verarbeiteten Daten an dieses (4).
Der Wirtsprozessor 42 empfängt zuerst die Rohdaten von der entfernt angeordneten Vorrichtung über den Eingangsanschluss 54 oder den Bus 50. Die Peer-Vektor-Maschine 40 kann ein FIFO (nicht dargestellt) zum Puffern der empfangenen Rohdaten beinhalten.
Dann bereitet die Verarbeitungseinheit 62 die Rohdaten für die Verarbeitung durch den Pipeline-Beschleuniger 44 vor. Beispielsweise kann die Einheit 62 z. B. feststellen, welche der Rohdaten zu dem Beschleuniger 44 zu übermitteln sind oder in welcher Reihenfolge die Rohdaten zu übermitteln sind. Oder die Einheit 62 kann die Rohdaten verarbeiten, um Zwischendaten zum Übertragen an den Beschleuniger 44 zu erzeugen. Die Vorbereitung der Rohdaten wird weiter erörtert in der vorstehend zitierten U.S.-Publikation Nr. 2004/0181621 , betitelt "Computing machine having improved computing architecture and related system and method".
Beim Vorbereiten der Rohdaten kann die Verarbeitungseinheit 54 auch ein oder mehrere "Soft-Konfigurations"-Kommando(s) erzeugen, um die Funktion des Beschleunigers 44 zu modifizieren. Im Gegensatz zu der Firmware, welche das Verbindungslayout des Beschleunigers 44 konfiguriert, wenn die Maschine 40 aktiviert wird, steuert ein Soft-Konfigurations-Kommando die Funktion des Beschleunigers, ohne sein Verbindungslayout zu verändern. Beispielsweise kann ein Soft-Konfigurations-Kommando die Größe der Datenreihungen (z. B. 32 bit oder 64 bit) steuern, welche der Beschleuniger 44 verarbeitet. Die Soft-Konfiguration des Beschleunigers 44 wird weiter in der vorstehend zitierten U.S.-Publikation Nr. 2004/0136241 , betitelt "Pipeline accelerator for improved computing architecture and related system and method", erörtert.
Die Verarbeitungseinheit 62 lädt dann die vorbereiteten Daten und/oder Soft-Konfigurations-Kommandos) in eine entsprechende Stelle des Interfacespeichers 48, welcher als ein FIFO-Puffer zwischen der Einheit 62 und dem Beschleuniger 44 agiert.
Dann ruft der Nachrichten-Handhaber 64 die vorbereiteten Daten und/oder Software-Kommandos) aus dem Interfacespeicher 48 ab und erzeugt Nachrichten-Objekte, die die Daten und/oder Kommando(s) sowie dazu gehörige Informationen beinhalten. Typischerweise benötigt der Beschleuniger 44 vier Identifizierer, die die Daten/Kommando(s) sowie die dazu gehörigen Informationen (insgesamt "Informationen") beschreiben: a) Der beabsichtigte Zielort (z. B. die Pipeline 74₁ ) der Informationen, b) die Priorität (z. B. soll der Beschleuniger die Daten vor oder nach zuvor empfangenen Daten verarbeiten), c) die Länge oder das Ende des Nachrichten-Objektes und d) die eindeutige Instanz der Daten (z. B. Sensorsignal Nr. 9 aus einer Anordnung von 1000 Sensoren). Um diese Festlegung zu erleichtern, erzeugt der Nachrichten-Handhaber 64 Nachrichten-Objekte, welche wie vorstehend erörtert ein vorbestimmtes Format aufweisen. Zusätzlich zu den vorbereiteten Daten/Soft-Konfigurations-Kommando(s), beinhaltet ein Nachrichten-Objekt typischerweise einen Nachrichten-Kopf, welcher die vier vorstehend beschriebenen Identifizierer beinhaltet und der auch Identifizierer beinhalten kann, die den Typ der Informationen beschreiben, welche das Objekt beinhaltet (z. B. Daten, Kommando), sowie den Algorithmus, durch welchen die Daten zu verarbeiten sind. Dieser letztere Identifizierer ist nützlich, wenn die Zielpipeline 74 mehrere Algorithmen implementiert. Der Handhaber 64 kann die Informationen des Nachrichten-Kopfes aus dem Interfacespeicher 48 abrufen oder er kann den Nachrichten-Kopf basierend auf dem Ort innerhalb des Interfacespeichers, von welchem es die vorbereiteten Daten oder Kommando(s) abruft, erzeugen. Durch Entschlüsseln des Nachrichten-Kopfes kann der Router 61 und/oder der Beschleuniger 44 die Informationen innerhalb des Nachrichten-Objektes an den gewünschten Zielort schicken und bewirken, dass der Zielort die Informationen in einer gewünschten Reihenfolge verarbeitet.
Es existieren alternative Ausführungsformen zum Erzeugen der Nachrichten-Objekte. Beispielsweise kann ein einzelnes Nachrichten-Objekt sowohl Daten als auch ein Kommando oder mehrere Kommandos beinhalten, obgleich jedes Nachrichten-Objekt als entweder Daten oder ein Soft-Konfigurations-Kommando beinhaltend beschrieben ist. Darüber hinaus kann der Nachrichten-Handhaber 64 die Daten und Kommandos direkt aus der Verarbeitungseinheit 54 abrufen, obgleich er als die Daten und Kommandos aus dem Interfacespeicher 48 abrufend beschrieben ist.
Die Erzeugung von Nachrichten-Objekten wird weiter in der vorstehend zitierten U.S.-Publikation Nr. 2004/0181621 , betitelt "Computing machine having improved computing architecture and related system and method", erörtert.
Der Pipeline-Beschleuniger
Der Pipeline-Beschleuniger 44 empfängt und entschlüsselt die Nachrichten-Objekte von dem Nachrichten-Handhaber 64 und richtet diese Daten und/oder Kommandos in den Objekten wirksam an den gewünschten Zielort/an die gewünschten Zielorte. Diese Technik ist insbesondere nützlich, wenn die Zahl der durch die Verarbeitungseinheit 62 und der Pipelines 74 implementierten Algorithmen relativ klein ist und daher der Router 61 fortgelassen werden kann. Alternativ empfängt und entschlüsselt der Router 61 die Nachrichten-Objekte von dem Nachrichten-Handhaber 64, wenn die Anzahl der durch die Verarbeitungseinheit 62 implementierten Algorithmen oder die Anzahl der Pipeline 74 relativ groß ist, und schickt die Daten und/oder Kommandos in dem Objekt wirksam an den gewünschten Zielort/an die gewünschten Zielorte innerhalb des Beschleunigers 44.
In einer Ausführungsform, in der es eine kleinere Anzahl von Verarbeitungseinheits-Algorithmen und Pipelines 74 gibt, empfängt jede Pipeline gleichzeitig ein Nachrichten-Objekt und analysiert den Nachrichten-Kopf, um festzustellen, ob sie ein beabsichtigter Empfänger der Nachricht ist. Wenn das Nachrichten-Objekt für eine bestimmte Pipeline 74 gedacht ist, dann entschlüsselt diese Pipeline die Nachricht und verarbeitet die abgerufenen Daten/Kommando(s). Wenn das Nachrichten-Objekt jedoch nicht für eine bestimmte Pipeline 74 gedacht ist, dann ignoriert diese Pipeline das Nachrichten-Objekt. Nehmen wir beispielsweise an, ein Nachrichten-Objekt beinhaltet Daten zum Verarbeiten durch die Pipeline 74₁ . Daher analysiert die Pipeline 74₁ den Nachrichten-Kopf, stellt fest, dass sie ein beabsichtigter Zielort für die Daten ist, ruft die Daten aus der Nachricht ab und verarbeitet die abgerufenen Daten. Umgekehrt analysiert jede der Pipelines 74₂ –74_n den Nachrichten-Kopf, stellt fest, dass sie nicht ein beabsichtigter Zielort für die Daten ist, und ruft daher die Daten nicht ab und verarbeitet sie nicht. Wenn die Daten innerhalb des Nachrichten-Objektes für mehrere Pipelines 74 beabsichtigt sind, dann erzeugt und sendet der Nachrichten-Handhaber 64 eine Sequenz entsprechender Nachrichten-Objekte, welche dieselben Daten beinhalten; eine Nachricht für jede Zielort-Pipeline. Alternativ kann der Nachrichten-Handhaber 64 die Daten durch Aussenden eines einzigen Nachrichten-Objektes, welches einen Nachrichten-Kopf hat, der alle Zielort-Pipelines identifiziert, gleichzeitig an alle der Zielort-Pipelines 74 senden. Das Abrufen von Daten und Soft-Konfigurations-Kommandos von Nachrichten-Objekten wird weiter in der vorstehend zitierten U.S.-Publikation Nr. 2004/0136241 , betitelt "Pipeline accelerator for improved computing architecture and related system and method", erörtert.
In einer anderen Ausführungsform, in der es eine große Anzahl von Verarbeitungseinheit-Prozessen oder Pipelines 74 gibt, empfängt jede Pipeline Nachrichten-Objekte von dem Router 61. Obgleich der Router 61 idealerweise Nachrichten-Objekte lediglich an die Zielpipeline 74 senden sollte, analysiert die Zielpipeline immer noch den Nachrichten-Kopf, um festzustellen, ob sie eine beabsichtigte Empfängerin der Nachricht ist. Eine derartige Analyse identifiziert mögliche Nachrichten-Routing-Fehler, d. h., Ausnahmen [exceptions]. Wenn das Nachrichten-Objekt für die Zielpipeline 74 beabsichtigt ist, dann entschlüsselt diese Pipeline die Nachricht und verarbeitet die abgerufenen Daten/Kommando(s). Wenn jedoch das Nachrichten-Objekt nicht für die Zielpipeline 74 bestimmt ist, dann ignoriert diese Pipeline das Verarbeiten jenes Nachrichten-Objektes und kann auch eine neue Nachricht an den Wirtsprozessor 42 aussenden, die angibt, dass eine Routing-Ausnahme aufgetreten ist. Die Handhabung von Routing-Ausnahmen wird in der vorstehend zitierten U.S.-Publikation Nr. 2004/0181621 , betitelt "Computing machine having improved computing architecture and related system and method", erörtert.
Danach verarbeitet der Pipeline-Beschleuniger 44 die aus den Nachrichten-Objekten abgerufenen hereinkommenden Daten und/Kommandos.
Für die Daten führt die Zielpipeline oder führen die Zielpipelines 74 eine entsprechende Operation oder Operationen auf den Daten aus. Wie im Zusammenhang mit 2 erörtert, können sie oftmals die Daten mit einer Rate verarbeiten, die im Wesentlichen gleich der Frequenz des Pipelinetaktes ist, weil die Pipelines 74 keine Programm-Instruktionen ausführen.
In einer ersten Ausführungsform erzeugt eine einzelne Pipeline 74 Ergebnisdaten durch Verarbeiten der hereinkommenden Daten.
In einer zweiten Ausführungsform erzeugen mehrere Pipelines 74 Ergebnisdaten durch serielles Verarbeiten der hereinkommenden Daten. Beispielsweise kann die Pipeline 74 erste Zwischendaten durch Ausführen einer ersten Operation auf den hereinkommenden Daten erzeugen. Danach kann die Pipeline 74₂ zweite Zwischendaten durch Ausführen einer zweiten Operation auf den ersten Zwischendaten erzeugen, usw., bis die Endpipeline 74 in der Kette die Ergebnisdaten erzeugt.
In einer dritten Ausführungsform erzeugen mehrere Pipelines 74 die Ergebnisdaten durch parallele Verarbeitung der hereinkommenden Daten. Beispielsweise kann die Pipeline 74₁ eine erste Menge von Ergebnisdaten durch Ausführen einer ersten Operation auf einer ersten Menge hereinkommender Daten erzeugen. Zur gleichen Zeit kann die Pipeline 74₂ eine zweite Menge von Ergeb nisdaten durch Ausführen einer zweiten Operation auf einer zweiten Menge der hereinkommenden Daten erzeugen, usw. usf.
Alternativ können die Pipelines 74 Ergebnisdaten aus den hereinkommenden Daten gemäß irgendeiner Kombination der vorstehenden drei Ausführungsformen erzeugen. Beispielsweise kann die Pipeline 74₁ eine erste Menge von Ergebnisdaten durch Ausführen einer ersten Operation auf einer ersten Menge hereinkommender Daten erzeugen. Zur gleichen Zeit können die Pipelines 74₂ und 74_n eine zweite Menge von Ergebnisdaten durch serielles Ausführen zweiter und dritter Operationen auf einer zweiten Menge der hereinkommenden Daten erzeugen.
In irgendeiner beliebigen der vorstehenden Ausführungsformen und Alternativen kann eine einzelne Pipeline 74 mehrere Operationen ausführen. Beispielsweise kann die Pipeline 74₁ Daten entgegennehmen, erste Zwischendaten durch Ausführen einer ersten Operation auf den entgegengenommenen Daten erzeugen, die ersten Zwischendaten vorübergehend abspeichern, zweite Zwischendaten durch Ausführen einer zweiten Operation auf den ersten Zwischendaten erzeugen, usw., bis sie die Ergebnisdaten erzeugt. Es gibt eine Anzahl von Techniken zum Bewirken, dass die Pipeline 74₁ von der Ausführung der ersten Operation auf das Ausführen der zweiten Operation usw. umschaltet. Derartige Techniken werden in der vorstehend zitierten U.S. Patentanmeldung mit der Anmeldenummer 10/683929, betitelt "Pipeline accelerator for improved computing architecture and related system and method" (Anwalts-Fristenüberwachungsnummer 1934-13-3), erörtert.
Der Beschleuniger 44 stellt für ein Soft-Konfigurations-Kommando die Bits in dem entsprechenden Soft-Konfigurationsregister/in den entsprechenden Soft-Konfigurationsregistern (nicht dargestellt) ein, wie es in dem Nachrichten-Kopf angegeben ist. Wie vorstehend erörtert, ändert das Einstellen dieser Bits typischerweise die Funktion des Beschleunigers 44, ohne dessen Verbindungslayout zu ändern. Dies ist ähnlich dem Einstellen von Bits in einem Steuerungsregister eines Prozessors, beispielsweise zum Einstellen eines externen Anschlussstiftes als einen Eingangsstift oder als einen Ausgangsstift oder zum Auswählen eines Adressierungsmodus. Darüber hinaus kann ein Soft-Konfigu rations-Kommando ein Register oder eine Tabelle (eine Anordnung von Registern) zum Halten von Daten partitionieren. Ein anderes Soft-Konfigurations-Kommando oder eine durch den Beschleuniger 44 ausgeführte Operation kann Daten in das soft-konfigurierte Register oder in die soft-konfigurierte Tabelle hereinladen. Die Soft-Konfiguration des Beschleunigers 44 wird weiterhin in der vorstehend zitierten U.S.-Publikation Nr. 2004/0136241 , betitelt "Pipeline accelerator for improved computing architecture and related system and method" (Anwalts-Fristenüberwachungsnummer 1934-13-3), erörtert.
Danach liefert der Pipelinebeschleuniger 44 die Ergebnisdaten über den Router 61 (oder direkt, falls der Router fortgelassen ist) an den Wirtsprozessor 42 zur weiteren Verarbeitung.
Alternativ liefert der Beschleuniger 44 die Ergebnisdaten an den entfernt angeordneten Zielort (5) entweder direkt über den Ausgangsanschluss 94 (4) oder indirekt über den Router 61 (falls vorhanden), den Bus 50, den Wirtsprozessor 42 und den Ausgangsanschluss 58. Demzufolge sind die durch den Beschleuniger 44 generierten Ergebnisdaten in dieser alternativen Ausführungsform die verarbeiteten Enddaten.
Wenn der Beschleuniger 44 die resultierenden Daten an den Wirtsprozessor 42 liefert – entweder zur weiteren Verarbeitung oder zum Durchreichen an die entfernt angeordnete Vorrichtung (4) – sendet er diese Daten in einem Nachrichten-Objekt, welches dasselbe Format wie die durch den Nachrichten-Handhaber 64 erzeugten Nachrichten-Objekte aufweist. Ähnlich den durch den Nachrichten-Handhaber 64 erzeugten Nachrichten beinhalten die durch den Beschleuniger 44 erzeugten Nachrichten-Objekte Nachrichtenköpfe, die z. B. den Zielort und die Priorität der resultierenden Daten spezifizieren. Beispielsweise kann der Nachrichten-Kopf den Nachrichten-Handhaber 64 anweisen, die resultierenden Daten über den Anschluss 58 an die entfernt angeordnete Vorrichtung weiterzureichen oder er kann angeben, welcher Teil des durch die Verarbeitungseinheit 62 ausgeführten Programmes das Verarbeiten der Daten steuern soll. Unter Verwendung desselben Nachrichtenformates weist der Beschleuniger 44 dieselbe Interfaceebene wie der Wirtsprozessor 42 auf. Dies er leichtert den Entwurf und das Modifizieren der Peer-Vektor-Maschine 40, insbesondere, wenn die Interfaceebene ein Industriestandard ist.
Die Struktur und der Betrieb des Pipeline-Beschleunigers 44 und der Pipelines 66 werden weiterhin in der vorstehend zitierten U.S.-Publikation Nr. 2004/0136241 , betitelt "Pipeline accelerator for improved computing architecture and related system and method" (Anwalts-Fristenlistennummer 1934-13-3), erörtert.
Empfangen und Verarbeiten von dem Pipeline-Beschleuniger mit dem Wirtsprozessor
Wenn er ein Nachrichten-Objekt von dem Beschleuniger 44 entgegennimmt, entschlüsselt der Nachrichten-Handhaber 64 zuerst den Nachrichten-Kopf und schickt die abgerufenen Daten an den angegebenen Zielort.
Wenn der Nachrichten-Kopf anzeigt, dass die Daten über den Anschluss 58 an die entfernt angeordnete Vorrichtung (4) weiterzureichen sind, dann kann der Nachrichten-Handhaber 64 die Daten direkt an den Anschluss 58 oder an einen Anschluss-FIFO-Puffer (nicht dargestellt) liefern, der in dem Interfacespeicher 48 oder in einem anderen Speicher gebildet ist, und dann von dem Puffer an den Anschluss 58. Mehrfache Anschlüsse 58 und mehrfache entsprechende entfernt angeordnete Vorrichtungen werden ebenfalls in Betracht gezogen.
Wenn der Nachrichten-Kopf jedoch anzeigt, dass die Verarbeitungseinheit 62 die Daten weiterverarbeiten soll, dann speichert der Nachrichten-Handhaber 64 die Daten in einer Stelle des Interfacespeichers 48, welche dem Teil des Programmes der Verarbeitungseinheit entspricht, das die Verarbeitung der Daten steuern soll. Genauer gesagt, derselbe Nachrichten-Kopf gibt nun indirekt an, welcher Teil/welche Teile des durch die Verarbeitungseinheit 54 ausgeführten Programmes die Verarbeitung der Daten steuern soll/sollen. Demzufolge speichert der Nachrichten-Handhaber 64 die Daten an der Stelle (wie etwa ein FIFO) des Interfacespeichers 48 entsprechend diesem Programmteil.
Wie vorstehend erörtert, agiert der Interfacespeicher 48 als ein Puffer zwischen dem Beschleuniger 44 und der Verarbeitungseinheit 62 und erlaubt somit die Übertragung von Daten, wenn die Verarbeitungseinheit nicht mit dem Beschleuniger synchronisiert ist. Dieser Mangel an Synchronisation kann beispielsweise auftreten, wenn der Beschleuniger 44 Daten schneller als die Verarbeitungseinheit 62 verarbeitet. Durch Verwenden des Interfacespeichers 48 wird der Beschleuniger 44 nicht durch die langsamere Antwort der Verarbeitungseinheit 62 ausgebremst. Dies vermeidet auch die mit der unbestimmten Antwortzeit der Verarbeitungseinheit beim Verarbeiten von Unterbrechungen verknüpften Ineffizienznachteile. Die nicht ermittelbare Handhabung von Ausgangsnachrichten des Beschleunigers 44 durch die Verarbeitungseinheit 62 würde unnötigerweise den Entwurf des Beschleunigers durch Erzwingen verkomplizieren, dass der Entwerfer entweder a) Speicher und Handhabung für sicherheitsgespeicherte Ausgangsnachrichten vorsieht oder b) Untätigkeitssteuerungen über die Pipeline hinweg vorsieht, um zu verhindern, dass die sicherheitsgespeicherten Nachrichten überschrieben werden. Daher weist die Verwendung des Interfacespeichers 48, welcher als ein Puffer zwischen dem Beschleuniger 44 und der Verarbeitungseinheit 62 agiert, verschiedene wünschenswerte Konsequenzen auf: a) Beschleuniger sind leichter zu entwerfen, b) Beschleuniger benötigen weniger Infrastruktur und können größere PLIC-Applikationen halten, c) Beschleuniger können stromlinienförmiger gestaltet werden, um schneller zu laufen, da die Ausgangsdaten nicht durch einen langsameren Prozessor "blockiert" werden.
Danach ruft die Verarbeitungseinheit 62 Daten, welche der Nachrichten-Handhaber 64 in dem Interfacespeicher 48 gespeichert hat, aus dem Interfacespeicher ab. Die Verarbeitungseinheit 62 kann den Interfacespeicher 48 abfragen, um festzustellen, wenn neue Daten an einer bestimmten Stelle angekommen sind, oder der Nachrichten-Handhaber 64 kann eine Unterbrechung oder ein anderes Signal erzeugen, welches die Verarbeitungseinheit von der Ankunft der Daten benachrichtigt. In einer Ausführungsform erzeugt der Nachrichten-Handhaber 64 ein Nachrichten-Objekt, welches die Daten enthält, bevor die Verarbeitungseinheit 62 Daten abruft. Genauer gesagt, man kann das durch die Verarbeitungseinheit 62 ausgeführte Programm entwerfen, um Daten in Nach richten-Objekten entgegenzunehmen. Der Nachrichten-Handhaber 64 könnte daher ein Nachrichten-Objekt in dem Interfacespeicher 48 speichern, anstelle lediglich die Daten zu speichern. Aber ein Nachrichten-Objekt beansprucht typischerweise mehr Speicherplatz, als es die Daten tun, welche es enthält. Demzufolge entschlüsselt der Nachrichten-Handhaber 64 ein Nachrichten-Objekt von dem Pipeline-Beschleuniger 44, um Speicher zu sparen, speichert die Daten in dem Speicher 48 und regeneriert dann das Nachrichten-Objekt gewissermaßen, wenn die Verarbeitungseinheit 62 bereit ist, die Daten entgegenzunehmen. Dann entschlüsselt die Verarbeitungseinheit 62 das Nachrichten-Objekt und verarbeitet die Daten unter der Steuerung des in dem Nachrichten-Kopf identifizierten Programmteils.
Danach verarbeitet die Prozessoreinheit 62 die entgegengenommenen Daten unter der Steuerung des Zielteils des Programms, erzeugt verarbeitete Daten und speichert die verarbeiteten Daten an einer Stelle des Interfacespeichers 48, die dem beabsichtigten Zielort der verarbeiteten Daten entspricht.
Danach nimmt der Nachrichten-Handhaber 64 die verarbeiteten Daten entgegen und liefert diese an den angegebenen Zielort. Um die verarbeiteten Daten abzurufen, kann der Nachrichten-Handhaber 64 den Speicher 48 abfragen, um festzustellen, ob Daten angekommen sind, oder die Verarbeitungseinheit 62 kann den Nachrichten-Handhaber von dem Eintreffen der Daten mit einer Unterbrechung oder einem anderen Signal unterrichten. Um die verarbeiteten Daten an deren beabsichtigten Zielort zu liefern, kann der Nachrichten-Handhaber 64 ein Nachrichten-Objekt erzeugen, welches die Daten enthält, und kann das Nachrichten-Objekt zurück an den Beschleuniger 44 für eine weitere Verarbeitung der Daten senden. Oder, der Handhaber 56 kann die Daten an den Anschluss 58 senden, oder an eine andere Stelle des Speichers 48 durch eine weitere Verarbeitung durch die Verarbeitungseinheit 62.
Das Entgegennehmen und Verarbeiten von Daten von dem Pipeline-Beschleuniger 44 durch den Wirtsprozessor wird weiterhin in der vorstehend zitierten U.S.-Publikation Nr. 2004/0181621 , betitelt "Computing machine having improved computing architecture and related system and method" (Anwalts-Fristenüberwachungssystemnummer 1934-12-3), erörtert.
Alternative Datenverarbeitungstechniken unter Verwendung der Peer-Vektor-Maschine
Immer noch auf 3 Bezug nehmend, bestehen Alternativen zu den vorstehend beschriebenen Ausführungsformen, in welchen der Wirtsprozessor 44 Daten entgegennimmt und verarbeitet und dann die Daten an den Pipeline-Beschleuniger 44 zum weiteren Verarbeiten sendet.
In einer Alternative führt der Wirtsprozessor 44 das gesamte Verarbeiten von mindestens einigen Daten durch und sendet daher diese Daten nicht an den Pipeline-Beschleuniger 44 zur weiteren Verarbeitung.
In einer anderen Alternative empfängt der Pipeline-Beschleuniger 44 die Rohdaten über den Anschluss 92 (4) direkt von der entfernt angeordneten Vorrichtung (4) und verarbeitet die Rohdaten. Der Beschleuniger 44 kann dann die verarbeiteten Daten direkt über den Anschluss 94 an die entfernt angeordnete Vorrichtung zurücksenden, oder kann die verarbeiteten Daten an den Wirtsprozessor 42 zur weiteren Verarbeitung senden. Im letztgenannten Fall kann der Beschleuniger 44 die Daten in Nachrichten-Objekten, wie vorstehend erörtert, einkapseln.
In einer weiteren Alternative kann der Beschleuniger 44 zum Ergänzen der Zahlenfresser-Fähigkeiten der Pipelines zusätzlich zu den festverdrahteten Pipelines 74 einen instruktionsausführenden Prozessor oder mehrere instruktionsausführende Prozessoren, wie etwa einen digitalen Signalprozessor (DSP) beinhalten.
Beispielimplementation der Peer-Vektor-Maschine
Immer noch auf 3 Bezug nehmend, ist der Pipeline-Bus 50 in einer Ausführungsform ein Standard 133 MHz PCI-Bus, wobei die Pipelines 74 in einer Standard-PMC-Karte oder in mehreren Standard-PMC-Karten enthalten sind, und der Speicher 52 ist ein Flash-Speicher oder mehrere Flash-Speicher, der/die jeweils auf einer entsprechenden PMC-Karte angeordnet ist/sind.
Beispielanwendung der Peer-Vektor-Maschine
4 ist ein Blockschaltbild eines Sonarsystems 80, das die Peer-Vektor-Maschine 40 aus 3 gemäß einer Ausführungsform der Erfindung verkörpert. Zusätzlich zu der Maschine 40 beinhaltet das System 80 eine Anordnung 82 von Sende-Empfänger-Elementen 84₁ –84_n zum Empfangen und Aussenden von Sonar-Signalen, Digital-Analog-Wandler (DACs) 86₁ –86_n , Analog-Digital-Wandler (ADCs) 88₁ –88_n sowie ein Dateninterface 90. Da das Generieren und Verarbeiten von Sonarsignalen häufig rechenintensive Funktionen sind, kann die Maschine 40 oftmals diese Funktionen schneller und effizienter als eine herkömmliche Rechenmaschine – so wie die Mehrprozessormaschine 10 (1) – bei einer gegebenen Taktfrequenz wie vorstehend im Zusammenhang mit 3 erörtert – ausführen.
Während eines Sendebetriebsmodus sendet die Anordnung 82 ein Sonarsignal in ein Medium wie etwa Wasser (nicht dargestellt). Zuerst konvertiert die Peer-Vektor-Maschine 40 Rohdatensignale, die auf dem Anschluss 92 empfangen worden sind, in n Digitalsignale, eines für jedes der Elemente der Anordnung 84. Die Größen und Phasen dieser Signale legen das Sendestrahl-Muster der Anordnung 82 fest. Dann liefert die Maschine 40 diese digitalen Signale an das Interface 90, welches diese Signale an die entsprechenden DACs 86 für die Umwandlung in entsprechende Analogsignale liefert. Beispielsweise kann das Interface 90 als ein Puffer agieren, der seriell die Digitalsignale von der Maschine 40 entgegennimmt, diese Signale speichert, bis es alle n von ihnen empfängt und puffert, und dann gleichzeitig diese sequenziellen Signalabtastungen an die entsprechenden DACs 86 liefert. Dann wandeln die Sende-Empfänger-Elemente 84 diese Analogsignale in entsprechende Schallwellen, welche miteinander interferieren, um die Leitstrahlen eines Sonarsignals zu bilden.
Während eines Empfangsbetriebsmodus empfängt die Anordnung 82 ein Signal von dem Medium (nicht dargestellt). Das empfangene Sonarsignal ist zusammengesetzt aus dem Teil des gesendeten Sonarsignals, das durch entfernt angeordnete Objekte reflektiert wird, und der Schallenergie, die durch die Umgebung und die entfernt angeordneten Objekte emittiert wird. Zuerst empfangen die Sendeempfängerelemente 84 entsprechende Schallwellen, die das Sonarsignal bilden, wandeln diese Schallwellen in n Analogsignale um und liefern diese Analogsignale an die ADCs 88 zur Umwandlung in n entsprechende Digitalsignale. Danach liefert das Interface 90 diese Digitalsignale zur Verarbeitung an die Peer-Vektor-Maschine 40. Beispielsweise kann das Interface 90 als ein Puffer agieren, welcher die Datensignale von den ADCs 88 parallel entgegennimmt und dann diese Signale seriell an die Maschine 40 liefert. Die Verarbeitung, welche die Maschine 40 auf den Signaldaten vornimmt, legt das Muster des empfangenen Strahles der Anordnung 82 fest. Weitere Verarbeitungsschritte, wie etwa Filterung, Bandverschiebung, spektrale Transformation (z. B. die Fourier-Transformation) und Faltung werden auf die Digitalsignale angewendet. Die Maschine 40 liefert dann die verarbeiteten Signaldaten über den Anschluss 94 an eine andere Apparatur, wie etwa eine Anzeigevorrichtung zum Betrachten georteter Objekte.
Obgleich im Zusammenhang mit dem Sonarsystem 80 diskutiert, können andere Systeme, die nicht Sonarsysteme sind, ebenso die Peer-Vektor-Maschine 40 verkörpern.
Die vorstehende Erörterung wird vorgelegt, um es einem Fachmann zu ermöglichen, die Erfindung nachzuarbeiten und zu verwenden. Verschiedene Modifikationen der Ausführungsformen werden Fachleuten leicht ersichtlich sein, und die echten Prinzipien darin können auf andere Ausführungsformen und Anwendungen übertragen werden. Daher ist es nicht beabsichtigt, dass die vorliegende Erfindung auf die gezeigten Ausführungsformen beschränkt ist, sondern sie ist auszulegen in dem breitesten Schutzbereich, der mit den Prinzipien und Merkmalen, die hierin offenbart sind, verträglich ist.

Claims

Peer-Vektor-Maschine (40), aufweisend: einen Wirtsprozessor (42), der zum Ausführen eines Programmes betreibbar ist und der, in Abhängigkeit von dem Programm, betreibbar ist, um erste Wirtsdaten zu generieren; einen Pipelinebeschleuniger (44) mit mindestens einer festverdrahteten Pipeline, wobei der Pipelinebeschleuniger mit dem Wirtsprozessor (42) gekoppelt und betreibbar ist, um die ersten Wirtsdaten entgegenzunehmen und erste Pipeline-Daten aus den ersten Wirtsdaten zu erzeugen, wobei mindestens ein Teilbereich des Pipelinebeschleunigers konfigurierbare interne Zusammenschaltungen aufweist, und einen Firmwarespeicher (52), der zum Speichern einer Konfigurations-Firmware zum Konfigurieren der internen Zusammenschaltungen betreibbar ist, dadurch gekennzeichnet, dass die Peer-Vektor-Maschine (40) ferner aufweist: eine mit dem Wirtsprozessor (42) gekoppelte und zum Speichern der Konfigurations-Firmware getrennt von dem Programm betreibbare Beschleunigerkonfigurations-Registratur (70), wobei der Wirtsprozessor (42) betreibbar ist, um die Konfigurations-Firmware aus der Registratur (70) entgegenzunehmen und den Pipelinebeschleuniger (44) zum Generieren der ersten Pipelinedaten durch Bereitstellen der Konfigurations-Firmware an den Pipelinebeschleuniger vor dem Ausführen des Programmes durch Laden der Konfigurations-Firmware in den Firmwarespeicher zu konfigurieren, einen einzelnen Bus (50) zum Ermöglichen von Kommunikation zwischen dem Wirtsprozessor und dem Pipelinebeschleuniger, und wobei der Wirtsprozessor und der Pipelinebeschleuniger über eine Nachricht kommunizieren, welche die ersten Wirtsdaten und einen Nach richtenkopf beinhaltet, welcher die beabsichtigte festverdrahtete Zielpipeline der Daten enthält.
Peer-Vektor-Maschine (40) nach Anspruch 1, wobei der Wirtsprozessor (40) ferner betreibbar ist, um: zweite Daten entgegenzunehmen; und die ersten Wirtsdaten aus den zweiten Daten zu generieren.
Peer-Vektor-Maschine (40) nach irgendeinem der vorstehenden Ansprüche, wobei der Wirtsprozessor (42) ferner betreibbar ist, um: erste Pipeline-Daten aus dem Pipelinebeschleuniger entgegenzunehmen; und die ersten Pipeline-Daten zu verarbeiten.
Peer-Vektor-Maschine (40) nach irgendeinem der vorstehendem Ansprüche, ferner aufweisend: einen mit dem Wirtsprozessor (42) und dem Pipelinebeschleuniger (40) gekoppelten und einen ersten Speicherabschnitt aufweisenden Interface-Speicher (48); wobei der Wirtsprozessor (42) betreibbar ist, um die ersten Wirtsdaten in dem ersten Speicherabschnitt zu speichern, und die ersten Wirtsdaten aus dem ersten Speicherabschnitt dem Pipelinebeschleuniger (44) bereitzustellen.
Peer-Vektor-Maschine (40) nach irgendeinem der vorstehenden Ansprüche, ferner aufweisend: einen mit dem Wirtsprozessor (42) und dem Pipelinebeschleuniger (44) gekoppelten und einen ersten Speicherabschnitt und einen zweiten Speicherabschnitt aufweisenden Interface-Speicher (48); wobei der Wirtsprozessor (42) betreibbar ist, um: die ersten Wirtsdaten in dem ersten Speicherabschnitt zu speichern, die in dem ersten Speicherabschnitt gespeicherten Wirtsdaten dem Pipelinebeschleuniger (44) bereitzustellen, die ersten Pipeline-Daten von dem Pipelinebeschleuniger (44) entgegenzunehmen, die ersten Pipeline-Daten in dem zweiten Speicherabschnitt zu speichern, die ersten Pipeline-Daten aus dem zweiten Speicherabschnitt für den Wirtsprozessor (42) abzurufen, und die ersten Pipeline-Daten zu verarbeiten.
Verfahren, aufweisend: Erzeugen erster Wirtsdaten durch Ausführen eines Programmes auf einem Wirtsprozessor (42); Erzeugen erster Pipeline-Daten aus den ersten Wirtsdaten mit einem Pipelinebeschleuniger (44), der mindestens eine festverdrahtete Pipeline aufweist und mit dem Wirtsprozessor gekoppelt ist; gekennzeichnet durch Entgegennehmen von Pipelinebeschleuniger-Konfigurationsinformationen, die vom Programm getrennt sind, von einer Registratur (70), die mit dem Wirtsprozessor (42) gekoppelt ist, und Konfigurieren des Pipelinebeschleunigers (44) zum Erzeugen der ersten Pipeline-Daten durch Bereitstellen der Konfigurationsinformation für den Pipelinebeschleuniger durch den Wirtsprozessor (42) vor dem Ausführen des Programmes, wobei das Bereitstellen der Konfigurationsinformationen das Laden der Konfigurationsinformationen in einen Firmwarespeicher einschließt, welcher betreibbar ist, um die Konfigurationsinformationen zum Konfigurieren interner Zusammenschaltungen des Pipelinebeschleunigers zu speichern, und wobei das Erzeugen der ersten Pipeline-Daten das Senden einer Nachricht einschließlich der ersten Wirtsdaten und eines die beabsichtigte festverdrahtete Zielpipeline enthaltenden Nachrichtenkopfes über einen einzelnen Bus (50) an den Pipelinebeschleuniger beinhaltet.
Verfahren nach Anspruch 6, wobei das Erzeugen der ersten Wirtsdaten das Erzeugen der ersten Wirtsdaten aus durch den Pipelinebeschleuniger (44) generierten zweiten Pipeline-Daten beinhaltet.
Verfahren nach Anspruch 6 oder 7, ferner aufweisend das Generieren von zweiten Wirtsdaten aus den ersten Pipeline-Daten durch Ausführen des Programmes auf dem Wirtsprozessor (42).