CN117111693A - 一种服务器机箱系统、服务器机箱系统设计方法及设备 - Google Patents
一种服务器机箱系统、服务器机箱系统设计方法及设备 Download PDFInfo
- Publication number
- CN117111693A CN117111693A CN202311042976.0A CN202311042976A CN117111693A CN 117111693 A CN117111693 A CN 117111693A CN 202311042976 A CN202311042976 A CN 202311042976A CN 117111693 A CN117111693 A CN 117111693A
- Authority
- CN
- China
- Prior art keywords
- server
- main board
- connector
- network switch
- power panel
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 21
- 238000013461 design Methods 0.000 claims description 12
- 238000004891 communication Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 8
- 238000011156 evaluation Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 4
- 238000011161 development Methods 0.000 description 7
- 238000004519 manufacturing process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000003860 storage Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000003750 conditioning effect Effects 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000000712 assembly Effects 0.000 description 1
- 238000000429 assembly Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 239000000084 colloidal system Substances 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000012938 design process Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000004744 fabric Substances 0.000 description 1
- 230000017525 heat dissipation Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 229920002492 poly(sulfone) Polymers 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000008054 signal transmission Effects 0.000 description 1
- 238000003466 welding Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04Q—SELECTING
- H04Q1/00—Details of selecting apparatus or arrangements
- H04Q1/02—Constructional details
- H04Q1/08—Frames or mounting racks for relays; Accessories therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/18—Packaging or power distribution
- G06F1/183—Internal mounting support structures, e.g. for printed circuit boards, internal connecting means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F1/00—Details not covered by groups G06F3/00 - G06F13/00 and G06F21/00
- G06F1/16—Constructional details or arrangements
- G06F1/18—Packaging or power distribution
- G06F1/189—Power distribution
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Power Engineering (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Cooling Or The Like Of Electrical Apparatus (AREA)
Abstract
本申请涉及一种服务器机箱系统、服务器机箱系统设计方法及设备。系统包括:第一服务器主板、第二服务器主板和若干插槽,第一服务器主板上设置GPU数量大于第二服务器主板上设置GPU数量;信号中继设备位于第二服务器主板上;包括第一连接装置与第二连接装置,信号中继设备通过第一连接装置与至少一个外部通用服务器连接,且通过第二连接装置分别与第一服务器主板和第二服务器主板连接;电源板上包括多个冗余电源,第一电源板设置在服务器机箱底层;第二电源板设置在第一电源板上;第二电源板、第一服务器主板与第二服务器主板同层设置。本申请能够有效提升系统的稳定性,使服务器的稳定运行,提升服务器产品的竞争力。
Description
技术领域
本申请涉及服务器架构技术领域,特别是涉及一种服务器机箱系统、服务器机箱系统设计方法及设备。
背景技术
随着信息技术的发展,服务器应用的场景越来越多,除了高性能以外,高可靠性是衡量服务器的重要指标,其中,供电系统的可靠性尤其重要,可以说供电系统稳定性是服务器稳定运行的根基。
由于信息的数量也呈现爆炸式的增长。作为信息存储和服务的载体-存储和服务器的数量也在不断地增加。这样一来,便会对各类数据中心机箱的空间提出了要求。由于数据中心的空间很难再次进行扩充。因此需要对信息的载体-存储和服务器进行高密度布署,以求充分利用机箱的空间。这样,单个机柜中可以布置更多的刀片节点,但是这样对机柜供电部分的结构空间及供电功率提出了更高要求。为了能够进一步的节省机柜空间,提供足够的电源供电功率,同时兼顾供电的可靠性。本申请提出了一种服务器机箱系统。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效提升系统的稳定性,保证服务器的稳定运行的服务器机箱系统、服务器机箱系统设计方法及设备。
为了解决上述技术问题,第一方面,提供一种服务器机箱系统,系统包括:
服务器主板,服务器主板上第一服务器主板、第二服务器主板以及若干插槽,第一服务器主板上设置的GPU数量大于第二服务器主板上设置的GPU数量;
信号中继设备,信号中继设备位于第二服务器主板上;
连接装置,连接装置包括第一连接装置与第二连接装置,信号中继设备通过第一连接装置与至少一个外部通用服务器连接;
信号中继设备通过第二连接装置分别与第一服务器主板以及第二服务器主板连接;
电源板,电源板上包括多个冗余电源,电源板包括第一电源板以及第二电源板,第一电源板设置在服务器机箱底层;第二电源板设置在第一电源板上;第二电源板、第一服务器主板与第二服务器主板同层设置。
在其中一个实施例中,信号中继设备通过第一连接装置与至少一个外部通用服务器连接包括:
信号中继设备通过第一连接器与外部通用服务器通信连接,或,
信号中继设备通过第一连接器、网络交换机与外部通用服务器通信连接。
在其中一个实施例中,网络交换机是服务器的关键板卡,网络交换机的第一端连接第一连接器,网络交换机的第二端连接外部通用服务器,
在其中一个实施例中,若干插槽包括第一插槽组以及第二插槽组;第一服务器主板包括主控制器以及第一插槽组;第二服务器主板包括若干网络交换机以及若干第一连接装置。
在其中一个实施例中,第一服务器主板上的第一插槽组通过第二连接装置与网络交换机连接;第二插槽组通过第二连接器与网络交换机连接;
其中,第二插槽组设置在服务器主板的外侧固定于服务器机箱的内壁上。
在其中一个实施例中,服务器机箱系统还包括:时钟发生器、缓冲器以及串阻;
时钟发生器位于第一主板上,用于接收外部时钟信号以及本地时钟信号;
串阻包括第一串阻以及第二串阻,第一串阻的第一端与时钟发生器的输出端连接,第一串阻的第二端与缓冲器的输入端相连;第二串阻的第一端与时钟发生器的输出端连接,第二串阻的第二端与第一连接器相连;
缓冲器至少包括第一缓冲器输出端以及第二缓冲器输出端,第一缓冲器输出端与信号中继设备相连,第二缓冲器输出端与若干插槽相连;
其中,时钟发生器输入时钟信号经串阻至缓冲器进行处理,得到处理后的时钟信号;
将处理后的时钟信号通过第一缓冲器输出端输入网络交换机中以及将处理后的时钟信号通过第二缓冲器输出端输入若干插槽中。
在其中一个实施例中,服务器机箱系统还包括:串行通信总线,串行通信总线包括多个信号引脚,第一信号引脚通过线缆连接至多个外部通用服务器的控制器上,第二信号引脚通过网络交换机连接至服务器主板上的多个GPU上;串行通信总线用于采集服务器机箱系统所在服务器机箱的机箱温度、机箱风扇转速、机箱电压。
为了解决上述技术问题,第二方面,提供了一种服务器机箱系统设计方法,方法包括:
提供配置选择界面;
响应于获取到第一连接器的ID与第一连接器位置信息的对应关系,显示装置显示第一连接器的ID与第一连接器位置信息的对应关系;
获取用户选择的配置匹配服务器主板、网络交换机以及连接装置的数量和规格;
响应于服务器主板、网络交换机以及连接装置的数量和规格存在多种可选方案,自动选取符合预设条件的方案;
响应于用户所需的配置未呈现于配置选择界面,则用户备注指定配置,以定制化生成配置方案;
根据定制化配置方案组装服务器机箱并对该服务器机箱进行可行性评估与验证,以保证在定制配置要求下的出厂质量。
在其中一个实施例中,获取第一连接器的ID与第一连接器位置信息的对应关系包括:
通过GPIO读值或I2C读值的方法,获取CDFP的ID与CDFP位置信息的对应关系。
为了解决上述技术问题,第三方面,提供了一种服务器机箱设备,包括一种服务器机箱本体和如上述任一实施例中的服务器机箱系统。
区别于现有技术,本发明的服务器机箱系统包括第一服务器主板以及第二服务器主板,信号中继设备位于第二服务器主板上,且信号中继设备通过第一连接装置与至少一个外部通用服务器连接,并且信号中继设备通过第二连接装置分别与第一服务器主板以及第二服务器主板连接;与现有技术中,利用一个服务器主板去承载多个设备的情况相比,本申请利用两块服务器主板共同承担多个设备的结构设计,将两个服务器主板通过连接器进行连接,并且将外部通用服务器设置在服务器机箱的外侧,可以使服务器机箱内部留有充足的空间去布置其它设备,达到缩减横向空间的效果,使得小空间的服务器机箱能够支持更多的设备运行,利于实现服务器的多主机共享分配,且本申请的服务器机箱系统的电源板上包括有多个冗余电源,将电源板分为第一电源板以及第二电源板,并且设置两个电源板之间层叠设置,可以在有限的空间内实现多个冗余电源的配置,可以提升服务器供电的可靠性,进而实现服务器系统的高可用性。
附图说明
图1为一个实施例中服务器机箱系统的结构示意图;
图2为另一个实施例中服务器机箱系统的结构示意图;
图3为一个实施例中网络交换机的结构示意图;
图4为一个实施例中时钟系统结构示意图;
图5为一个实施例中服务器机箱设备的内部结构图;
图6为另一个实施例中服务器机箱设计方法的流程示意图。
说明书附图标记说明:
102、机箱;10.、服务器主板;11、第一服务器主板;12、第二服务器主板;13、信号中继设备;20、连接装置;21、第一连接装置;22、第二连接装置;23、第一连接器;24、第二连接器;25、第三连接器;26、网络交换机;30、电源板;31、第一电源板;32、第二电源板;40、若干插槽;41、第一插槽组;42、第二插槽组;50、时钟发生器;51、第一串阻;52、第二串阻;53、缓冲器。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
随着技术的不断进步,数据量越发庞大,计算量日益复杂,由于摩尔定律、功率墙和功耗墙的限制,处理器从单核到多核的发展不断加快,GPU、加速卡等各种方向的加速器不断涌现,使得高密计算和异构计算成为今后高性能计算的主流。
计算资源池化中,削弱处理器和GPU或加速卡等的耦合关系,是一种有效提高异构计算效率的方法。计算资源池化要求有大规模的计算单元组合,例如服务器机箱;服务器机箱可以单独作为一个计算资源池,也可以多个服务器机箱组合,服务器机箱没有中央处理器,是多个GPU或加速卡组成的盒子,GPU之间的距离近,搭配网卡能提高在计算规模大、计算要求高的应用场景下的计算效率。
而现有技术中,一般是将CPU(中央处理器)与GPU或加速卡在同一个服务器机箱内,GPU或加速卡通过riser卡(转接卡)与主板连接,大多数为一机两卡或一机四卡的方式。但是这种方式设计的服务器机箱可容纳的GPU数量有限;并且GPU占用服务器机箱内部空间较多,对服务器机箱内其他部件有较大影响。
为了解决上述问题,本申请提供了一种服务器机箱系统,服务器机箱系统包括:服务器主板,服务器主板包括第一服务器主板、第二服务器主板以及若干插槽,第一服务器主板上设置的GPU数量大于第二服务器主板上设置的GPU数量;信号中继设备,信号中继设备位于第二服务器主板上;连接装置,连接装置包括第一连接装置与第二连接装置,信号中继设备通过第一连接装置与至少一个外部通用服务器连接;信号中继设备通过第二连接装置分别与第一服务器主板以及第二服务器主板连接;电源板,电源板上包括多个冗余电源,电源板包括第一电源板以及第二电源板,第一电源板设置在服务器机箱底层;第二电源板设置在第一电源板上;第二电源板、第一服务器主板与第二服务器主板同层设置。如此,本申请能够实现服务器的多主机共享分配并且实现服务器系统的高可用性。
实施例一
本公开的实施例中,存在如图1所示的服务器机箱系统100,服务器机箱系统100包括用于容纳服务器机箱系统100的各种部件的机箱102。机箱102是用于装载或安装诸如一个或多个主板组件等部件的标准化框架或外壳。服务器机箱系统100包括可安装/安装到机箱102的服务器主板10、以及可耦合/耦合到服务器主板10上的处理器。服务器机箱系统100还包括安装在服务器主板上的多个信号中继设备13。连接装置20通过信号中继设备13连接服务器主板10以及外部通用服务器。电源板30用于提服务器机箱系统或网络设备所需的所有电力,确保设备能够正常运行。
服务器主板10包括第一服务器主板11以及第二服务器主板12,其上用于安装服务器主板上10的各种组件,包括若干插槽40用于配置处理器以及散热器。处理器可以是GPU,用于执行计算密集型任务,实现大数据的高性能计算和数据分析等功能。散热器可以直接耦合到处理器上以支持其冷却。其中,第一服务器主板11上设置的GPU数量大于第二服务器主板12上设置的GPU数量。示例性的,本公开的服务器主板支持16GPU,那么第一服务器主板上的GPU数量可以为6个,第二服务器主板上的GPU数量可以为10个,相较于现有技术中将GPU全部放置在一个服务器主板上,本公开的设置还可以应用于小空间的服务器机箱中,使得小空间的服务器机箱也可以支持更多的服务器。
第二服务器主板12上还设置有多个信号中继设备13。可选的,信号中继设备13可以为Retimer卡,Retimer卡属于信号调理(Signal Conditioning)芯片,作用是信号均衡和增强作用。其类似于一个PHY芯片,信号在经过Retimer卡的时候,通过Retimer卡内部的时钟重构信号,能够增加信号传输能量,然后再继续传输,能够提高服务器机箱系统的可靠性。
为了支持服务器主板10到外部通用设备的上述耦合,本公开还包括有连接装置20以及若干插槽。连接装置20包括第一连接装置21与第二连接装置22。第一连接装置21包括若干第一连接器23,第二连接装置22包括第二连接器24以及第三连接器25。示例性的,第一连接器23可以为x16的CDFP连接器、第二连接器24可以为带宽为x32的连接器,第三连接器可25以为MCID连接器。当然,本公开中的连接器可以为其它类型连接器,具体可以根据实际情况自行配置。
若干插槽40包括第一插槽组41以及第二插槽组42。第一插槽组41位于第一服务器主板11上,第二插槽组42位于服务器主板10的外侧,固定于靠近服务器风扇的位置的服务器机箱内侧。与传统的将插槽放置在服务器主板10上的方式相比,本申请中,将服务器机箱系统中的部分插槽设置在服务器主板10外侧,利于提高服务器主板10上的GPU部署的密度,并且散热更优。
在具体的实施方式中,第一插槽组41用于配置多个处理器,可以理解的是一个插槽对应一个处理器。多个处理器通过第二连接器24与第二服务器主板上12的多个信号中继设备13连接,信号中继设备13通过第一连接装置21与至少一个外部通用服务器连接。
第二插槽组42通过第三连接器25与第二服务器主板12上的多个信号中继设备13连接,信号中继设备13进而通过第一连接装置21与至少一个外部通用服务器连接。
也即是,将多个GPU的芯片布置在两个服务器主板上,两个服务器主板之间通过第二连接器24进行连接,使得连接装置的拓扑的设计方式更加灵活,服务器机箱的可用的空间增大。而且利用两块服务器主板共同承担多个GPU的结构设计,将两个服务器主板通过连接器进行连接,可以达到缩减横向空间的效果,从而大大减小单个服务器主板的横向尺寸,对于4U及以下高度的机箱的服务器来说,也会降低桥接器及桥接线缆的维护成本。
电源板30上设置有多个冗余电源。电源板30包括第一电源板31以及第二电源板32。其中第一电源板31设置在服务器机箱底层,第二电源板32设置在第一电源板31上;第二电源板32、第一服务器主板11与第二服务器主板12同层设置。
其中,冗余电源具体可以为胶体蓄电池,冗余电源是用于服务器中的一种电源,是由两个完全一样的电源组成,由芯片控制电源进行负载均衡,当一个电源出现故障时,另一个电源马上可以接管其工作,在更换电源后,又是两个电源协同工作。冗余电源是为了实现服务器系统的高可用性。
示例性的,在一实施方式中,服务器的机箱架构为设计分为上层、中层、以机下层三层。
其中,第一电源板为与服务器机箱的下层,第二电源板32、第一服务器主板11、位置于服务器机箱的中层,服务器机箱的上层包括服务器的PSU(热插拔组件等),热插拔组件可以在不用关闭电源的情况下插入或拔除支持热插拔的周边装置,不会导致主机或周边装置烧毁并且能够实时侦测及运行新的装置。
示例性的,如图2所示,以独立的4U高度的服务器机箱为例进行叙述,在具体的实施方式中,位于服务器机箱底层的第一电源板可以包括4个高度为1U的冗余电源;在服务器机箱中层,可选的,服务器机箱中层的两侧可以分别放置第一服务器主板11以及第二服务器主板12,在第一服务器主板11以及第二服务器主板12中间形成有空间,该空间可以放置第二电源主板32,图中示出的第二电源板32的结构为层叠的两个高度为1U的冗余电源,服务器机箱的上层包括热插拔组件等。在该实施方式中,可以做到电源3+3冗余,即使任意3个冗余电源坏掉,服务器仍能正常工作。大大提高了服务器运行的可靠性。
可以理解的是,本申请的服务器的机箱架构也可以适用于6U、8U高度等等的服务器机箱中。
在通常的服务器电源中,结构尺寸为1U高度的电源一般采用非冗余的结构,而改进后的1U电源采用多个冗余电源的冗余方式。这样一来,便可以实现在有限的空间,提升服务器供电可靠性,采用高密度的电源设计方式可以增加电源的能量密度,在有限的空间提供更大的供电功率。
随着人工智能的发展,深度学习在人工智能领域的应用越来越广泛,应用市场对GPU(Graphics Processing Unit,图形处理器)服务器机箱的需求越来越大,因此,对服务器机箱的设计成为目前炙手可热的项目。服务器机箱内上集成有大量的GPU模块,用于对大量数据的处理与计算,具有优越的性能。但是现有技术中,一般是将通用服务器直连到AIC卡上,这种方式的系统拓扑更简单,但是不能做到多主机共享及动态分配规模扩大。
在一较佳的实施方式中,本申请还包括网络交换机26,网络交换机26是服务器的关键板卡,网络交换机26的第一端连接第一连接器23,网络交换机26的第二端连接外部通用服务器。信号中继设备13可以通过第一连接器21、网络交换机26与外部通用服务器通信连接。
具体地,网络交换机26可以为PCIE Switch芯片,PCIE Switch芯片的主要作用为扩展从计算节点传输来的PCIE信号,以实现对GPU板的互联和管理,同时扩展出4个标准的PCIE插槽用于挂接网卡等PCIE设备。PCIE Switch芯片可以将1个x8带宽的PCIE端口扩展为4个x2的PCIE端口,其中每个PCIE端口都可以挂接EP(网卡、显卡等设备)。除此之外,PCIE总线还可以使用PCIE桥,将PCIE总线转换为PCI总线或PCI-X总线,之后挂接PCI或PCI-X设备。
在一具体的实施方式中,第二服务器主板上12的信号中继设备13可以通过第一连接器23连接网络交换机26,再通过网络交换机26与外部通用服务器连接。通过网络交换机26可以扩展外接端口,进而连接更多的外接设备,以实现多主机共享机动态分配。
优选的,这里的网络交换机26与外部通用服务器都位于服务器机箱的外部,这样,可以使服务器机箱内部留有充足的空间去布置其它设备,例如可以是进行电源板的布置。
本申请的网络交换机26分别与通用服务器(Host端)和设备端(device端)连接,且网络交换机26之间互相连接使得若干设备端构成资源池,通过PCIE Switch级联的树状、网络结构拓扑或冗余拓扑的方式,可以实现通用服务器的扩展和互联。
示例性的,本公开的实施例中,存在如图2所示的网络交换机结构,本公开中通过网络交换机26(PCIE Switch芯片)之间在fabric拓扑模式下组成网络结构拓扑,进而构成PCIE资源池,使得CPU可以在各资源得到释放后,调用所有Switch下的PCIE资源,可以在多路CPU下挂载的PCIE Switch之间实现资源相互调用。
具体地,如图3所示,网络交互机26采用两级网络交互机设计,一级网络交互机包括网络交换机0、网络交换机1、网络交换机2、网络交换机3。二级网络交互机包括网络交换机4、网络交换机5、网络交换机6、网络交换机7。一级网络交换机的上行端口分别与多个外部通用服务器连接,二级网络交换机的下行端口分别与第一服务器主板上的多个GPU连接,且第一网络交换机与第二网络交换机之间的每个网络交换机之间互联,使得网络交换机下挂载的设备构成资源池,让多路外部通用服务器下挂载的网络交换机芯片之间资源可以相互调用。
其中,网络交换机之间的连接可以是通过I2C总线,对网络交换机进行两两互联,可以实现对网络交换机下行端口挂载设备的初始化、链接、侦测设备和枚举以及注册访问的协议,为下行端口挂载设备提供了非连贯的加载/存储接口。
通过上述实施方式,可以使得所有的设备端构成资源池之后(图中PCIE Switch为多个PCIE Switch模块互联),每一个设备端都可以通过PCIE Switch模块被主机端调用,并且一个主机端可以同时调用多个设备端。
在一实施方式中,本公开的服务器机箱系统还包括:时钟发生器以及缓冲器;缓冲器至少包括第一缓冲器输出端以及第二缓冲器输出端;时钟发生器输入时钟信号至缓冲器进行处理,得到处理后的时钟信号;将处理后的时钟信号通过第一缓冲器输出端输出端输入网络交换机中以及将处理后的时钟信号通过第二缓冲器输出端输入若干插槽中。
请参阅图4,本公开中存在如图4所示的时钟系统,所述时钟系统中主要包括时钟发生器50、串阻以及缓冲器53。
时钟发生器50可以接收为外部时钟信号以及本地时钟信号,示例性的,服务器主板上的外部时钟信号以及处理器上的本地时钟信号与时钟发生器的输入端相连。时钟发生器50的输出端用于输出PCIE总线的时钟输出,示例性的,多个PCIE总线的时钟输出可以为100MHz.时钟发生器可以为符合CK440规范的时钟发生器,具体可以为9SQ440型号的时钟发生器,该型号的时钟发生器符合PCIE Gen5标准,它具备共20个差分输出及卓越的抖动性能——小于50fs RMS的PCIE Gen5通用时钟相位抖动,以满足从简单的单板双插槽到复杂的模块化多插槽系统等各种拓扑结构的时钟要求,可以为客户提供更大设计灵活性和裕量。
串阻包括第一串阻51以及第二串阻52,第一串阻51的第一端与时钟发生器50的输出端连接,第一串阻51的第二端与缓冲器53的输入端相连;第二串阻52的第一端与时钟发生器50的输出端连接,第二串阻52的第二端与第一连接器23相连;
缓冲器53至少包括第一缓冲器输出端以及第二缓冲器输出端。时钟发生器50的输出端可以与第一串阻51的第一端连接,第一串阻51的第二端与缓冲器的输入端相连,第一缓冲器输出端与信号中继设备13相连,第二缓冲器输出端与若干插槽相连。其中,当若干插槽配置多个处理器时,缓冲器53的第二缓冲器输出端则与多个处理器相连,拥有接收本地的时钟信号。可以将可以理解的是,本公开中的处理器的个数可根据实际情况自行扩展需要连接的处理器数量。
可选的,第一串阻51以及第二串阻52可以为相同型号的串阻,也可以为不同型号的串阻。
优选的,第一串阻51可以为0ohm串阻,第二串阻52可以为EMPTY串阻,通过在时钟链路上述焊接串阻,在信号源阻抗低,与信号线不匹配的情况下,串上串阻后,可以改善匹配情况,避免振荡。并且串阻可以跟信号线的分布电容以及负载的输入电容形成回路,可以降低信号边沿的陡峭程度。从而减少高频噪声以及过冲等现象。
示例性的,缓冲器53可以为buffer芯片,通过buffer芯片的频率复制功能,可以做到点到点的拓扑结构,很好的解决信号完整性问题,做到最佳性价比。
可以理解的是,时钟选择器50的可以与服务器机箱系统的第一主板的主控制器相连,通过配置跳帽等硬件进行控制,也可以通过控制模块等软件进行控制,例如,通过CPLD输出GPIO来控制,第一连接器通过写入程序输出GPIO来控制时钟选择器。
请参阅图5,如图5所示,本公开的服务器机箱系统100包括一种服务器机箱本体102并应用在权利要求上述实施例中的服务器机箱系统100。
实施例二
在一个实施例中,如图6所示,提供了一种服务器机箱设计方法200,可以应用于如上述第一方面所述的服务器机箱系统100的设计过程,包括:
S210:提供配置选择界面;
在本实施例中,由于不同的用户主体需要的服务器机箱系统100配置不同,为了便于各个用户的配置选择,在设计前期对于用户可能会选择的多种配置进行评估和可行性验证,并将验证可行的配置提供至配置选择界面,以在满足用户的配置需求的同时方便后期产品的组装和出厂,节省后续生产时间。
S220:响应于获取到第一连接器的ID与第一连接器位置信息的对应关系,显示装置显示所述第一连接器的ID与第一连接器位置信息的对应关系。
在本实施例中,能够根据用户在配置选择界面选择的配置自动生成配置方案,其包括与所需配置相匹配的服务器主板10、信号中继设备13、连接装置、电源板30网络交换机26以及其他零部件如线缆等的数量和规格,从而便于后期生产人员能够直接根据自动生成的配置方案对目标服务器机箱系统100进行组装和生产,提高组装、生产效率。
同时,针对于一些硬件(如服务器主板10、信号中继设备13、连接装置、电源板30网络交换机26等)的数量和规格存在多种可选方案的情况,可以自动选取符合预设条件的方案,并生成对应的配置方案。预设条件可以为成本条件或者主机最大化方案等等条件,即当存在多种方案时,可以选择成本较低的方案生成配置方案;或者预设条件可以为主机最大化方案条件,即当存在多种方案时,可以选择能够配置更多主机的的方案生成配置方案。可以理解的是,上述的预设条件也可以为其他条件,如重量、尺寸等,其可以根据实际情况进行调整,在本实施例中不作限定。
S230:获取用户选择的配置匹配服务器主板、网络交换机以及连接装置的数量和规格。
S240:响应于服务器主板、网络交换机以及连接装置的数量和规格存在多种可选方案,自动选取符合预设条件的方案。
S250:响应于用户所需的配置未呈现于配置选择界面,则用户备注指定配置,以定制化生成配置方案。
在实际应用中,用户在进行配置选择时,用户需要的部分硬件可能会在配置选择界面中没有提供,且用户不想替换为其他等同的硬件时,用户可以选择将该硬件要求进行备注,以便于设计人员了解用户的真正需求还能够满足客户的配置需要,从而满足用户的多元化需求。
S260:根据定制化配置方案组装服务器机箱并对该服务器机箱进行可行性评估与验证,以保证在定制配置要求下的出厂质量。
在一个实施例中,服务器设计方法200还可以包括,开发工程师可以根据用户备注的指定配置进行初步评估,即评估指定硬件是否能够与现有的其他硬件进行兼容,以确保服务器机箱系统100工作的稳定性。当开发工程师进行初步评估后,可以搭配能够满足其兼容要求的线缆等硬件生成定制化配置方案,以便于后期的组装和生产。
在本实施例中,通过根据生成的配置方案进行组装服务器机箱系统100,能够有效节省组装和生产的时间,提高生产效率。
在一实施方式中,本申请中可以通过服务器机箱系统100还包括:串行通信总线,串行通信总线包括多个信号引脚,第一信号引脚通过线缆连接至多个外部通用服务器的控制器上,第二信号引脚通过网络交换机连接至服务器主板上的多个GPU上;串行通信总线用于采集服务器机箱系统所在服务器机箱的机箱温度、机箱风扇转速、机箱电压。第一服务器主板11上主控制器(BMC)通过GPIO读值或I2C读值的方法,获取CDFP的ID与CDFP位置信息的对应关系,并且可以通过I2C总线的方式对服务器机箱的温度、风扇转速以及电压等进行监测和管理,同时监测GPU的运行状态。
具体的,第一连连接器23上设置有外部通用服务器的I2C总线与信号中继设备13上的I/O接口连接;I/O接口是主机与被控对象进行信息交换的纽带。主机通过I/O接口与外部设备进行数据交换。服务器机箱本地的I2C总线也同时连接到信号中继设备13的I/O接口上。其中,每一信号中继设备都有多个I/O接口。外部通用服务器的控制器通过I2C总线读取每一信号中继设备上每一I/O接口的ID值,通过ID值可以读取到与信号中继设备13每一I/O接口连接的每一第一连接器的位置信息、属性信息等等。在通过每一第一连接器与外部通用服务器的对应关系,得到外部通用服务器与信号中继设备13上每一I/O接口的对应关系。外部通用服务器的控制器将该对应关系上传到服务器机箱系统本地的主服务器。需要的说明的是这里的服务器机箱系统上的每一处理器都对应一个第一连接器,通过得到每一处理器与每一第一连接器的对应关系以及得到外部通用服务器与信号中继设备13上每一I/O接口的对应关系,能够实现处理器的带外管理。
在实际应用中,可以通过GPIO读值或I2C读值的方法,获得每一信号中继设备上每一I/O接口的高低电平信号。
GPIO(General Purpose Input/Output Port,通用输入输出端口)是芯片的一些引脚。作为输入端口时,我们可以通过它们读入引脚的状态-高电平或低电平,作为输出端口时,我们可以通过它们输出高电平或低电平来控制连接的外部设备,GPIO读值的方式可以利用系统底层自带的GPIO驱动执行,无需独立进行开发,可以节约成本。
在另一实施方式中,可以通过I2C读值的方式每一信号中继设备上每一I/O接口的高低电平信号。具体地,可以通过主板连接的I2C驱动芯片获取每一信号中继设备上每一I/O接口应答信号;解析每一接口应答信号,得到每一信号中继设备上每一I/O接口对应的数组。
I2C是一种非常常见的通信协议,通过I2C驱动芯片应用该协议,I2C由数据线SDA和时钟线SCL两条双向信号线组成,CPU利用串行时钟线发出时钟信号,利用串行数据线发送或者接受数据。SDA线传输数据是大端传输(字节高位先传),每次传输8bit,即1字节。I2C协议的移植性较好,即使在不同的设备中,只要符合该协议,都可以以同样的一组代码驱动。举例说明,通过I2C中读值后可以出现01110000;01110001;01110010;等等情况,也即是每一接口对应的数组,而这种情况可以分别对应第一连接器设置为第一连接器-0、第一连接器-1、第一连接器-2等等,如此,就得到了每一信号中继设备13中的每一I/O接口连接与每一第一连接器的对应关系。
在一可行的实施方式中,也可以通过FPGA来实现I2C协议,对服务器机箱系统进行管理。同时,FPGA控制整个服务器机箱的上下电时序,通过连接器留有对外接口信号,包括开机信号(PWR_en)、上电完成信号(PWR_ok)、复位信号(Reset)以及其他一些信号(MISC),用来完成与外部通用服务器端的整机集成。
在上述实施方式中,通过FPGA来实现I2C协议具有高带宽和低延时的优势,并且FPGA可以使用并行处理技术来提高执行效率。
在一个实施例中,服务器机箱系统100还包括温度获取模块,电压检测模块、服务器风扇模块等等。通过I2C总线的方式对服务器机箱的温度、风扇转速以及电压等进行监测和管理,同时监测GPU的运行状态。
以对服务器机箱的温度进行检测为例进行叙述:
在一实施例中,温度获取模块可以位于第一主板的最前端,第一主板的前端可以为主板的进风处,并且可以将用于布线放置温度获取模块的主板位置上的覆铜及走线挖空,避免其他部件热量传导到温度获取模块处影响测量精度,在该位置上安装温度获取模块;将温度获取模块通过I2C通道连接BMC芯片,并传输原始数据给BMC芯片,该BMC芯片进行数据修正,如此,可以提高温度检测的精度。
具体地,温度获取模块可以获取第一主板上的处理器、网络交换机等等服务器机箱系统中的各部件在工作过程中的实时工作温度,I2C总线能够根据该工作温度进行判断当前工作温度是否是服务器机箱系统正常运行时的工作温度,若当前某一部件在工作过程中的实时工作温度不处于正常的服务器机箱系统正常运行时的工作温度范围内,则获取该部件的位置信息,发出警示信息,并显示于配置界面上。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种服务器机箱系统,其特征在于,所述系统包括:
服务器主板,所述服务器主板包括第一服务器主板、第二服务器主板以及若干插槽,所述第一服务器主板上设置的GPU数量大于所述第二服务器主板上设置的GPU数量;
信号中继设备,所述信号中继设备位于第二服务器主板上;
连接装置,所述连接装置包括第一连接装置与第二连接装置,所述信号中继设备通过第一连接装置与至少一个外部通用服务器连接;
所述信号中继设备通过第二连接装置分别与第一服务器主板以及第二服务器主板连接;
电源板,所述电源板上包括多个冗余电源,所述电源板包括第一电源板以及第二电源板,所述第一电源板设置在服务器机箱底层;所述第二电源板设置在所述第一电源板上;所述第二电源板、所述第一服务器主板与所述第二服务器主板同层设置。
2.根据权利要求1所述的系统,其特征在于,所述信号中继设备通过第一连接装置与至少一个外部通用服务器连接包括:
所述信号中继设备通过第一连接器与外部通用服务器通信连接,或,
所述信号中继设备通过第一连接器、网络交换机与外部通用服务器通信连接。
3.根据权利要求1所述的系统,其特征在于,所述网络交换机是服务器的关键板卡,所述网络交换机的第一端连接第一连接器,所述网络交换机的第二端连接外部通用服务器。
4.根据权利要求1所述的系统,其特征在于,所述若干插槽包括第一插槽组以及第二插槽组;所述第一服务器主板包括主控制器以及第一插槽组;所述第二服务器主板包括若干网络交换机以及若干第一连接装置。
5.根据权利要求4所述的系统,其特征在于,所述第一服务器主板上的第一插槽组通过第二连接装置与网络交换机连接;所述第二插槽组通过第二连接器与网络交换机连接;
其中,所述第二插槽组设置在服务器主板的外侧固定于服务器机箱的内壁上。
6.根据权利要求1所述的系统,其特征在于,所述服务器机箱系统还包括:时钟发生器、缓冲器以及串阻;
所述时钟发生器位于第一主板上,用于接收外部时钟信号以及本地时钟信号;
所述串阻包括第一串阻以及第二串阻,所述第一串阻的第一端与所述时钟发生器的输出端连接,所述第一串阻的第二端与所述缓冲器的输入端相连;所述第二串阻的第一端与所述时钟发生器的输出端连接,所述第二串阻的第二端与第一连接器相连;
所述缓冲器至少包括第一缓冲器输出端以及第二缓冲器输出端,所述第一缓冲器输出端与信号中继设备相连,所述第二缓冲器输出端与若干插槽相连;
其中,所述时钟发生器输入时钟信号经所述串阻至所述缓冲器进行处理,得到处理后的时钟信号;
将所述处理后的时钟信号通过第一缓冲器输出端输入网络交换机中以及将所述处理后的时钟信号通过第二缓冲器输出端输入若干插槽中。
7.根据权利要求1所述的系统,其特征在于,所述服务器机箱系统还包括:串行通信总线,所述串行通信总线包括多个信号引脚,所述第一信号引脚通过线缆连接至多个外部通用服务器的控制器上,所述第二信号引脚通过网络交换机连接至服务器主板上的多个GPU上;所述串行通信总线用于采集服务器机箱系统所在服务器机箱的机箱温度、机箱风扇转速、机箱电压。
8.一种服务器机箱系统设计方法,其特征在于,应用于如权利要求1-7所述的任一项服务器机箱系统,所述方法包括:
提供配置选择界面;
响应于获取到第一连接器的ID与第一连接器位置信息的对应关系,显示装置显示所述第一连接器的ID与第一连接器位置信息的对应关系;
获取用户选择的配置匹配所述服务器主板、所述网络交换机以及所述连接装置的数量和规格;
响应于所述服务器主板、所述网络交换机以及所述连接装置的数量和规格存在多种可选方案,自动选取符合预设条件的方案;
响应于用户所需的配置未呈现于所述配置选择界面,则用户备注指定配置,以定制化生成配置方案;
根据所述定制化配置方案组装所述服务器机箱并对该服务器机箱进行可行性评估与验证,以保证在定制配置要求下的出厂质量。
9.根据权利要求7所述的方法,其特征在于,所述获取第一连接器的ID与第一连接器位置信息的对应关系包括:
通过GPIO读值或I2C读值的方法,获取CDFP的ID与CDFP位置信息的对应关系。
10.一种服务器机箱设备,其特征在于,所述一种服务器机箱设备包括一种服务器机箱本体和如权利要求1-7任一项所述的服务器机箱系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311042976.0A CN117111693A (zh) | 2023-08-18 | 2023-08-18 | 一种服务器机箱系统、服务器机箱系统设计方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311042976.0A CN117111693A (zh) | 2023-08-18 | 2023-08-18 | 一种服务器机箱系统、服务器机箱系统设计方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117111693A true CN117111693A (zh) | 2023-11-24 |
Family
ID=88794095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311042976.0A Pending CN117111693A (zh) | 2023-08-18 | 2023-08-18 | 一种服务器机箱系统、服务器机箱系统设计方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117111693A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117472596A (zh) * | 2023-12-27 | 2024-01-30 | 苏州元脑智能科技有限公司 | 分布式资源管理方法、装置、系统、设备以及存储介质 |
-
2023
- 2023-08-18 CN CN202311042976.0A patent/CN117111693A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117472596A (zh) * | 2023-12-27 | 2024-01-30 | 苏州元脑智能科技有限公司 | 分布式资源管理方法、装置、系统、设备以及存储介质 |
CN117472596B (zh) * | 2023-12-27 | 2024-03-22 | 苏州元脑智能科技有限公司 | 分布式资源管理方法、装置、系统、设备以及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102346520B (zh) | 一种服务器系统 | |
CN110908464B (zh) | 模块化计算平台、更换平台部件的方法和优化平台的方法 | |
US11809364B2 (en) | Method and system for firmware for adaptable baseboard management controller | |
CN107179804A (zh) | 机柜装置 | |
CN111367392A (zh) | 一种动态电源管理系统 | |
CN117111693A (zh) | 一种服务器机箱系统、服务器机箱系统设计方法及设备 | |
CN202443354U (zh) | 多节点无线缆模块化计算机 | |
CN210776379U (zh) | 一种GPU Box系统 | |
CN214896436U (zh) | 一种模块化多计算节点gpu服务器结构 | |
CN108415866A (zh) | 智能平台管理控制器 | |
CN117041184B (zh) | Io拓展装置及io交换机 | |
CN111273742B (zh) | 一种基于正交构架的高密度服务模块化系统 | |
CN113840489A (zh) | 一种基于混合架构的刀片计算机系统 | |
CN109976478B (zh) | 多cpu散热控制系统和散热控制方法 | |
CN219476054U (zh) | 服务器及电子设备 | |
CN113220080B (zh) | 一种模块化多计算节点gpu服务器结构 | |
CN107241886B (zh) | 一种新型Rack节点中板及其设计方法 | |
CN216352292U (zh) | 服务器主板及服务器 | |
US11366696B2 (en) | System, board card and electronic device for data accelerated processing | |
CN114816865A (zh) | 刀片服务器架构创建方法、装置、设备及介质 | |
CN221446528U (zh) | 带外管理模块和服务器 | |
CN114860636B (zh) | 一种服务器用户接口面板、服务器、使用方法、工作站 | |
CN211149348U (zh) | 一种可灵活配置冗余管理模块的边缘服务器 | |
CN221827291U (zh) | 一种板卡和服务器 | |
CN221125156U (zh) | 一种带外管理系统以及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |