Китайський суперкомп'ютер Lingsheng 2 ExaFLOPS без GPU
Китай представив суперкомп'ютер Lingsheng потужністю 2 ExaFLOPS на базі CPU
Китайський Національний центр суперкомп'ютерних обчислень у Шеньчжені оголосив про створення суперкомп'ютера Lingsheng, який має досягти продуктивності 2 ExaFLOPS, використовуючи виключно центральні процесори. Система була представлена на конференції у квітні 2026 року та містить 47 000 процесорів, розміщених у 92 обчислювальних стійках.
Лу Юйтун, директор центру та головний розробник системи, зазначив, що апаратне та програмне забезпечення є "повністю незалежно керованими".
Унікальна архітектура без GPU
На відміну від більшості сучасних екзаскейл-систем, які активно використовують GPU-акселератори, Lingsheng базується виключно на CPU. Це принципово інший підхід, що відрізняється від світових тенденцій. Система використовує вітчизняні високопродуктивні процесори разом із:
- вбудованою пам'яттю з високою пропускною здатністю;
- високошвидкісними мережами з'єднань;
- технологією 3D-обчислень з плаваючою ортогональною точністю;
- повним рідинним охолодженням для ефективного управління тепловими показниками.
За даними HPC Wire, суперкомп'ютер складається з 20 480 обчислювальних вузлів. Кожен вузол оснащений двома процесорами LX2 на базі архітектури ARMv9. Кожен процесор LX2 містить:
- два обчислювальні кристали (загалом 304 ядра);
- вісім стеків HBM на корпусі (32 ГБ, сукупна пропускна здатність 4 ТБ/с).
Вузли з'єднані через високошвидкісну мережу LingQi з дворівневою багатошинною топологією fat-tree, що забезпечує пропускну здатність 1,6 Тбіт/с на вузол.
Технічні досягнення та виклики
Заявлено, що платформа Lingsheng досягла проривів у шести ключових напрямах:
- архітектура;
- продуктивність;
- енергоспоживання;
- програмування;
- масштабованість;
- надійність.
Система підтримує екзаскейл-обчислювальну потужність, екзаскейл-зберігання та петаскейл-комунікацію. Також використовується "найбільша у світі централізована технологія рідинного охолодження". На етапі пілотної верифікації задіяно 100 серверів Huawei Kunpeng на базі ARM-архітектури Taishan cores із загальною кількістю 12 800 ядер.
При повному розгортанні система включатиме:
- 1 580 блейд-серверів на базі x86 CPU (101 120 ядер, теоретичний піковий показник понад 10 PetaFLOPS);
- 36 мережевих стійок для міжз'єднань на мільйон портів;
- 650 ПБ сховища, розподіленого між 428 вузлами;
- 67 стійок зберігання з рідинним охолодженням (пропускна здатність 10 ТБ/с).
Порівняння з світовими лідерами
Найшвидший суперкомп'ютер на сьогодні — El Capitan (Міністерство енергетики США), який працює на 44 544 APU AMD MI300A (інтегровані CPU та GPU). Його продуктивність за тестом Linpack становить 1,809 ExaFLOPS, а теоретична потужність — 2,79 ExaFLOPS.
Якщо Lingsheng досягне заявлених 2 ExaFLOPS, він перевершить El Capitan за результатами Linpack, але поступатиметься за теоретичною потужністю. Експерти висловлюють сумніви щодо реальних можливостей китайської системи, адже її показники залишаються неверифікованими.
Як зазначив співзасновник TOP500 Джек Донгарра, США можуть програти Китаю в гонці екзаскейл-обчислень. Через торговельні санкції Китай скоротив кількість поданих заявок до TOP500 і тепер публікує власний рейтинг, що включає лише вітчизняні системи.
Невирішені питання та перспективи
Наразі залишається низка невизначеностей щодо Lingsheng:
- відсутність бенчмаркових даних;
- невідомі конкретні постачальники для виробничої системи;
- не уточнені терміни завершення проєкту.
Китайські вітчизняні процесори Zhaoxin та Hygon поки що не демонструють конкурентоздатності порівняно з продуктами Intel та AMD. Експерти сумніваються, чи зможе Lingsheng досягти заявлених показників без верифікації через незалежні тести.
Заявлені сфери застосування системи включають:
- дистанційне зондування;
- матеріалознавство;
- біоінформатика;
- метеорологія;
- фармацевтика;
- нафторозвідка;
- штучний інтелект;
- науки про життя;
- електромагнітне моделювання.
Під час тестування на одному CPU система досягла продуктивності 578 токенів на секунду при роботі з моделлю DeepSeek. Заявлено, що повністю зібрана система матиме пропускну здатність у 100 разів вищу. Однак ці дані не пройшли незалежну верифікацію.
Дослідники повідомили про досягнення паралельної масштабованості 81% для розрахунків із перших принципів із залученням 100 мільйонів атомів. Також заявлено про можливість підвищення ефективності віртуального скринінгу сполук у 1 000 разів завдяки поєднанню ШІ та навчання з підкріпленням. Проте ці твердження залишаються теоретичними до появи верифікованих результатів.