Моделі FP64 працювали б повільніше без жодної користі.
Одним із основних обмежень на швидкість моделі є пропускна здатність пам’яті. Оскільки розмір параметрів FP64 вдвічі більший за параметри FP32, ваша модель може працювати не більш ніж вдвічі швидше, ніж модель FP32 з тією самою кількістю параметрів.
Обчислення FP64 також повільніші, ніж аналоги FP32. Найшвидший графічний процесор, який я знайшов, працює у FP64 на половині швидкості FP32; у зв’язку з розвитком моделей машинного навчання швидкість FP64 приблизно на 2% нижча за FP32.
Випробування показали, що для навчання FP32 є достатньо точним, тоді як для висновків 4-розрядне квантування не втрачає значної якості порівняно з FP32 і є набагато швидшим. FP64 буде рухатися в іншому напрямку: незначне підвищення якості в поєднанні зі значним падінням продуктивності.