Проверял 9600GT на комплексных FIR фильтрах размером 128 (1D). Производительность расчита по приблизительной формуле G = 2*N+2*N (два флоатовских умножения и два сложение на один элемент линии).
В первых решениях получилось порядка 2-3 GFlops.
После оптимизации загрузки данных и коэфицентов (использование shared памяти и кеша + шаманство с последовательностью инструкций) удалось получить около 39 GFlops.
Результат конечно достаточно приличный, но до заявленных 200 далековато(хотя не могу понять как они получили такую цифру).
Узким местом остаётся память, из за её латентности, и похоже контролера.
Так что при 2D, возможно, производительность будет ещё ниже.
p.s. Без лишней шумихи появилась версия 2.1 ссылки для загрузки есть на оф. форуме nvidia.