Кто-нибудь использовал в своих проектах данную реализацию замены SSE на NEON?
https://github.com/DLTcollab/sse2neon
Понятно, что переписывание наиболее вычислительно затратных вещей под целевую платформу даст наибольший выигрыш, но хочется сохранить единую кодовую базу с x86_64, где уже используются интринсики.
Если кто-то профилировал данную или подобные реализации, то сильно ли она проигрывала написанному коду непосредственно под NEON?