LexaryStyle 1 6 апреля, 2022 Опубликовано 6 апреля, 2022 · Жалоба В свете последних событий многим приходится искать замену микросхем ЦОС, наиболее перспективным выглядит направление в сторону китайских поставщиков(хотя конечно с поставкой будет легче, но нет 100% гарантий). Для "не больших" задач выбор пал на такие бренды как allwinner amlogic, в составе этих микропроцессоров есть блоки GPU, которые можно использовать для мат задач. Что думаете по данной теме? Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
aaarrr 69 6 апреля, 2022 Опубликовано 6 апреля, 2022 · Жалоба 30 minutes ago, LexaryStyle said: amlogic Quote Amlogic Inc. (sometimes stylized AMLogic) is a fabless semiconductor company that was founded on March 14, 1995 in Santa Clara, California Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
arhiv6 18 6 апреля, 2022 Опубликовано 6 апреля, 2022 · Жалоба 3 часа назад, LexaryStyle сказал: Для "не больших" задач выбор пал на такие бренды как allwinner amlogic, в составе этих микропроцессоров есть блоки GPU, которые можно использовать для мат задач. А как их GPU можно использовать для DSP вычислений? Для них есть что-то вроде OpenCL/CUDA? Где про это можно почитать? Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
aaarrr 69 6 апреля, 2022 Опубликовано 6 апреля, 2022 · Жалоба OpenCL поддерживается на Mali-T6xx/T7xx, G31 и т.п. То есть на не совсем копеечных процессорах. Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
_pv 78 6 апреля, 2022 Опубликовано 6 апреля, 2022 · Жалоба 5 hours ago, arhiv6 said: А как их GPU можно использовать для DSP вычислений? Для них есть что-то вроде OpenCL/CUDA? Где про это можно почитать? а какая принципиальная разница opencl/cuda или шэйдер на glsl. OpenGL(ES) какой-нибудь уж всяко есть, даже у mali4x да даже без compute shader, с отрисовыванием в буфер единственного пустого прямоугольника нужного размера и параллельным выполнением NxM раз программы для каждого пикселя, ну только вместо blockIdx будет gl_FragCoord. Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
gridinp 3 7 апреля, 2022 Опубликовано 7 апреля, 2022 (изменено) · Жалоба для небольших задач может быть многоядерный арм лучше чем gpu, особенно если большой объём данных и не очень большой объём вычислений, всё надо тестировать конечно. OpenCV хорошо работает для DSP задач в том числе и для 1D - использовал его для RPi-3B+ Изменено 7 апреля, 2022 пользователем gridinp Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
_pv 78 7 апреля, 2022 Опубликовано 7 апреля, 2022 · Жалоба https://web.eece.maine.edu/~vweaver/group/green_machines.html написано 5Гфлопсов у 3В+ с 4х ядер, не знаю на сколько там openBLAS, которым тестировали оптимизирован со всякими NEON расширениями, но даже у самой убогой mali4xx от 10Гфлопсов одинарной точности обещают. и 30Гфлопсов для GPU Rpi3 Broadcom VideoCore VI https://www.cpu-monkey.com/en/igpu-broadcom_videocore_vi-221 Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
LexaryStyle 1 7 апреля, 2022 Опубликовано 7 апреля, 2022 · Жалоба Грузить сам процессор не удобно, так как он занят "верхнем уровнем", openCL(pyOpenCL) корка в ARMe вроде как решает задачи вычисления на ГПУ. Надо пробовать. Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
mantech 50 9 апреля, 2022 Опубликовано 9 апреля, 2022 (изменено) · Жалоба 07.04.2022 в 00:26, _pv сказал: OpenGL(ES) какой-нибудь уж всяко есть, даже у mali4x да даже без compute shader, с отрисовыванием в буфер единственного пустого прямоугольника нужного размера и параллельным выполнением NxM раз программы для каждого пикселя, ну только вместо blockIdx будет gl_FragCoord. Может проще NEON для таких задач использовать? Он есть в каждом ядре АРМ, например берем allwinner H2(3), имеем 4 ядра+4 NEON-а и вполне неплохо все "параллелится"))) 08.04.2022 в 02:06, LexaryStyle сказал: pyOpenCL Ну если нагрузить его интерпретаторами, на которых еще и сложный код крутится, а потом начинать какую-то оптимизацию DSP на тех же ресурсах, то да, это как "переливать из пустого в порожнее"... Прежде всего надо код оптимизировать и выкинуть все интерпретаторы... Ну или разделяйте ядра, часть на DSP, часть на всякие "линуксопитоны"))) Изменено 9 апреля, 2022 пользователем mantech Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
_pv 78 9 апреля, 2022 Опубликовано 9 апреля, 2022 · Жалоба 1 minute ago, mantech said: Может проще NEON для таких задач использовать? Он есть в каждом ядре АРМ, например берем allwinner H2(3), имеем 4 ядра+4 NEON-а и вполне неплохо все "параллелится"))) кому как, может и проще, но это ж интринсинки и всё ручками придётся, да и переносимость. а если смотреть на тупо циферки гфлопсов то у cpu их всё равно раз 5-10 будет меньше чем у gpu, понятно что синтетические тесты, и на самом деле несколько хуже, но всё-таки. Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
LexaryStyle 1 9 апреля, 2022 Опубликовано 9 апреля, 2022 · Жалоба 2 hours ago, mantech said: Ну если нагрузить его интерпретаторами, на которых еще и сложный код крутится, а потом начинать какую-то оптимизацию DSP на тех же ресурсах, то да, это как "переливать из пустого в порожнее"... Прежде всего надо код оптимизировать и выкинуть все интерпретаторы... Ну или разделяйте ядра, часть на DSP, часть на всякие "линуксопитоны"))) Суть не в жирных интерпретаторах, это уже уровень оптимизации кода. Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
mantech 50 9 апреля, 2022 Опубликовано 9 апреля, 2022 · Жалоба 3 часа назад, _pv сказал: кому как, может и проще, но это ж интринсинки и всё ручками придётся, да и переносимость. а если смотреть на тупо циферки гфлопсов то у cpu их всё равно раз 5-10 будет меньше чем у gpu, Сам конечно не пробовал, чисто теория, но несколько параллельно работающих неонов вряд-ли будут медленнее гпу, т.к. все упрется в шину памяти, да и гпу у дешевых процов далеко не топовое... Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
_pv 78 9 апреля, 2022 Опубликовано 9 апреля, 2022 · Жалоба 1 hour ago, mantech said: Сам конечно не пробовал, чисто теория, но несколько параллельно работающих неонов вряд-ли будут медленнее гпу, т.к. все упрется в шину памяти, да и гпу у дешевых процов далеко не топовое... да я сам сварщик не настояший, только с glsl игрался немного. и что там с плавающей запятой у neonа не очень знаю, кучу 8ми битных циферок за раз в 128битном регисте сложить перемножить это одно. если куча данных и всё упирается в память то конечно без разницы, но если нет, 10ГФлопсов одиночной точности даже на самый убогий mali 400 вроде бы обещают, а вот получить столько даже с четырёх ~1ГГц ядер, пусть и в пару раз ускоренных с simd расширениями, может и не получиться, даже теоретически. тем более что процессор у ТСа уже чем-то занят, а gpu ещё нет. Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
LexaryStyle 1 19 апреля, 2022 Опубликовано 19 апреля, 2022 (изменено) · Жалоба Странно что еще никто не отписался о результатах таких экспериментов, вроде бы логичный интерес использовать ГПУ. По части пропускной способности памяти, таки да, есть такая проблема, загружать выгружать реалтайм данные может быть слишком затратно, но все же, в цифрах, интересно например посмотреть на загрузку ГПУ при работе с FIR с большим количеством коэфф-в(как вариант) и сравнить с NEON. Изменено 19 апреля, 2022 пользователем LexaryStyle Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться
_pv 78 19 апреля, 2022 Опубликовано 19 апреля, 2022 · Жалоба http://watmough.github.io/webgl-matrix-demo/ Цитата Поделиться сообщением Ссылка на сообщение Поделиться на другие сайты Поделиться