ARM процессор в качестве DSP

Ответить

LexaryStyle 1

6 апреля, 2022

Опубликовано 6 апреля, 2022 · Жалоба

В свете последних событий многим приходится искать замену микросхем ЦОС, наиболее перспективным выглядит направление в сторону китайских поставщиков(хотя конечно с поставкой будет легче, но нет 100% гарантий).

Для "не больших" задач выбор пал на такие бренды как allwinner amlogic, в составе этих микропроцессоров есть блоки GPU, которые можно использовать для мат задач.

Что думаете по данной теме?

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

aaarrr 69

6 апреля, 2022

Опубликовано 6 апреля, 2022 · Жалоба

30 minutes ago, LexaryStyle said:

amlogic

Quote

Amlogic Inc. (sometimes stylized AMLogic) is a fabless semiconductor company that was founded on March 14, 1995 in Santa Clara, California

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

arhiv6 18

6 апреля, 2022

Опубликовано 6 апреля, 2022 · Жалоба

3 часа назад, LexaryStyle сказал:

Для "не больших" задач выбор пал на такие бренды как allwinner amlogic, в составе этих микропроцессоров есть блоки GPU, которые можно использовать для мат задач.

А как их GPU можно использовать для DSP вычислений? Для них есть что-то вроде OpenCL/CUDA? Где про это можно почитать?

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

aaarrr 69

6 апреля, 2022

Опубликовано 6 апреля, 2022 · Жалоба

OpenCL поддерживается на Mali-T6xx/T7xx, G31 и т.п. То есть на не совсем копеечных процессорах.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

_pv 78

6 апреля, 2022

Опубликовано 6 апреля, 2022 · Жалоба

5 hours ago, arhiv6 said:

А как их GPU можно использовать для DSP вычислений? Для них есть что-то вроде OpenCL/CUDA? Где про это можно почитать?

а какая принципиальная разница opencl/cuda или шэйдер на glsl.

OpenGL(ES) какой-нибудь уж всяко есть, даже у mali4x

да даже без compute shader, с отрисовыванием в буфер единственного пустого прямоугольника нужного размера и параллельным выполнением NxM раз программы для каждого пикселя, ну только вместо blockIdx будет gl_FragCoord.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

gridinp 3

7 апреля, 2022

Опубликовано 7 апреля, 2022 (изменено) · Жалоба

для небольших задач может быть многоядерный арм лучше чем gpu, особенно если большой объём данных и не очень большой объём вычислений, всё надо тестировать конечно. OpenCV хорошо работает для DSP задач в том числе и для 1D - использовал его для RPi-3B+

Изменено 7 апреля, 2022 пользователем gridinp

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

_pv 78

7 апреля, 2022

Опубликовано 7 апреля, 2022 · Жалоба

https://web.eece.maine.edu/~vweaver/group/green_machines.html

написано 5Гфлопсов у 3В+ с 4х ядер, не знаю на сколько там openBLAS, которым тестировали оптимизирован со всякими NEON расширениями, но даже у самой убогой mali4xx от 10Гфлопсов одинарной точности обещают.

и 30Гфлопсов для GPU Rpi3 Broadcom VideoCore VI https://www.cpu-monkey.com/en/igpu-broadcom_videocore_vi-221

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

LexaryStyle 1

7 апреля, 2022

Опубликовано 7 апреля, 2022 · Жалоба

Грузить сам процессор не удобно, так как он занят "верхнем уровнем", openCL(pyOpenCL) корка в ARMe вроде как решает задачи вычисления на ГПУ. Надо пробовать.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

mantech 50

9 апреля, 2022

Опубликовано 9 апреля, 2022 (изменено) · Жалоба

07.04.2022 в 00:26, _pv сказал:

OpenGL(ES) какой-нибудь уж всяко есть, даже у mali4x

да даже без compute shader, с отрисовыванием в буфер единственного пустого прямоугольника нужного размера и параллельным выполнением NxM раз программы для каждого пикселя, ну только вместо blockIdx будет gl_FragCoord.

Может проще NEON для таких задач использовать? Он есть в каждом ядре АРМ, например берем allwinner H2(3), имеем 4 ядра+4 NEON-а и вполне неплохо все "параллелится")))

08.04.2022 в 02:06, LexaryStyle сказал:

pyOpenCL

Ну если нагрузить его интерпретаторами, на которых еще и сложный код крутится, а потом начинать какую-то оптимизацию DSP на тех же ресурсах, то да, это как "переливать из пустого в порожнее"... Прежде всего надо код оптимизировать и выкинуть все интерпретаторы...

Ну или разделяйте ядра, часть на DSP, часть на всякие "линуксопитоны")))

Изменено 9 апреля, 2022 пользователем mantech

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

_pv 78

9 апреля, 2022

Опубликовано 9 апреля, 2022 · Жалоба

1 minute ago, mantech said:

Может проще NEON для таких задач использовать? Он есть в каждом ядре АРМ, например берем allwinner H2(3), имеем 4 ядра+4 NEON-а и вполне неплохо все "параллелится")))

кому как, может и проще, но это ж интринсинки и всё ручками придётся, да и переносимость.

а если смотреть на тупо циферки гфлопсов то у cpu их всё равно раз 5-10 будет меньше чем у gpu,

понятно что синтетические тесты, и на самом деле несколько хуже, но всё-таки.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

LexaryStyle 1

9 апреля, 2022

Опубликовано 9 апреля, 2022 · Жалоба

2 hours ago, mantech said:

Ну если нагрузить его интерпретаторами, на которых еще и сложный код крутится, а потом начинать какую-то оптимизацию DSP на тех же ресурсах, то да, это как "переливать из пустого в порожнее"... Прежде всего надо код оптимизировать и выкинуть все интерпретаторы...

Ну или разделяйте ядра, часть на DSP, часть на всякие "линуксопитоны")))

Суть не в жирных интерпретаторах, это уже уровень оптимизации кода.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

mantech 50

9 апреля, 2022

Опубликовано 9 апреля, 2022 · Жалоба

3 часа назад, _pv сказал:

кому как, может и проще, но это ж интринсинки и всё ручками придётся, да и переносимость.

а если смотреть на тупо циферки гфлопсов то у cpu их всё равно раз 5-10 будет меньше чем у gpu,

Сам конечно не пробовал, чисто теория, но несколько параллельно работающих неонов вряд-ли будут медленнее гпу, т.к. все упрется в шину памяти, да и гпу у дешевых процов далеко не топовое...

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

_pv 78

9 апреля, 2022

Опубликовано 9 апреля, 2022 · Жалоба

1 hour ago, mantech said:

Сам конечно не пробовал, чисто теория, но несколько параллельно работающих неонов вряд-ли будут медленнее гпу, т.к. все упрется в шину памяти, да и гпу у дешевых процов далеко не топовое...

да я сам сварщик не настояший, только с glsl игрался немного.

и что там с плавающей запятой у neonа не очень знаю, кучу 8ми битных циферок за раз в 128битном регисте сложить перемножить это одно.

если куча данных и всё упирается в память то конечно без разницы,

но если нет, 10ГФлопсов одиночной точности даже на самый убогий mali 400 вроде бы обещают, а вот получить столько даже с четырёх ~1ГГц ядер, пусть и в пару раз ускоренных с simd расширениями, может и не получиться, даже теоретически.

тем более что процессор у ТСа уже чем-то занят, а gpu ещё нет.

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

LexaryStyle 1

19 апреля, 2022

Опубликовано 19 апреля, 2022 (изменено) · Жалоба

Странно что еще никто не отписался о результатах таких экспериментов, вроде бы логичный интерес использовать ГПУ. По части пропускной способности памяти, таки да, есть такая проблема, загружать выгружать реалтайм данные может быть слишком затратно, но все же, в цифрах, интересно например посмотреть на загрузку ГПУ при работе с FIR с большим количеством коэфф-в(как вариант) и сравнить с NEON.

Изменено 19 апреля, 2022 пользователем LexaryStyle

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

_pv 78

19 апреля, 2022

Опубликовано 19 апреля, 2022 · Жалоба

http://watmough.github.io/webgl-matrix-demo/

Цитата

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Присоединяйтесь к обсуждению

Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.

К сожалению, ваш контент содержит запрещённые слова. Пожалуйста, отредактируйте контент, чтобы удалить выделенные ниже слова.

Ответить в этой теме...

× Вставлено с форматированием. Вставить как обычный текст

Разрешено использовать не более 75 эмодзи.

× Ваша ссылка была автоматически встроена. Отображать как обычную ссылку

× Ваш предыдущий контент был восстановлен. Очистить редактор

× Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

Указать URL изображения

Подписчики 3

LexaryStyle 1

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

aaarrr 69

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

arhiv6 18

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

aaarrr 69

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

_pv 78

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

gridinp 3

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

_pv 78

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

LexaryStyle 1

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

mantech 50

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

_pv 78

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

LexaryStyle 1

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

mantech 50

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

_pv 78

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

LexaryStyle 1

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

_pv 78

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Присоединяйтесь к обсуждению

Обзор

Активность