Перейти к содержанию
    

alexPec

Свой
  • Постов

    1 657
  • Зарегистрирован

  • Посещение

Репутация

2 Обычный

1 Подписчик

Информация о alexPec

  • Звание
    Профессионал
    Профессионал
  • День рождения 02.07.1981

Контакты

  • ICQ
    Array

Посетители профиля

7 989 просмотров профиля
  1. Спасибо большое, Kuzmi4! Как-то мимо меня это прошло... Когда копался - этого еще не было. Исходники библиотек выложили, кое-какое описание работы утилит и т.д. Есть с чем покопаться. Посмотрим, все ли они открыли в исходниках.
  2. Интересная информация, спасибо! Но все-таки хочется чего-то на уровне 2-4TOPS для более-менее интересных задач. Что-то вроде Coral от google, и по производительности, и по потреблению хорош для моих задач. Но вот доки на него найти похоже нереально...
  3. На корпусах TQFP144 с торца на диагоналях виден технологический контакт (на циклоне 3 по крайней мере так было, на 4-м - не знаю). Так вот этот контакт накоротко с пузом звонится. Я в свое время через него пузо на землю звонил для проверки
  4. Тоже непонятна физика процесса... Если просто ферромагнитным материалом - понятно. Но ток-то пропускать зачем? От ТЗЧ ? 🙂
  5. Его я уже пробовал. Примерно год-полтора назад. Не понравилось как он вживляется в ПЛИС. Сначала надо свое железо собрать, оставить какие-то интерфейсы под DPU, потом кто-то из среды ставит сам туда DPU (не помню точно). Все это работает только под линуксом, никакого описания как им пользоваться в bare-mеtal нет (а мне надо именно так), плюс многие типы слоев не поддерживаются и при компиляции сети vitis AI ругается и вываливается с ошибкой, что такого слоя сделать не могу. Можно было бы и им пользоваться (сам бы сделал поддержку нужных слоев), но так и не нашел описания потрохов DPU. Если у кого есть описание, каким пользоваться (в смысле внутренних регистров, структуры и т.д.), поделитесь пожалуйста.
  6. Нет, у меня почти все платы на трафарете 0,1 собираются. С остальными элементами все как обычно.
  7. Брак монтажа, но из 300 шт это по-моему штуки 4. Рентгеном не смотрели, списали на случайность. Замена чипа на станции монтажа BGA решила проблему. Пасту использовали такую же, как и для обычных плат (не знаю какая там закуплена), трафарет 0,1 мм. Все взлетело с 1 раза. Ничего колдовать не пришлось.
  8. В этом году точно такое решение применял, для BGA с шагом 0,4мм. Собрали на автомате уже около 300 плат, все прошли климат -40 +80, вибрации. Брак - несколько штук, проявляется только сразу после пайки. После испытаний ни одна в брак не ушла.
  9. Всем доброго дня. Думаю про AI- акселератор, так, для развития кругозора попробовать. Кто-то знает доступные к покупке и документированные есть сейчас? Интересует производительность порядка 2-3 TOPS на числах int8. Вариант с драйверами линукса (это касательно документации), чтобы потом вытащить оттуда как его запускать, тоже рассматривается.
  10. Да, согласен, недоглядел. Есть такое: In each clock cycle, the convolution array performs a multiplication and an accumulation, which are counted as two operations. Thus, the peak number of operations per cycle is equal to PP*ICP*OCP*2 Т.е. В4096 за такт выполняет 2048 МАС. Тогда остается вопрос: каким образом 562 DSP с одним умножителем каждый обеспечивают 2048 multiply-accumulate за такт? Учитывая, что в разделе DSP usage пишут: DSP Usage This allows you to select whether DSP48E slices will be used for accumulation in the DPU convolution module. When low DSP usage is selected, the DPU IP will use DSP slices only for multiplication in the convolution. In high DSP usage mode, the DSP slice will be used for both multiplication and accumulation. Делаю вывод, что для умножения в любом случае используются DSP. Все равно не сходится, в 4 раза примерно.
  11. Всем доброго дня. Вот есть у ксайлинкса DPU B4096. Написано: The results shown in the following table were measured on a Xilinx® ZCU102 board with three B4096 cores with 16 threads running at 287 MHz. Т.е. имеем 3 ядра B4096, в каждом из которых одновременно выполняются 16 операций (подозреваю, MAC) за такт, на частоте 287 МГц. Итого получаем 3*16*287 = 13776 М операций/сек. Смотрю в документ https://docs.xilinx.com/r/3.3-English/pg338-dpu/DPU-Performance-on-Different-Devices Там пишут, например, требуемая вычислительная мощность (workload) YOLO-V3-VOC 65 Gops на одно изображение. И тут же пишут что железо в такой конфигурации (3 ядра B4096 на 287 МГц) выдает 43.6FPS. Так вот вопрос: каким образом железо с вычислительной мощностью 13,776 GOPs вдруг обрабатывает задачу на 43.6fps*65GOPs = 2834 GOPs? UPD: Я конечно допускаю, что Vitis AI optimizer может в сети что-то подрезать, но ведь не на 2 порядка же снизить за счет этого.
  12. Всем доброго дня. Есть задача вытащить из питона ВСЮ математику инферанса сети Yolo NAS. Суть в том, чтобы в итоге оказался один файл исходника с кучей функций, и больше никаких библиотек. Вся математика должна быть в одном месте. Крайне желательно исходник получить на С. Готовый исходник должен компилироваться, например в visual studio, подгружать файл весов (результаты обучения) и выдавать результат такой же, как и известная питоновская версия (https://github.com/Deci-AI/super-gradients/blob/master/YOLONAS.md). Оптимальность кода не важна. Время работы программы не важно. Важно чтобы математика была вся в одном месте и результат совпадал с версией питона. Принято обозначать сумму, но тут я затрудняюсь оценить работу, поскольку не совсем представляю ее объем. Поэтому был бы рад видеть предложения по стоимости от исполнителя в личке. Всем заранее благодарен!
  13. Ссылочку дадите? Или может сразу бинарник выложите?
  14. Всем доброго дня. Для ксайлинкса использую JTAG-HS3. Давненько брал. Сейчас прозапас решил взять еще такой же, как раньше в Элитане - а нет там таких. Кто какие сейчас использует, где берете?
×
×
  • Создать...