Какое расстояние может петлять сигнальная дорожка LPDDR2 между ног процессора без учета волнового

iiv 16

19 ноября, 2017

Опубликовано 19 ноября, 2017 · Жалоба

В многослойках важна толщина по меди в слоях. К примеру иногда использую медь 18 микрон внутри, и делаю по минимуму 75 микрон дорожки, зазаоры соответственно. На топе, боттоме эти 18 до 35 доращивают за счет метализации, там только по 100 микрон можно. Может поможет, узнайте на вашей фабе.
Ну и препрег 63 микрона можете использовать с вашими то слоями.

да, верно, 75-микронной дорожкой и очень тонким преппрегом можно хорошо место сэкономить, правда у тех, у кого я платы делал ценник на 8 слоев с такой технологией получался выше, чем если 100микрон и 12 слоев, поэтому я в этом направлении не посматривал. Мне и на прототипах (коих будет не один и два) хочется сэкономить, да и в масспродукции (10-100к в год) задорого не хотелось бы делать.

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

EvilWrecker 0

19 ноября, 2017

Опубликовано 19 ноября, 2017 · Жалоба

я исходил из грубой пробной своей разводки

Если я правильно определил парты по поиску, то Вы пытаетесь положить "обычную"(не PoP) фпга шириной 23мм на плату шириной 23мм при этом используя PoP LPDDR2. Оба прибора насколько можно понять EOL, возможно до кучи другого из Вашего BoM- тоже.

Поставить PoP как обычный корпус на плату можно- задумка не та, но технически это осуществимо. Однако зачем здесь 16 слоев понять можно только взглянув на то как Вы скомпоновали борду: на 16 слоях можно развести например 2 ранка DDR4 memory down расположенных с одного направления корпуса(т.е. ранк за ранком), а если корпус оптимизированный(аля интел) то и того больше. У Вас же одна 32х битная микросхема для которой почти ничего не нужно выдумывать или потеть даже при установке на борду, в силу размера и пинаута. Физик эзернета? Тоже не должно быть никаких проблем, у Вас не какой-нибудь PAM-4. Так откуда проблемы взялись? :biggrin: У Вас есть скриншоты компоновки?

Не проще ли будет купить SoM и сделать под него несущую плату?

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Aner 1

19 ноября, 2017

Опубликовано 19 ноября, 2017 · Жалоба

... что все длины дорожек память-процессор находятся в диапазоне 5-12.5мм на всех 6 слоях, то разводка памяти не выйдет за габариты этого ЕДИНСТВЕННОГО чипа памяти (12х12мм), и оставшаяся часть узкой платы 9-10мм уйдет на честные и широкие языки питания, правильно выровненные LVDSы клока и RGMII. Из-за этого-то и весь сыр-бор.

целостность сигнала надо было бы получить, я бы перед посылкой на печать вогнал бы свою разводку в свой FEM-BEM симулятор, посчитал бы все S-параметры и все резонансы, и понял можно ли так делать или нет. Понятно, что наверное это есть в каких-то пакетах, но с ними пока опыта не было и ИМХО, вытащить эти параметры мне будет проще, чем освоить пакеты, тем более FEM-BEM симулятор свой собственный, самолично писанный вплоть до его линейных решателей, что подкрутить или вытащить нужную физику могу быстро (doi: 10.1515/jnma.2007.031, doi: 10.1007/978-3-540-71980-9_42, doi: 10.1002/nla.297).

Не забудьте про -> signal trace lengths, те что от шарика до поинта на кристале иначе можете при выравнивании промахнуться мимо вашего допуска в 5...7мм. Ну и Гиперлинкс вам поможет если что. И глазковую с джиттерами можете там же видеть.

И если для себя сами все тащите, и железо и софт, то совет верный начните с SoM. Там хоть все уже оттестировано по железу, и софт отладить уверенно можно.

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

iiv 16

19 ноября, 2017

Опубликовано 19 ноября, 2017 · Жалоба

Огромное спасибо всем за советы!

Не проще ли будет купить SoM и сделать под него несущую плату?

плата самого прибора с SoM у меня есть и там все идеально работает и софт отлажен. Я бы не в жизни не полез в эту разводку, если бы падлюка Интел вдруг ни с того ни сего не отказался от линейки Интел-Эдисон и Интел-Джоуль. Мне Джоуль по производительности (полностью) и размером корпуса (почти) устраивал, но из-за интеловских косяков у них SPI работал на 6МБитах вместо 2х25МБитс, а мне сильно не хватало и приходилось использовать Интел-Эдисон, который слегка по производительности не дотягивал и в нем тоже только 15МБитс было... В общем я мог пока с этим как-то криво-косо уживаться, но летом этого года Интел отказался поддерживать Эдисон и Джоуль, перестал их производить, и я не смог найти аналогичный SoM.

Мои требования что мне надо иметь:

* 1ГБайт памяти, но лучше 2ГБайта,

* минимум 300МФлопс, но лучше 500-600МФлопсов и именно на процессоре,

* примерно 64ГБайта внешней памяти (SDCARD или еще чего),

* адекватно быстрый доступ на внешний мир, чтобы веб мордой можно было показывать и иногда даже визуализировать научные данные (2Д и 3Д ЯМР спектры) (USB2.0 или Ethernet 100MBit и больше) - раньне пользовал USB от Интел-Эдисона,

* разумно быстрый (20МБит/с примерно, но лучше больше) и с минимальной латентностью канал на плиску,

* плиска, на которой постоянно крутятся 30-40ГМип/с-30-40ГФлоп/с вычисления и имеет прямой доступ на 16битный 2х канальный 160МГц оцифровщик (эта часть хорошо отладилась в ранних разводках).

* корпус 26мм если я довольно геморно корпусирую сам аппарат (для юзера не сильно удобное), и 22-23мм если корпусирование простое и удобное.

Подходящих сомов на рынке нет и не предвидится... Летом тряс электроникс и всем миром решили, что альтернативы нет...

Единственно что получается - CycloneV-SoC плюс полная разводка всего: RGMII, DDR2/DDR3/LPDDR2, SDCARD и сам кристалл плиски работает как плиска и как вычислительный процессор.

Так как на соме все работает еще лета, я перенес софт на демо борду от терасика DE10-SoC и все там отладил. То есть софт тьфу-тьфу, должен после разводки без танцев с бубном поехать сразу как только я назначу в нем новые пины.

Понятно, что если разводка что-то изменит, я, могу в разумных пределах подстроить в софте (для процессоров и для плиски) все, что мне надо, так как это полностью мною разработанный пакет.

Однако зачем здесь 16 слоев понять можно только взглянув на то как Вы скомпоновали борду:

я тоже очень надеюсь, что мне не нужно 12 или даже 16 слоев, и списываю свои приблизительные расчеты на свое неумение и пытаюсь по максимуму разобраться как это можно безболезненно оптимизировать.

Если я правильно определил парты по поиску, то Вы пытаетесь положить "обычную"(не PoP) фпга шириной 23мм на плату шириной 23мм при этом используя PoP LPDDR2. Оба прибора насколько можно понять EOL, возможно до кучи другого из Вашего BoM- тоже.

Простите, пожалуйста, а что такое PoP FPGA? Та, которая с процессором? Да, мне нужна с процессором.

Плиска в корпусе BGA484 с шагом 0.8мм, плиска CycloneV-SoC 5cseba2 или в том же корпусе, но пожирнее но с полной совместимостью по пинам, то есть плиска 19мм.

Память: EDBA232B2PF-1D-F-R, или ее полностью совместимый аналог на 1ГБайт, скажите, пожалуйста, правильно ли я понимаю, что это самый удобный и легкий по разводке корпус?

RGMII KSZ9031RNX (взял из даташита терасика, чтобы не придумывать как это разводить),

клок LMK03318 (в SoM дизайне пользовал, и так как там есть куча свободных незапрограммированных выхоодов, могу их попользовать для тактирования HPS и RGMII).

Из-за проблем с корпусом всего этого дела надо точно вписаться в 23.2мм, но желательно чуть-чуть еще меньше, идеально в 22мм.

У Вас есть скриншоты компоновки?

пока стыдно их показывать, так как постоянно перерисовываю, но заметил, что слои плодятся ужасно и нет понимания как это пресекать.

Скажите, пожалуйста, разумно ли я выбрал технологию:

дорожки и зазоры 0.1мм, дырки 0.2мм, в плиске (которая с шагом 0.8мм) планирую ставить глухие виа, но не планировать (или постараться) не ставить внутренние переходные (сильно стоимость производства подскакивает). Препреги 0.1мм. Дорожки получаются 0.17мм, расстояния между дорожками 0.17*3=0.5мм, удлинять преимущественно тромбонами, а не змейками в целях экономии места.

Слои - сколько получится, но по идее из общего здесь обсуждения я должен точно вписаться в 8 слоев, правда пока у меня получалось только 14 слоев, поэтому я и бил тревогу. Если удастся поиграться на длине разброса до 7.5мм, то может и на 6 слоев рассчитывать.

Если я не прав, тыкните, пожалуйста, что в технологии изменить!

Спасибо!

ИИВ

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Aner 1

19 ноября, 2017

Опубликовано 19 ноября, 2017 · Жалоба

Вы граунд слои не сократите случайно. Да и для диф пар волновое определит расстояние между проводами, ширину, зазоры и препреги. Хотя их у вас не много, но отъедят места достаточно. Так что не расслабляйтесь, калькулируйте ...

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

iiv 16

19 ноября, 2017

Опубликовано 19 ноября, 2017 · Жалоба

Не забудьте про -> signal trace lengths, те что от шарика до поинта на кристале

я понимаю, что я большой красный стояночный тормоз, но обгуглился и таки не нашел это для моих микросхем, конкретно интересует:

1. память LPDDR2: нужна EDBA232B2PB-1D или EDBA232B2PF-1D и очень желательна EDB8132B4PM-1D-F,

2. плиска 5CSEBA2U19C8N и может быть 5CSEBA4U19C8N и 5CSEBA5U19C8N

Пожалуйста, научите искать или тыкните носом где написаны эти характеристики (задержки от шарика до кристалла) для вышеуказанных микросхем!

Спасибо!!!

ИИВ

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

EvilWrecker 0

20 ноября, 2017

Опубликовано 20 ноября, 2017 · Жалоба

пока стыдно их показывать, так как постоянно перерисовываю, но заметил, что слои плодятся ужасно и нет понимания как это пресекать.

Это как боязнь публичных выступлений- ну закидают помидорами и что? Пофигу на всех этим форумных критиканов и ядовитых комментаторов- важно что информация идет которую легко проверить самому :laughing:- выкладывайте смело.

Простите, пожалуйста, а что такое PoP FPGA?

PoP= Package On Package, т.е. монтаж на бга субстрат процессора сверху.

Мне и на прототипах (коих будет не один и два) хочется сэкономить, да и в масспродукции (10-100к в год) задорого не хотелось бы делать.

Интересно посмотреть как Вы хотите сэкономить на продукции выбирая плис отличающиеся чуть ли не в полтора раза в цене а также продукты со статусом Non-Stock(отпускаются только большими количествами) либо EOL(снято с производства.)

Из-за проблем с корпусом всего этого дела надо точно вписаться в 23.2мм, но желательно чуть-чуть еще меньше, идеально в 22мм.

А откуда такие цифры взялись?

дорожки и зазоры 0.1мм, дырки 0.2мм, в плиске (которая с шагом 0.8мм) планирую ставить глухие виа, но не планировать (или постараться) не ставить внутренние переходные (сильно стоимость производства подскакивает). Препреги 0.1мм. Дорожки получаются 0.17мм, расстояния между дорожками 0.17*3=0.5мм, удлинять преимущественно тромбонами, а не змейками в целях экономии места.

Перечисленное лишь говорит о недостатке информации-начиная с annular ring заканчивая массой другого. Что касается тромбона- он лучше подходит для компенсированный "больших" разбегов, для "меньших" используется аккордеон. Закладываться на что-то одно не имея картины- опрометчиво :biggrin:

Вы случайно не в кикаде собрались это делать?

Мои требования что мне надо иметь:

Если не считать размеров то по цене,потреблению, интерфейсам и удобстве разводки можно было бы предложить атом, но грязные хаки тут скорее всего уже не пройдут :biggrin: С другой стороны на 100к можете отдать китайской ODM, Вам сделают борду.

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

iiv 16

20 ноября, 2017

Опубликовано 20 ноября, 2017 · Жалоба

Спасибо большое за советы и комментарии!

Интересно посмотреть как Вы хотите сэкономить на продукции выбирая плис отличающиеся чуть ли не в полтора раза в цене а также продукты со статусом Non-Stock(отпускаются только большими количествами) либо EOL(снято с производства.)

если брать findchip.com цену и сравнить то, что я пользовал раньше: FPGA 50бакс и Интел Джоуль 200Бакс, то при переходе на плис со встроенным процессором (даже пожирнее плиски) цена составляет всего-то 100бакс плюс память 22 бакса. На лицо реальная экономия. Даже если вписываться в старом дизайне с интел эдисоном, то цена так на так получается. А удобство того, что плиска соединена с процессором внутри корпуса с минимальной латентностью для моей задачи также очень важна и позволяет добавить в аппаратуру несколько удобных пользователю фитч.

С памятью - не соглашусь с вами тоже, на кошках можно по-штучно купить за 11 бакс в эрроу планку на 1ГБайт, а в продукции воткнуть 2ГБайта за 22 бакса.

Если вдруг у вас будет идея какую другую простую в разводке память на 2ГБайта попользовать, с преогромной благодарностью выслушаю Ваши советы!

Это как боязнь публичных выступлений- ну закидают помидорами и что? Пофигу на всех этим форумных критиканов и ядовитых комментаторов- важно что информация идет которую легко проверить самому :laughing:- выкладывайте смело.

так как делаю это пока временно в кикаде, не хотелось это делать, но надеюсь, таки на этой неделе с оркадом вопрос решится, тогда и буду выкладывать.

Перечисленное лишь говорит о недостатке информации-начиная с annular ring заканчивая массой другого

так примерно накидайте, пожалуйста, в какое направление смотреть, а то реально вижу, что делаю не так, но не понимаю, как разумнее!

А откуда такие цифры взялись?

это из габаритов аппаратуры, тут сложно с этим что-то сделать.

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Tosha1984 0

20 ноября, 2017

Опубликовано 20 ноября, 2017 · Жалоба

Пожалуйста, научите искать или тыкните носом где написаны эти характеристики (задержки от шарика до кристалла) для вышеуказанных микросхем!

Ох.

Вообще глобально эту информацию можно вытянуть из тайминг репортов системы проектирования FPGA. Не скажу как это выглядит у Альтеры, но у Xilinx например это задержка от IOBUF до пэда.

Но вообще - когда Вам производитель микросхемы пищет в даташите требования по выравниванию - в них его собственные разбежки длин уже учтены.

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

EvilWrecker 0

20 ноября, 2017

Опубликовано 20 ноября, 2017 · Жалоба

если брать findchip.com цену и сравнить то, что я пользовал раньше

То Вы проиграете атому по ссылке который стоит чуть больше 30 баксов, потребляет порядка 10Вт и имеет массу других преимуществ- я правда не понял как Вы смотрите через тот сайт(он же умер вроде давно): сам смотрю через октопарт и через "свое".

цена составляет всего-то 100бакс плюс память 22 бакса.

За такие деньги можно собрать бом на х86 с одним ранком ддр4 и до кучи всего остального, включая хорошие физики эзернета от марвелов и броадкомов, а если постараться то еще и на плату хватит.

Если вдруг у вас будет идея какую другую простую в разводке память на 2ГБайта попользовать, с преогромной благодарностью выслушаю Ваши советы!

Насколько я помню Вы находитесь в EU, и вроде даже как в Германии- тогда смотрите на DDR3/4 MCP: в случае с атомом по ссылке у которого один ранк DDR4 прекрасно подойдут MCP от Mercury Systems, наподобие тех что обсуждались в этой ветке.

так как делаю это пока временно в кикаде, не хотелось это делать, но надеюсь, таки на этой неделе с оркадом вопрос решится, тогда и буду выкладывать.

Не нужно никого и ничего бояться- выкладывайте как есть.

так примерно накидайте, пожалуйста, в какое направление смотреть, а то реально вижу, что делаю не так, но не понимаю, как разумнее!

Для начала получите хотя бы Design Rules Kit от Вашего производителя и определитесь с IPC Class для платы.

Вообще глобально эту информацию можно вытянуть из тайминг репортов системы проектирования FPGA.

Именно так- хотя иногда можно попросить табличку экселевскую у FAE.

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

iiv 16

20 ноября, 2017

Опубликовано 20 ноября, 2017 · Жалоба

То Вы проиграете атому по ссылке который стоит чуть больше 30 баксов, потребляет порядка 10Вт и имеет массу других преимуществ- я правда не понял как Вы смотрите через тот сайт(он же умер вроде давно): сам смотрю через октопарт и через "свое".

За такие деньги можно собрать бом на х86 с одним ранком ддр4 и до кучи всего остального, включая хорошие физики эзернета от марвелов и броадкомов, а если постараться то еще и на плату хватит.

провидимому в этом у нас с вами есть глобальное недопонимание.

Я исхожу из того, что мне одновременно надобно минимум

100 умножителей 18 битных (в плиске) работающих на частоте хотя бы 240МГц, ну а лучше 150 умножителей, ну и логики, понятно, в придачу,

около 500МФлопсов в процессоре, с которым есть хорошая связь с маленькой латентностью (да, мне надобно на этом процессоре lapack/blas библиотеки, поэтому ниосы идут лесом),

я не сильно представляю как можно иметь это все с атома за 30 бакс. Не факт, что он даже 500МФлопс покажет, они от одной версии к другой часто сильно отличаются.

То есть мною озвученная цена 100 бакс за плиску включает модель с 174 умножителями и два ядра процессора, которые делают атом (даже четырехядерный) на двойной точности как тузик грелку. Ну с 2ГБайтовой-то памятью за 22 бакса у Вас, надеюсь, нет возражений? Лезть на DDR3-DDR4 - ИМХО, бессмысленно, так как плиска всяко больше 400МГц по шине не поддержит, я понимаю, что я выбрал более медленную память LPDDR2, но именно из-за того, что она в 2ГБайтах одним куском и разводка проще. Если есть какие-то адекватные альтернативы, пожалуйста, поделитесь Вашим мнением!

Теперь о потреблении.

То, что у меня было (версия с CycloneV + Intel Joule или Edison) со своей недецкой производительностью, потребляло у меня 6 ватт на плиске и 1 ватт на процессоре, то есть 7Ваттт. При переносе на демоборду DE10-SoC, где все вычисления идут на CycloneV-SoC этого же дизайна общее потребление этой борды со всеми свистелками и перделками (а эти перделки не попадут на мою плату) упало до 6Ватт. И на черта мне этот Атом с 10ваттным потреблением, который все равно не сможет решать мои задачи без плиски или недецкого OpenCL ускорителя типа Mali T7xx? Я могу свой софт так изуродовать, что он будет считаться на этой куцей графической карте, но это будет очень криво и я не хотел бы идти по этому пути.

Насколько я помню Вы находитесь в EU, и вроде даже как в Германии- тогда смотрите на DDR3/4 MCP: в случае с атомом по ссылке у которого один ранк DDR4 прекрасно подойдут MCP от Mercury Systems, наподобие тех что обсуждались в этой ветке.

я и не против, и, как я понимаю, речь идет о W3J512M32GT-XB2X но ведь:

1. надо где-то ее купить, а ждать долго и нудно у немцев коммерческое предложение у меня нет желания,

2. не сильно вижу смысл использовать память быстрее 400МГц и за скорость платить, если сам процессор (Cyclone-V-SoC) такие скорости не поддерживает. Я конечно понимаю, что можно на аррию переползти, но мне это будет дорого и без надобности.

Для начала получите хотя бы Design Rules Kit от Вашего производителя и определитесь с IPC Class для платы.

ну да... просил у multi-circuit-boards.eu , pcbpool.com и нескольких китайцев, у кого делал платы до этого, все попросили прислать гербер чтоб подумать и написать сколько будет стоить изготовление, но ни одна падлюка не ответила именно с внятным мануалом по Design Rules Kit.

Вообще глобально эту информацию можно вытянуть из тайминг репортов системы проектирования FPGA.

ага, вот когда это память присобаченная к плисочасти - то да, в квартусе я такое где-то видел, а вот если память к процессору привязана, квартус молчит как партизан.

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

EvilWrecker 0

20 ноября, 2017

Опубликовано 20 ноября, 2017 · Жалоба

Атом с 10ваттным потреблением, который все равно не сможет решать мои задачи

Т.е. внезапно медленный задохлый циклон соединенный абы как с недопроцессором джоли оказался вдруг гораздо производительнeе атома дли мини серверов? В таком случае непонимание действительно есть :laughing:

около 500МФлопсов в процессоре

А Вы знаете сколько у атома производительность?

То, что у меня было (версия с CycloneV + Intel Joule или Edison) со своей недецкой производительностью, потребляло у меня 6 ватт на плиске и 1 ватт на процессоре, то есть 7Ваттт.

Очень большие сомнения в этих цифрах- на 99% могу сказать что не верю.

ну да... просил у multi-circuit-boards.eu , pcbpool.com

А у них и нет того что Вы просите.

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

iiv 16

20 ноября, 2017

Опубликовано 20 ноября, 2017 · Жалоба

Т.е. внезапно медленный задохлый циклон соединенный абы как с недопроцессором джоли оказался вдруг гораздо производительнeе атома дли мини серверов? В таком случае непонимание действительно есть :laughing:

у меня довольно хитрая структура вычислений, если решать исходную задачу в лоб на хорошем компьютере (у меня есть что-то под рукой с 24ТФлопсами пиковой), симулируя приходящие данные с оцифровщиков, то для решения этой задачи мне надобно 10 миллиардов вычислений синусов/косинусов и арктангенсов в секунду с примерно 40 битной мантиссой (i7 нервно курит в сторонке, про атом даже думать не будем).

В плиске же этот алгоритм вписывается если пользовать 150 умножителей клоча их на частоте 240МГц, и, понятно пользуя всякие остальные плисоудобства в виде блочной памяти и логики.

Но чисто этот алгоритм не может жить сам по себе без еще одного алгоритма (сингулярное разложение), которое мне надобно выполнять регулярно для очень маленькой матрицы. На ниосах это сделать не получается, так как для этого куска надобно 500МФлопсов: матрицы маленькие, где-то 20х20, но выполнять надо часто, где-то раз в 100 мкс, поэтому нужна хорошая скорость обмена между плиской и процессором, и хорошая латентность, чтобы протащить информацию для этой матрицы на процессор и результат вычислений на плиску (в компактном виде это генерит трафик около 3МБайтов в секунду) + матрицы получаются на основе прыганья по постоянно обновляемой базе данных, для котоорой надобно 1-2 ГБайта оперативки. Задержка в 30-50 микросекунд приведет к полному останову системы и потере данных за последние 2-3 минуты, то есть это очень не желательно делать.

А Вы знаете сколько у атома производительность?

1.5 DP FLOPs/cycle: scalar SSE2 addition + scalar SSE2 multiplication every other cycle

то есть два его ядра на полной (разогнанной частоте) 2.1ГГц покажут в пике 6.3ГФлопса, лапак (в варианте MKL) покажет где-то 4ГФлопса если ну очень сильно повезет, а на реальных задачах если и будет 2ГФлопса, то можно сильно радоваться.

EDIT: мне интеловская архитектура больше нравится, так как на ней без танцев с бубнами лапаки ходят и мне проще с моими софтами, которые сильно от lapack/blas зависят, но не всегда эти интелы бывают достаточно производительными за ватт и/или за бакс.

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

EvilWrecker 0

20 ноября, 2017

Опубликовано 20 ноября, 2017 · Жалоба

у меня довольно хитрая структура вычислений, если решать исходную задачу в лоб на хорошем компьютере (у меня есть что-то под рукой с 24ТФлопсами пиковой), симулируя приходящие данные с оцифровщиков, то для решения этой задачи мне надобно 10 миллиардов вычислений синусов/косинусов и арктангенсов с примерно 40 битной мантиссой (i7 нервно курит в сторонке, про атом даже думать не будем).

Еще лучше :biggrin: Циклон младший обошел Core i7. Нет, не верю- даже если алгоритм очень хитрый, это нонсенс. Я бы сомневался даже если речь шла о комбинации армов с дсп, но полноценный х86(не говоря о топ процессорах)- это чушь. Переубеждать бесполезно :laughing:

EDIT: мне интеловская архитектура больше нравится, так как на ней без танцев с бубнами лапаки ходят и мне проще с моими софтами, которые сильно от lapack/blas зависят, но не всегда эти интелы бывают достаточно производительными за ватт и/или за бакс.

Можете взглянуть на тегру, там простор большой.

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

iiv 16

20 ноября, 2017

Опубликовано 20 ноября, 2017 · Жалоба

Еще лучше Циклон младший проиграл Core i7. Нет, не верю- даже если алгоритм очень хитрый, это нонсенс. Я бы сомневался даже если речь шла о комбинации армов с дсп, но полноценный х86(не говоря о топ процессорах)- это чушь. Переубеждать бесполезно :laughing:

проблем нет, этот спор окончим

так, на всякий случай, не Вам, а тем кому может будет интересно: i7 на такт и тред дает 8 операций с двойной точностью, то есть в пике при 3ГГц и 8 тредах - это будет всего-то 200ГФлопсов. Если по алгоритму позволительно соскалировать экспоненту, а длинную мантиссу иметь на сложении, то 240МГц на 150 умножителей и столько же сумматоров дадут уже 72ГФлопса, а если часть операций можно индексировать блочно с таблицы, (в i7 на это теряется такт с первого кеша), то недостающий фактор в 3-5 раз за счет правильной структуры алгоритма позволяет сделать Core i7 дохлым циклоном, при том, что Core i7 в этот момент жрет под 100Ватт (их розетки там все 200 Ватт получается), а циклон - всего 6 Ватт. Но конечно стоит заметить, что для произвольных ветвящихся и слабо параллельных алгоритмов расклад бывает далеко не в пользу циклона.

Можете взглянуть на тегру, там простор большой.

не хочу взглядывать, так как довольно хорошо владею темой являясь с 2008 года поставщиком в NVidia услуг по GPU/CUDA и суперкомпьютингу в Европе, смотрим

http://www.nvidia.com/object/cuda_consultants.html и ищем там фирму Элегантная математика, в которой я работаю.

iiv 16

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

EvilWrecker 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Aner 1

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

iiv 16

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Aner 1

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

iiv 16

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

EvilWrecker 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

iiv 16

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Tosha1984 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

EvilWrecker 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

iiv 16

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

EvilWrecker 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

iiv 16

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

EvilWrecker 0

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

iiv 16

Поделиться сообщением

Ссылка на сообщение

Поделиться на другие сайты

Обзор

Активность