реклама на сайте
подробности

 
 
4 страниц V  < 1 2 3 4 >  
Closed TopicStart new topic
> Какое расстояние может петлять сигнальная дорожка LPDDR2 между ног процессора без учета волнового, например при 333МГц
iiv
сообщение Nov 19 2017, 00:07
Сообщение #16


вопрошающий
*****

Группа: Свой
Сообщений: 1 631
Регистрация: 24-01-11
Пользователь №: 62 436



Цитата(Aner @ Nov 19 2017, 05:01) *
В многослойках важна толщина по меди в слоях. К примеру иногда использую медь 18 микрон внутри, и делаю по минимуму 75 микрон дорожки, зазаоры соответственно. На топе, боттоме эти 18 до 35 доращивают за счет метализации, там только по 100 микрон можно. Может поможет, узнайте на вашей фабе.
Ну и препрег 63 микрона можете использовать с вашими то слоями.

да, верно, 75-микронной дорожкой и очень тонким преппрегом можно хорошо место сэкономить, правда у тех, у кого я платы делал ценник на 8 слоев с такой технологией получался выше, чем если 100микрон и 12 слоев, поэтому я в этом направлении не посматривал. Мне и на прототипах (коих будет не один и два) хочется сэкономить, да и в масспродукции (10-100к в год) задорого не хотелось бы делать.
Go to the top of the page
 
+Quote Post
EvilWrecker
сообщение Nov 19 2017, 07:59
Сообщение #17


ядовитый комментатор
******

Группа: Свой
Сообщений: 2 360
Регистрация: 25-06-11
Пользователь №: 65 887



Цитата
я исходил из грубой пробной своей разводки

Если я правильно определил парты по поиску, то Вы пытаетесь положить "обычную"(не PoP) фпга шириной 23мм на плату шириной 23мм при этом используя PoP LPDDR2. Оба прибора насколько можно понять EOL, возможно до кучи другого из Вашего BoM- тоже.

Поставить PoP как обычный корпус на плату можно- задумка не та, но технически это осуществимо. Однако зачем здесь 16 слоев понять можно только взглянув на то как Вы скомпоновали борду: на 16 слоях можно развести например 2 ранка DDR4 memory down расположенных с одного направления корпуса(т.е. ранк за ранком), а если корпус оптимизированный(аля интел) то и того больше. У Вас же одна 32х битная микросхема для которой почти ничего не нужно выдумывать или потеть даже при установке на борду, в силу размера и пинаута. Физик эзернета? Тоже не должно быть никаких проблем, у Вас не какой-нибудь PAM-4. Так откуда проблемы взялись? biggrin.gif У Вас есть скриншоты компоновки?

Не проще ли будет купить SoM и сделать под него несущую плату?
Go to the top of the page
 
+Quote Post
Aner
сообщение Nov 19 2017, 10:39
Сообщение #18


Гуру
******

Группа: Свой
Сообщений: 4 506
Регистрация: 28-02-08
Из: СПБ
Пользователь №: 35 463



QUOTE (iiv @ Nov 18 2017, 17:36) *
... что все длины дорожек память-процессор находятся в диапазоне 5-12.5мм на всех 6 слоях, то разводка памяти не выйдет за габариты этого ЕДИНСТВЕННОГО чипа памяти (12х12мм), и оставшаяся часть узкой платы 9-10мм уйдет на честные и широкие языки питания, правильно выровненные LVDSы клока и RGMII. Из-за этого-то и весь сыр-бор.

целостность сигнала надо было бы получить, я бы перед посылкой на печать вогнал бы свою разводку в свой FEM-BEM симулятор, посчитал бы все S-параметры и все резонансы, и понял можно ли так делать или нет. Понятно, что наверное это есть в каких-то пакетах, но с ними пока опыта не было и ИМХО, вытащить эти параметры мне будет проще, чем освоить пакеты, тем более FEM-BEM симулятор свой собственный, самолично писанный вплоть до его линейных решателей, что подкрутить или вытащить нужную физику могу быстро (doi: 10.1515/jnma.2007.031, doi: 10.1007/978-3-540-71980-9_42, doi: 10.1002/nla.297).

Не забудьте про -> signal trace lengths, те что от шарика до поинта на кристале иначе можете при выравнивании промахнуться мимо вашего допуска в 5...7мм. Ну и Гиперлинкс вам поможет если что. И глазковую с джиттерами можете там же видеть.
И если для себя сами все тащите, и железо и софт, то совет верный начните с SoM. Там хоть все уже оттестировано по железу, и софт отладить уверенно можно.
Go to the top of the page
 
+Quote Post
iiv
сообщение Nov 19 2017, 15:06
Сообщение #19


вопрошающий
*****

Группа: Свой
Сообщений: 1 631
Регистрация: 24-01-11
Пользователь №: 62 436



Огромное спасибо всем за советы!

Цитата(EvilWrecker @ Nov 19 2017, 13:59) *
Не проще ли будет купить SoM и сделать под него несущую плату?

плата самого прибора с SoM у меня есть и там все идеально работает и софт отлажен. Я бы не в жизни не полез в эту разводку, если бы падлюка Интел вдруг ни с того ни сего не отказался от линейки Интел-Эдисон и Интел-Джоуль. Мне Джоуль по производительности (полностью) и размером корпуса (почти) устраивал, но из-за интеловских косяков у них SPI работал на 6МБитах вместо 2х25МБитс, а мне сильно не хватало и приходилось использовать Интел-Эдисон, который слегка по производительности не дотягивал и в нем тоже только 15МБитс было... В общем я мог пока с этим как-то криво-косо уживаться, но летом этого года Интел отказался поддерживать Эдисон и Джоуль, перестал их производить, и я не смог найти аналогичный SoM.

Мои требования что мне надо иметь:
* 1ГБайт памяти, но лучше 2ГБайта,
* минимум 300МФлопс, но лучше 500-600МФлопсов и именно на процессоре,
* примерно 64ГБайта внешней памяти (SDCARD или еще чего),
* адекватно быстрый доступ на внешний мир, чтобы веб мордой можно было показывать и иногда даже визуализировать научные данные (2Д и 3Д ЯМР спектры) (USB2.0 или Ethernet 100MBit и больше) - раньне пользовал USB от Интел-Эдисона,
* разумно быстрый (20МБит/с примерно, но лучше больше) и с минимальной латентностью канал на плиску,
* плиска, на которой постоянно крутятся 30-40ГМип/с-30-40ГФлоп/с вычисления и имеет прямой доступ на 16битный 2х канальный 160МГц оцифровщик (эта часть хорошо отладилась в ранних разводках).
* корпус 26мм если я довольно геморно корпусирую сам аппарат (для юзера не сильно удобное), и 22-23мм если корпусирование простое и удобное.

Подходящих сомов на рынке нет и не предвидится... Летом тряс электроникс и всем миром решили, что альтернативы нет...

Единственно что получается - CycloneV-SoC плюс полная разводка всего: RGMII, DDR2/DDR3/LPDDR2, SDCARD и сам кристалл плиски работает как плиска и как вычислительный процессор.

Так как на соме все работает еще лета, я перенес софт на демо борду от терасика DE10-SoC и все там отладил. То есть софт тьфу-тьфу, должен после разводки без танцев с бубном поехать сразу как только я назначу в нем новые пины.

Понятно, что если разводка что-то изменит, я, могу в разумных пределах подстроить в софте (для процессоров и для плиски) все, что мне надо, так как это полностью мною разработанный пакет.

Цитата(EvilWrecker @ Nov 19 2017, 13:59) *
Однако зачем здесь 16 слоев понять можно только взглянув на то как Вы скомпоновали борду:

я тоже очень надеюсь, что мне не нужно 12 или даже 16 слоев, и списываю свои приблизительные расчеты на свое неумение и пытаюсь по максимуму разобраться как это можно безболезненно оптимизировать.

Цитата(EvilWrecker @ Nov 19 2017, 13:59) *
Если я правильно определил парты по поиску, то Вы пытаетесь положить "обычную"(не PoP) фпга шириной 23мм на плату шириной 23мм при этом используя PoP LPDDR2. Оба прибора насколько можно понять EOL, возможно до кучи другого из Вашего BoM- тоже.

Простите, пожалуйста, а что такое PoP FPGA? Та, которая с процессором? Да, мне нужна с процессором.

Плиска в корпусе BGA484 с шагом 0.8мм, плиска CycloneV-SoC 5cseba2 или в том же корпусе, но пожирнее но с полной совместимостью по пинам, то есть плиска 19мм.
Память: EDBA232B2PF-1D-F-R, или ее полностью совместимый аналог на 1ГБайт, скажите, пожалуйста, правильно ли я понимаю, что это самый удобный и легкий по разводке корпус?
RGMII KSZ9031RNX (взял из даташита терасика, чтобы не придумывать как это разводить),
клок LMK03318 (в SoM дизайне пользовал, и так как там есть куча свободных незапрограммированных выхоодов, могу их попользовать для тактирования HPS и RGMII).

Из-за проблем с корпусом всего этого дела надо точно вписаться в 23.2мм, но желательно чуть-чуть еще меньше, идеально в 22мм.

Цитата(EvilWrecker @ Nov 19 2017, 13:59) *
У Вас есть скриншоты компоновки?

пока стыдно их показывать, так как постоянно перерисовываю, но заметил, что слои плодятся ужасно и нет понимания как это пресекать.

Скажите, пожалуйста, разумно ли я выбрал технологию:

дорожки и зазоры 0.1мм, дырки 0.2мм, в плиске (которая с шагом 0.8мм) планирую ставить глухие виа, но не планировать (или постараться) не ставить внутренние переходные (сильно стоимость производства подскакивает). Препреги 0.1мм. Дорожки получаются 0.17мм, расстояния между дорожками 0.17*3=0.5мм, удлинять преимущественно тромбонами, а не змейками в целях экономии места.

Слои - сколько получится, но по идее из общего здесь обсуждения я должен точно вписаться в 8 слоев, правда пока у меня получалось только 14 слоев, поэтому я и бил тревогу. Если удастся поиграться на длине разброса до 7.5мм, то может и на 6 слоев рассчитывать.

Если я не прав, тыкните, пожалуйста, что в технологии изменить!

Спасибо!

ИИВ
Go to the top of the page
 
+Quote Post
Aner
сообщение Nov 19 2017, 15:46
Сообщение #20


Гуру
******

Группа: Свой
Сообщений: 4 506
Регистрация: 28-02-08
Из: СПБ
Пользователь №: 35 463



Вы граунд слои не сократите случайно. Да и для диф пар волновое определит расстояние между проводами, ширину, зазоры и препреги. Хотя их у вас не много, но отъедят места достаточно. Так что не расслабляйтесь, калькулируйте ...
Go to the top of the page
 
+Quote Post
iiv
сообщение Nov 19 2017, 22:45
Сообщение #21


вопрошающий
*****

Группа: Свой
Сообщений: 1 631
Регистрация: 24-01-11
Пользователь №: 62 436



Цитата(Aner @ Nov 19 2017, 16:39) *
Не забудьте про -> signal trace lengths, те что от шарика до поинта на кристале

я понимаю, что я большой красный стояночный тормоз, но обгуглился и таки не нашел это для моих микросхем, конкретно интересует:

1. память LPDDR2: нужна EDBA232B2PB-1D или EDBA232B2PF-1D и очень желательна EDB8132B4PM-1D-F,
2. плиска 5CSEBA2U19C8N и может быть 5CSEBA4U19C8N и 5CSEBA5U19C8N

Пожалуйста, научите искать или тыкните носом где написаны эти характеристики (задержки от шарика до кристалла) для вышеуказанных микросхем!

Спасибо!!!

ИИВ
Go to the top of the page
 
+Quote Post
EvilWrecker
сообщение Nov 20 2017, 05:40
Сообщение #22


ядовитый комментатор
******

Группа: Свой
Сообщений: 2 360
Регистрация: 25-06-11
Пользователь №: 65 887



Цитата
пока стыдно их показывать, так как постоянно перерисовываю, но заметил, что слои плодятся ужасно и нет понимания как это пресекать.

Это как боязнь публичных выступлений- ну закидают помидорами и что? Пофигу на всех этим форумных критиканов и ядовитых комментаторов- важно что информация идет которую легко проверить самому laughing.gif- выкладывайте смело.
Цитата
Простите, пожалуйста, а что такое PoP FPGA?

PoP= Package On Package, т.е. монтаж на бга субстрат процессора сверху.
Цитата
Мне и на прототипах (коих будет не один и два) хочется сэкономить, да и в масспродукции (10-100к в год) задорого не хотелось бы делать.

Интересно посмотреть как Вы хотите сэкономить на продукции выбирая плис отличающиеся чуть ли не в полтора раза в цене а также продукты со статусом Non-Stock(отпускаются только большими количествами) либо EOL(снято с производства.)
Цитата
Из-за проблем с корпусом всего этого дела надо точно вписаться в 23.2мм, но желательно чуть-чуть еще меньше, идеально в 22мм.

А откуда такие цифры взялись?
Цитата
дорожки и зазоры 0.1мм, дырки 0.2мм, в плиске (которая с шагом 0.8мм) планирую ставить глухие виа, но не планировать (или постараться) не ставить внутренние переходные (сильно стоимость производства подскакивает). Препреги 0.1мм. Дорожки получаются 0.17мм, расстояния между дорожками 0.17*3=0.5мм, удлинять преимущественно тромбонами, а не змейками в целях экономии места.

Перечисленное лишь говорит о недостатке информации-начиная с annular ring заканчивая массой другого. Что касается тромбона- он лучше подходит для компенсированный "больших" разбегов, для "меньших" используется аккордеон. Закладываться на что-то одно не имея картины- опрометчиво biggrin.gif

Вы случайно не в кикаде собрались это делать?
Цитата
Мои требования что мне надо иметь:

Если не считать размеров то по цене,потреблению, интерфейсам и удобстве разводки можно было бы предложить атом, но грязные хаки тут скорее всего уже не пройдут biggrin.gif С другой стороны на 100к можете отдать китайской ODM, Вам сделают борду.
Go to the top of the page
 
+Quote Post
iiv
сообщение Nov 20 2017, 06:17
Сообщение #23


вопрошающий
*****

Группа: Свой
Сообщений: 1 631
Регистрация: 24-01-11
Пользователь №: 62 436



Спасибо большое за советы и комментарии!
Цитата(EvilWrecker @ Nov 20 2017, 11:40) *
Интересно посмотреть как Вы хотите сэкономить на продукции выбирая плис отличающиеся чуть ли не в полтора раза в цене а также продукты со статусом Non-Stock(отпускаются только большими количествами) либо EOL(снято с производства.)

если брать findchip.com цену и сравнить то, что я пользовал раньше: FPGA 50бакс и Интел Джоуль 200Бакс, то при переходе на плис со встроенным процессором (даже пожирнее плиски) цена составляет всего-то 100бакс плюс память 22 бакса. На лицо реальная экономия. Даже если вписываться в старом дизайне с интел эдисоном, то цена так на так получается. А удобство того, что плиска соединена с процессором внутри корпуса с минимальной латентностью для моей задачи также очень важна и позволяет добавить в аппаратуру несколько удобных пользователю фитч.

С памятью - не соглашусь с вами тоже, на кошках можно по-штучно купить за 11 бакс в эрроу планку на 1ГБайт, а в продукции воткнуть 2ГБайта за 22 бакса.

Если вдруг у вас будет идея какую другую простую в разводке память на 2ГБайта попользовать, с преогромной благодарностью выслушаю Ваши советы!

Цитата(EvilWrecker @ Nov 20 2017, 11:40) *
Это как боязнь публичных выступлений- ну закидают помидорами и что? Пофигу на всех этим форумных критиканов и ядовитых комментаторов- важно что информация идет которую легко проверить самому laughing.gif- выкладывайте смело.

так как делаю это пока временно в кикаде, не хотелось это делать, но надеюсь, таки на этой неделе с оркадом вопрос решится, тогда и буду выкладывать.

Цитата(EvilWrecker @ Nov 20 2017, 11:40) *
Перечисленное лишь говорит о недостатке информации-начиная с annular ring заканчивая массой другого

так примерно накидайте, пожалуйста, в какое направление смотреть, а то реально вижу, что делаю не так, но не понимаю, как разумнее!

Цитата(EvilWrecker @ Nov 20 2017, 11:40) *
А откуда такие цифры взялись?

это из габаритов аппаратуры, тут сложно с этим что-то сделать.
Go to the top of the page
 
+Quote Post
Tosha1984
сообщение Nov 20 2017, 06:40
Сообщение #24


Частый гость
**

Группа: Участник
Сообщений: 82
Регистрация: 20-04-06
Пользователь №: 16 295



Цитата(iiv @ Nov 20 2017, 01:45) *
Пожалуйста, научите искать или тыкните носом где написаны эти характеристики (задержки от шарика до кристалла) для вышеуказанных микросхем!

Ох.
Вообще глобально эту информацию можно вытянуть из тайминг репортов системы проектирования FPGA. Не скажу как это выглядит у Альтеры, но у Xilinx например это задержка от IOBUF до пэда.
Но вообще - когда Вам производитель микросхемы пищет в даташите требования по выравниванию - в них его собственные разбежки длин уже учтены.
Go to the top of the page
 
+Quote Post
EvilWrecker
сообщение Nov 20 2017, 07:04
Сообщение #25


ядовитый комментатор
******

Группа: Свой
Сообщений: 2 360
Регистрация: 25-06-11
Пользователь №: 65 887



Цитата
если брать findchip.com цену и сравнить то, что я пользовал раньше

То Вы проиграете атому по ссылке который стоит чуть больше 30 баксов, потребляет порядка 10Вт и имеет массу других преимуществ- я правда не понял как Вы смотрите через тот сайт(он же умер вроде давно): сам смотрю через октопарт и через "свое".
Цитата
цена составляет всего-то 100бакс плюс память 22 бакса.

За такие деньги можно собрать бом на х86 с одним ранком ддр4 и до кучи всего остального, включая хорошие физики эзернета от марвелов и броадкомов, а если постараться то еще и на плату хватит.
Цитата
Если вдруг у вас будет идея какую другую простую в разводке память на 2ГБайта попользовать, с преогромной благодарностью выслушаю Ваши советы!

Насколько я помню Вы находитесь в EU, и вроде даже как в Германии- тогда смотрите на DDR3/4 MCP: в случае с атомом по ссылке у которого один ранк DDR4 прекрасно подойдут MCP от Mercury Systems, наподобие тех что обсуждались в этой ветке.
Цитата
так как делаю это пока временно в кикаде, не хотелось это делать, но надеюсь, таки на этой неделе с оркадом вопрос решится, тогда и буду выкладывать.

Не нужно никого и ничего бояться- выкладывайте как есть.
Цитата
так примерно накидайте, пожалуйста, в какое направление смотреть, а то реально вижу, что делаю не так, но не понимаю, как разумнее!

Для начала получите хотя бы Design Rules Kit от Вашего производителя и определитесь с IPC Class для платы.
Цитата
Вообще глобально эту информацию можно вытянуть из тайминг репортов системы проектирования FPGA.

Именно так- хотя иногда можно попросить табличку экселевскую у FAE.
Go to the top of the page
 
+Quote Post
iiv
сообщение Nov 20 2017, 08:04
Сообщение #26


вопрошающий
*****

Группа: Свой
Сообщений: 1 631
Регистрация: 24-01-11
Пользователь №: 62 436



Цитата(EvilWrecker @ Nov 20 2017, 13:04) *
То Вы проиграете атому по ссылке который стоит чуть больше 30 баксов, потребляет порядка 10Вт и имеет массу других преимуществ- я правда не понял как Вы смотрите через тот сайт(он же умер вроде давно): сам смотрю через октопарт и через "свое".

За такие деньги можно собрать бом на х86 с одним ранком ддр4 и до кучи всего остального, включая хорошие физики эзернета от марвелов и броадкомов, а если постараться то еще и на плату хватит.

провидимому в этом у нас с вами есть глобальное недопонимание.

Я исхожу из того, что мне одновременно надобно минимум
100 умножителей 18 битных (в плиске) работающих на частоте хотя бы 240МГц, ну а лучше 150 умножителей, ну и логики, понятно, в придачу,
около 500МФлопсов в процессоре, с которым есть хорошая связь с маленькой латентностью (да, мне надобно на этом процессоре lapack/blas библиотеки, поэтому ниосы идут лесом),
я не сильно представляю как можно иметь это все с атома за 30 бакс. Не факт, что он даже 500МФлопс покажет, они от одной версии к другой часто сильно отличаются.

То есть мною озвученная цена 100 бакс за плиску включает модель с 174 умножителями и два ядра процессора, которые делают атом (даже четырехядерный) на двойной точности как тузик грелку. Ну с 2ГБайтовой-то памятью за 22 бакса у Вас, надеюсь, нет возражений? Лезть на DDR3-DDR4 - ИМХО, бессмысленно, так как плиска всяко больше 400МГц по шине не поддержит, я понимаю, что я выбрал более медленную память LPDDR2, но именно из-за того, что она в 2ГБайтах одним куском и разводка проще. Если есть какие-то адекватные альтернативы, пожалуйста, поделитесь Вашим мнением!

Теперь о потреблении.
То, что у меня было (версия с CycloneV + Intel Joule или Edison) со своей недецкой производительностью, потребляло у меня 6 ватт на плиске и 1 ватт на процессоре, то есть 7Ваттт. При переносе на демоборду DE10-SoC, где все вычисления идут на CycloneV-SoC этого же дизайна общее потребление этой борды со всеми свистелками и перделками (а эти перделки не попадут на мою плату) упало до 6Ватт. И на черта мне этот Атом с 10ваттным потреблением, который все равно не сможет решать мои задачи без плиски или недецкого OpenCL ускорителя типа Mali T7xx? Я могу свой софт так изуродовать, что он будет считаться на этой куцей графической карте, но это будет очень криво и я не хотел бы идти по этому пути.

Цитата(EvilWrecker @ Nov 20 2017, 13:04) *
Насколько я помню Вы находитесь в EU, и вроде даже как в Германии- тогда смотрите на DDR3/4 MCP: в случае с атомом по ссылке у которого один ранк DDR4 прекрасно подойдут MCP от Mercury Systems, наподобие тех что обсуждались в этой ветке.

я и не против, и, как я понимаю, речь идет о W3J512M32GT-XB2X но ведь:
1. надо где-то ее купить, а ждать долго и нудно у немцев коммерческое предложение у меня нет желания,
2. не сильно вижу смысл использовать память быстрее 400МГц и за скорость платить, если сам процессор (Cyclone-V-SoC) такие скорости не поддерживает. Я конечно понимаю, что можно на аррию переползти, но мне это будет дорого и без надобности.

Цитата(EvilWrecker @ Nov 20 2017, 13:04) *
Для начала получите хотя бы Design Rules Kit от Вашего производителя и определитесь с IPC Class для платы.

ну да... просил у multi-circuit-boards.eu , pcbpool.com и нескольких китайцев, у кого делал платы до этого, все попросили прислать гербер чтоб подумать и написать сколько будет стоить изготовление, но ни одна падлюка не ответила именно с внятным мануалом по Design Rules Kit.

Цитата(Tosha1984 @ Nov 20 2017, 12:40) *
Вообще глобально эту информацию можно вытянуть из тайминг репортов системы проектирования FPGA.

ага, вот когда это память присобаченная к плисочасти - то да, в квартусе я такое где-то видел, а вот если память к процессору привязана, квартус молчит как партизан.
Go to the top of the page
 
+Quote Post
EvilWrecker
сообщение Nov 20 2017, 08:07
Сообщение #27


ядовитый комментатор
******

Группа: Свой
Сообщений: 2 360
Регистрация: 25-06-11
Пользователь №: 65 887



Цитата
Атом с 10ваттным потреблением, который все равно не сможет решать мои задачи

Т.е. внезапно медленный задохлый циклон соединенный абы как с недопроцессором джоли оказался вдруг гораздо производительнeе атома дли мини серверов? В таком случае непонимание действительно есть laughing.gif
Цитата
около 500МФлопсов в процессоре

А Вы знаете сколько у атома производительность?
Цитата
То, что у меня было (версия с CycloneV + Intel Joule или Edison) со своей недецкой производительностью, потребляло у меня 6 ватт на плиске и 1 ватт на процессоре, то есть 7Ваттт.

Очень большие сомнения в этих цифрах- на 99% могу сказать что не верю.
Цитата
ну да... просил у multi-circuit-boards.eu , pcbpool.com

А у них и нет того что Вы просите.
Go to the top of the page
 
+Quote Post
iiv
сообщение Nov 20 2017, 08:34
Сообщение #28


вопрошающий
*****

Группа: Свой
Сообщений: 1 631
Регистрация: 24-01-11
Пользователь №: 62 436



Цитата(EvilWrecker @ Nov 20 2017, 14:07) *
Т.е. внезапно медленный задохлый циклон соединенный абы как с недопроцессором джоли оказался вдруг гораздо производительнeе атома дли мини серверов? В таком случае непонимание действительно есть laughing.gif

у меня довольно хитрая структура вычислений, если решать исходную задачу в лоб на хорошем компьютере (у меня есть что-то под рукой с 24ТФлопсами пиковой), симулируя приходящие данные с оцифровщиков, то для решения этой задачи мне надобно 10 миллиардов вычислений синусов/косинусов и арктангенсов в секунду с примерно 40 битной мантиссой (i7 нервно курит в сторонке, про атом даже думать не будем).

В плиске же этот алгоритм вписывается если пользовать 150 умножителей клоча их на частоте 240МГц, и, понятно пользуя всякие остальные плисоудобства в виде блочной памяти и логики.

Но чисто этот алгоритм не может жить сам по себе без еще одного алгоритма (сингулярное разложение), которое мне надобно выполнять регулярно для очень маленькой матрицы. На ниосах это сделать не получается, так как для этого куска надобно 500МФлопсов: матрицы маленькие, где-то 20х20, но выполнять надо часто, где-то раз в 100 мкс, поэтому нужна хорошая скорость обмена между плиской и процессором, и хорошая латентность, чтобы протащить информацию для этой матрицы на процессор и результат вычислений на плиску (в компактном виде это генерит трафик около 3МБайтов в секунду) + матрицы получаются на основе прыганья по постоянно обновляемой базе данных, для котоорой надобно 1-2 ГБайта оперативки. Задержка в 30-50 микросекунд приведет к полному останову системы и потере данных за последние 2-3 минуты, то есть это очень не желательно делать.

Цитата(EvilWrecker @ Nov 20 2017, 14:07) *
А Вы знаете сколько у атома производительность?

1.5 DP FLOPs/cycle: scalar SSE2 addition + scalar SSE2 multiplication every other cycle
то есть два его ядра на полной (разогнанной частоте) 2.1ГГц покажут в пике 6.3ГФлопса, лапак (в варианте MKL) покажет где-то 4ГФлопса если ну очень сильно повезет, а на реальных задачах если и будет 2ГФлопса, то можно сильно радоваться.

EDIT: мне интеловская архитектура больше нравится, так как на ней без танцев с бубнами лапаки ходят и мне проще с моими софтами, которые сильно от lapack/blas зависят, но не всегда эти интелы бывают достаточно производительными за ватт и/или за бакс.
Go to the top of the page
 
+Quote Post
EvilWrecker
сообщение Nov 20 2017, 08:50
Сообщение #29


ядовитый комментатор
******

Группа: Свой
Сообщений: 2 360
Регистрация: 25-06-11
Пользователь №: 65 887



Цитата
у меня довольно хитрая структура вычислений, если решать исходную задачу в лоб на хорошем компьютере (у меня есть что-то под рукой с 24ТФлопсами пиковой), симулируя приходящие данные с оцифровщиков, то для решения этой задачи мне надобно 10 миллиардов вычислений синусов/косинусов и арктангенсов с примерно 40 битной мантиссой (i7 нервно курит в сторонке, про атом даже думать не будем).

Еще лучше biggrin.gif Циклон младший обошел Core i7. Нет, не верю- даже если алгоритм очень хитрый, это нонсенс. Я бы сомневался даже если речь шла о комбинации армов с дсп, но полноценный х86(не говоря о топ процессорах)- это чушь. Переубеждать бесполезно laughing.gif

Цитата
EDIT: мне интеловская архитектура больше нравится, так как на ней без танцев с бубнами лапаки ходят и мне проще с моими софтами, которые сильно от lapack/blas зависят, но не всегда эти интелы бывают достаточно производительными за ватт и/или за бакс.

Можете взглянуть на тегру, там простор большой.
Go to the top of the page
 
+Quote Post
iiv
сообщение Nov 20 2017, 08:57
Сообщение #30


вопрошающий
*****

Группа: Свой
Сообщений: 1 631
Регистрация: 24-01-11
Пользователь №: 62 436



Цитата(EvilWrecker @ Nov 20 2017, 14:50) *
Еще лучше biggrin.gif Циклон младший проиграл Core i7. Нет, не верю- даже если алгоритм очень хитрый, это нонсенс. Я бы сомневался даже если речь шла о комбинации армов с дсп, но полноценный х86(не говоря о топ процессорах)- это чушь. Переубеждать бесполезно laughing.gif

проблем нет, этот спор окончим

так, на всякий случай, не Вам, а тем кому может будет интересно: i7 на такт и тред дает 8 операций с двойной точностью, то есть в пике при 3ГГц и 8 тредах - это будет всего-то 200ГФлопсов. Если по алгоритму позволительно соскалировать экспоненту, а длинную мантиссу иметь на сложении, то 240МГц на 150 умножителей и столько же сумматоров дадут уже 72ГФлопса, а если часть операций можно индексировать блочно с таблицы, (в i7 на это теряется такт с первого кеша), то недостающий фактор в 3-5 раз за счет правильной структуры алгоритма позволяет сделать Core i7 дохлым циклоном, при том, что Core i7 в этот момент жрет под 100Ватт (их розетки там все 200 Ватт получается), а циклон - всего 6 Ватт. Но конечно стоит заметить, что для произвольных ветвящихся и слабо параллельных алгоритмов расклад бывает далеко не в пользу циклона.

Цитата(EvilWrecker @ Nov 20 2017, 14:50) *
Можете взглянуть на тегру, там простор большой.

не хочу взглядывать, так как довольно хорошо владею темой являясь с 2008 года поставщиком в NVidia услуг по GPU/CUDA и суперкомпьютингу в Европе, смотрим
http://www.nvidia.com/object/cuda_consultants.html и ищем там фирму Элегантная математика, в которой я работаю.
Go to the top of the page
 
+Quote Post

4 страниц V  < 1 2 3 4 >
Closed TopicStart new topic
2 чел. читают эту тему (гостей: 2, скрытых пользователей: 0)
Пользователей: 0

 


RSS Текстовая версия Сейчас: 14th December 2017 - 00:29
Рейтинг@Mail.ru


Страница сгенерированна за 0.01413 секунд с 7
ELECTRONIX ©2004-2016