Перейти к содержанию
    

Целостность конфигурации ПЛИС

Прочитал 3 страницы, но почему то ответа я не нашёл. Все же как можно контролировать целостность ? Нужна отдельная плис ? Или реализовать внутри конкретной плис ? Или все же как то возможно через jtag ?

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Когда я спрашиваю взрослых людей, много лет занимающихся разработкой ответственной техники, о том, как практически убедиться в эффективности своих мер по повышению надежности, то они ничего внятного ответить не могут. Элементная база устаревает морально и снимается с производства быстрее, чем желаемый срок ее надежного функционирования. Как можно в таких условиях что-то исправить на основе измеренной на практике статистики, а не придуманной теоретиками?!

методика проведения испытаний на надёжность аднака надо....

если устройство супернадёжно то тогда ставят на испытание N штук + меры увеличивающие старение (обычно термоцеклирование)...

да - испытывать дорого и сложно, отсюда и цена.... бывает и по несколько месяцев 10 приборов непрерывно надо в термокамере держать...

 

 

Всякие теоретико-логико-математико доказательства тож используются ...особенно буржуями чтобы туфту прорекламировать и впарить... называют это safety а не reliability...

 

 

-------

Что касается reliability

 

Считаю постановку вопроса о том как бороться с проблнемами некорекной.

Вначале нужно определить какие факторы воздействуют, а потом построить модель отказов и уш только потом - придумывать способы повышения надёжности....

У кого тут есть какая инфа? По вероятностям отказа, по влиянию внешних факторов....

 

Вот мне кажется, что надёжность пайки пинов раз в 1000 хуже, чем вероятность некоректного всасывания прошивки... так-что лутше просто пины дублировать, чем о высоких материях думать (CRC, TRM итп)

Опять-же, надёжность источника питания (DC-DC) наверняка раз в 100 ниже вероятности отказа ПЛИС...Так-что и тут не о CRC надо думать....

 

--------

Что касается safety

 

Тут нужно придумать способ определения того, работает ли устройство правильно сейчас или нет...

думаю однозначного ответа трудно найти, и в этой области просто море патентов (способов) как этого добится...

 

Как варианты:

1) Self Checking Design (напр. кодирование внутренних сигналов с битом чётности).

Он кстати требует Self Checking Checker схемы и такие есть.

2) Проверка на системном уровне. Кстати - самое популярное решение.

Напр. наша ПЛИС делает сжатие данных. Встраиваем микроконтроллер который периодически прогоняет тестовый пакет данных с известным результатом через нашу ПЛИС.

Напр. ПЛИС конвертит формат данных - включаем loopback на удалённом конце и прогоняем PRBS пакеты.

3) можно встроить DFT структуры и прогонять ATPG внешним микроконтролером.

4) Можно встроить BIST тесты внутри цифры и переодически их запускать (напр. тесты памяти).

 

 

 

В тему надежности :

мое руководство (а мы пытаемся "сесть" на ПЛИСы) прослышало, что Альтеровские ПЛИСы страдают спорадическими (чисто, внатуре случайными) отказами от раз-в-неделю до раз-в-месяц.

А что народ бывалый по этому поводу думает ? Замечали таковое ?

Из нескольких милионов штук микросхем, которые прошли полный цикл производственного тестирования, заказчики нам возвращают 1-2 шт...

Причина возврата - отказ или сбой...

Так вот - отказ почти всегда это ESD пробой из-за небрежности заказчика...

ну и 1 на 10 милионов - дефект технологии (типа окисление переходного отверствия или есчё что...)

 

Такч-то "переодический отказ раз в месяц" - это не поломка ПЛИС.

Если у вас с питанием, волновым согласованием внешних линий передачи итп. всё 100% ОК и это именно ПЛИС, то тут скорее проблемы дизайна из-за:

- Cross Domain Clocking ошибки (приводят к метастабильностям)

- либо некоректно заданы STA констрейны (вот скважность осцилятора вы как в STA констрейнах учли? А как девиацию напряжения питания в STA учли? итд...) ...тоже кстати к метастабильности приводят...

 

Боротся с этим (ошибками в ДНК :)) можно только верификацией (UVM вам поможет) и натурными испытаниями (и не забываем о functional coverage при этом)

 

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

На верное не правильно выразился. Точнее не до рассказал. Xilinx Virtex есть я так понимаю порт ICAP он позволяет контролировать построчно и исправлять конфигурацию. Только как с ним работать внутри самой плис ? Или отдельно ставить ? Если можно внутри то как описать его работу(на каком языке? Есть пример?)

Вот примерно так. Я представляю. Спасибо.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Ох, "искусственный интеллект" никак сам себя не может научиться оценить, как м большинство людей со своим естественным плохо рефлексируют и хорошо брешут, в отличие от оценок остальных наружу ? ;)

Я бы лично (в целях минимизации) использовал только прозвучавшую здесь несколько раз идею о периодически вклинивающихся тестах из Центра -- на что заточена данная прошивка, то ей и командовать с известными исходными данными/выходом (пусть рандомно выбираемыми), сравнивать полученные результаты.

Плохо, если "Центра" нет и принимать решение должен тот же самый "мозг", в котором мы не уверены на 100%, тут надо читать психиатрические форумы, причём древние, без демократических извратов, та наука развивалась ведь дольше и на более сложном материале ;)

Абстрагируясь от типа и конкретики данного кристалла, для каждого самописного блочка можно встраивать самодиагностику и сводить всё воедино, но только для покупных ядер это потребовать достаточно проблематично, и вдруг глюканёт ячейка на объединении сигналов... Склифосовский, короче ;)

Вообще, parity биты незря сейчас заложены во всех ПЛИС-памятях -- их первым делом будет крушить при пролёте *-частиц и других проблемных ситуациях с вероятностью обнаружения 1/2, гораздо менее вероятны остальные типы глюков. Другое дело, что нет жёсткого их (parity) образования и хранения/сравнения в каждой логической ячейке после конфигурирования -- экономически невыгодно со всех сторон в открытой продукции.

Перегрузка конфигурации на лету может быть не очень удобной -- после этого Центр должен перегрузить и себя целиком, ибо "горячее включение" ПЛИС может потребовать её такой перенастройки и перевстраивания в систему, что мало не покажется. Тут лучшее решение -- энергонезависимая конфигурация на флэши, которую здесь много раз пропагандировали. Но раз те ПЛИС не хочется использовать, то других плюсов у них нет, в основном минусы ?

Вообще, надо разрабатывать свои защищённые СБИС и наворачивать там, что угодно.

Практика -- критерий истины, как учили М-Э-Л-s ещё 25 лет назад, так что соломку стелить лучше там, где уже были падения, заранее "теоретически" бояться не стоит, по статистике падежей и надо ориентироваться и бороть проблему.

Боюсь, что "хороших" в этом отношении кристаллов нам никогда не продавали и не продадут, а своё когда наладится, тогда заживём !

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

В Xilinx tcnm блок ICAP. Не могу понять как проверить его работу ? Судя по описанию он именно представляет доступ к конфигурационной памяти....

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

В 08.07.2011 в 17:45, vpd сказал:

А мне вот думается, что цифры по надежности - это полное шаманство и профанация. И методики расчета - тоже полная туфта.

Тоже такая мысль пришла, когда почитал отчёты производителей (интел, ксайлинкс, актель) по надёжности, из которых вытекает, что среднее время работы до первого сбоя у ПЛИС составляет сотни, тысячи и десятки тысяч лет :dash2:

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Приветствую!

On 7/8/2011 at 4:45 PM, vpd said:

А мне вот думается, что цифры по надежности - это полное шаманство и профанация. И методики расчета - тоже полная туфта.

6 hours ago, DeadCadDance said:

Тоже такая мысль пришла, когда почитал отчёты производителей (интел, ксайлинкс, актель) по надёжности

Приведите свои расчеты или результаты испытаний опровергающие данные производителя. А иначе получается еще большая туфта (типа я верю что прививки  вредны).  

Ресурсные испытания это всегда долго и дорого. Как пример далекой молодости - СССР. Делается партия в 6 (всего шесть) шт.  простых реле для ответственного применения в спутник. Для установки ресурса в испытаниях на отказ  использовали 10K (десять тысяч!)  штук реле из этой же партии. И они пол года непрерывно молотили срабатывания на стенде в камере тепла и холода. И через пол года,  по количеству и качеству отказов в этих 10K  вывели показатели ресурса и надежности по срабатыванию для этих 6 шт. 

Ну а потом  кто то может сказать "...все это туфта...". 

IMHO  Любые разговор о способах повышения надежности  надо начинать с определения конкретных моделей угроз, вероятности различных типов отказов,  критериев оценки этой надежности. И начинать надо  с системного уровня а не с уровня отдельного чипа. 

Удачи! Rob.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

2 часа назад, RobFPGA сказал:

Приведите свои расчеты или результаты испытаний опровергающие данные производителя. А иначе получается еще большая туфта (типа я верю что прививки  вредны).  

Когда производитель говорит о десятках и сотнях тысяч лет средней наработки до первого отказа - "моя рука тянется к маузеру"©
Тут и к бабке ходить не надо, чтобы понять, что производитель "брешет как сивый мерин".

За 100 тыс лет даже камень на атомы распадётся, а тут такая тонкая и хлипкая штука из деталек размером нанометры

По моим представлениям в SRAM-based ПЛИС с 100 тыс вентилей и 1Мб пользовательской оперативки сбой будет происходит в среднем каждые несколько дней непрерывной работы.

 

Но производители никогда об этом не напишут из боязни, что тогда никто не будет покупать их продукцию.

 

Но они зря боятся: в большинстве применений сбой ПЛИС не опасен. Более того, в большинстве случаев пользователь его даже не заметит

Изменено пользователем DeadCadDance

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Приветствую!

Just now, DeadCadDance said:

Когда производитель говорит о дестяках и сотнях тысяч лет средней наработки до первого отказа - "моя рука тянется к маузеру"©

Не надо так расстраиваться товарищ! Их успехи это не повод стреляться. :unknw: Сходите лучше к бабке  - она успокоит, а заодно и объяснит что так оно и есть.

Удачи! Rob.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Да, даже в тех самых, хороших компаниях власть захватывают программисты. Слово диффузия им знакомо плохо.... Тысячи лет. Посчитайте через сколько лет концентрация примесей выровняется во всех слоях вашей мелкосхемы хотя бы при 40 градусах цельсия, при современном тех процессе в 18-40нм.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

1 час назад, RobFPGA сказал:

Их успехи это не повод стреляться

Да они в своих reliability отчётах могут хоть миллионы лет наработки до первого сбоя написать, но всем очевидно, что это "успехи" они сами себе нарисовали.

1 час назад, RobFPGA сказал:

так оно и есть

Что "так оно и есть"?

Что среднее время работы ПЛИС до первого сбоя десятки миллионов часов?

С физикой и химией в школе не дружили?

Изменено пользователем DeadCadDance

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Приветствую!

2 hours ago, DeadCadDance said:

С физикой и химией в школе не дружили?

В наше время в школе с друзьями дружили, а  физику с химией учили. Очень мне нравились практические занятия подтверждающие выученную теорию.

4 hours ago, DeadCadDance said:

По моим представлениям в SRAM-based ПЛИС с 100 тыс вентилей и 1Мб пользовательской оперативки сбой будет происходит в среднем каждые несколько дней непрерывной работы.

И это на уровне моря при нормальных условиях?  Вы, судя по вашим представлениям, даже математику слабо освоили  потому как по вашему  даже маленький Kintex XKU40 (~500K LE,  ~20Mb BRAM) должен сбоить среднем раз в час.  Или даже чаще с учетом того что в 1 LE это несколько вентилей. Что несколько расходится с моей практикой. В чем вы также можете убедится (чтобы сэкономить на визите к бабке) взяв хорошую платку с FPGA и проведя ряд экспериментов.

Удачи! Rob.

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

17 hours ago, DeadCadDance said:

Когда производитель говорит о десятках и сотнях тысяч лет средней наработки до первого отказа - "моя рука тянется к маузеру"©

Мне кажется, Вы или не так что-то посчитали или не так интерпретировали данные. Годков 5-6 назад мы на фирме считали надёжность системы, построенной на базе ПЛИС Spartan-6. Конкретно для ПЛИС были получены результаты надёжности немного уступающие реле первого класса надёжности, правда я уже точно не помню цифр. И порядки были в районе 10^-6 для всего камня. Исходные данные взяты с официальных источников и ничего отсебятины не придумано. Ищите место где ошибка, сомневаюсь, что за 5 лет критически поменялась надёжность или способы изготовления кристаллов

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

 
 
 
 
 
 
12 часов назад, RobFPGA сказал:

Что несколько расходится с моей практикой

Расскажите поподробней о Вашей практике.

По какой методе определяли: был сбой или нет (ведь обнаружить сбой тоже дело не простое - они хитрые бывают, сразу и не заметишь) и какую частоту сбоев наблюдали?

56 минут назад, Nick_K сказал:

Мне кажется, Вы или не так что-то посчитали или не так интерпретировали данные.

Ну вот к примеру.

Для 65 нм стратикса III производитель пишет, что его FIT = 9,5

3hO0c1h.jpg

 

Это значит что за миллиард часов произойдёт в среднем 9,5 сбоев

 

Это значит, что 1 отказ происходит в среднем за 12 тысяч лет

 
 
 
 
57 минут назад, Nick_K сказал:

Исходные данные взяты с официальных источников и ничего отсебятины не придумано.

А я что говоря про FIT в районе 9,5 ... 50 отсебятину что ли несу?:punish:

Я тоже пользуюсь только официальной инфой от производителя :rtfm:

Изменено пользователем DeadCadDance

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Приветствую!

9 minutes ago, DeadCadDance said:

По какой методе определяли: был сбой или нет (ведь обнаружить сбой тоже дело не простое - они хитрые бывают, сразу и не заметишь) и каекую частоту сбоев наблюдали?

Было несколько  проектов (Virtex 5/6) в котором весь  dataflow  был покрыт СRС.  Плюс периодический прогон  тестовых последовательностей  со сравнением результата вычислений. Отслеживал работу несколько систем с uptime боле года,  счетчики ошибок FPGA были нулевые. 

Успехов! Rob,

Поделиться сообщением


Ссылка на сообщение
Поделиться на другие сайты

Присоединяйтесь к обсуждению

Вы можете написать сейчас и зарегистрироваться позже. Если у вас есть аккаунт, авторизуйтесь, чтобы опубликовать от имени своего аккаунта.

Гость
Ответить в этой теме...

×   Вставлено с форматированием.   Вставить как обычный текст

  Разрешено использовать не более 75 эмодзи.

×   Ваша ссылка была автоматически встроена.   Отображать как обычную ссылку

×   Ваш предыдущий контент был восстановлен.   Очистить редактор

×   Вы не можете вставлять изображения напрямую. Загружайте или вставляйте изображения по ссылке.

×
×
  • Создать...