Распознавание образов: не надо горячиться!

Совсем недавно в СМИ прошло сообщение о том, что, мол, в дружественной нам – с сильной экономикой, второй в мiре – стране, достигли такого совершенства в вопросах распознавания образов, что уже сейчас можно распознавать лица в противоэпидемических масках и, более того, фиксировать запахи от каждой конкретной личности. Что, естественно, усиливает эффект от такого распознавания, т.е. повышает его достоверность.

Что касается запахов, сделаем грубое допущение, что слухи эти – преувеличены. Поговорим, просто – о распознавании образов.

В одной из предыдущих своих статей автор этих строк напоминал читателю, что сама тема распознавания образов начала разрабатываться, примерно с середины прошлого (двадцатого) столетия. К тому времени в СССР уже были разработаны и изготавливались вычислительные машины (ЭВМ) коллективного пользования (Вычислительные центры).

Несколько сотен научно-исследовательских институтов, функционирующих в то время в стране, посылали в эти вычислительные центры своих программистов и инженеров, которые, становясь в очередь – очередь не простую, а «приоритетную» (поскольку были задачи первостепенные и задачи второстепенные) – дожидались, пока их не допускали к средствам вычислительной техники, и решали текущую производственную проблему.

Классической задачей распознавания образов была задача распознавания отпечатков пальцев, как наиболее трудоемкая в сферах реализации криминологических практик силовых структур государства. Понятно, что к тому времени соответствующие структуры (МВД – министерства внутренних дел) имели базы данных в специальных картотеках, накопленных за предыдущие десятилетия. Понятно, что при уровне того времени, успехи или неудачи в решении конкретных задач распознавания и различения отпечатков, определялись многими факторами, перечислять которые мы здесь пока не будем. При имеющейся в то время разрешающей способности восьмиразрядных вычислительных машин, более или менее удачное распознавание образов реализовывалось при числе «записей» (содержащих коды рисунков или фотографий) в базе данных, не превышающем нескольких тысяч образцов.

Здесь следует напомнить, что «машинные слова» в имеющихся восьмиразрядных ЭВМ не превышали величины в 16, 32, 64, 128 единиц.

Другим примером использования автоматического распознавания образов является визуальная (сканируемая вычислительными средствами) диагностика видов заболеваний, идентифицируемых по цветным фотографиям со стекла микроскопа срезов биопсии или образцов крови.

Понятно, что вплоть до конца двадцатого века эффективность такого автоматического распознавания была явно недостаточной; и окончательный диагноз, все-таки, производился врачами-специалистами.

С усовершенствованием средств вычислительной техники, особенно с появлением персональных компьютеров, качество распознавания и программ, реализующих это распознавание – улучшилось радикально.

В начале третьего тысячелетия, или, скажем, в 2010-х – 2015-х гг. уже можно было подводить итоги усилий, предпринимаемых технократами в этой сфере. В это время радикально возросли объемы оперативной и буферной памяти вычислительной техники, появились новые принципы и приёмы распознавания, возросли скорости обработки информации.

Но, было замечено, что улучшение эффективности процесса распознавания происходит за счет обмена его качества на:

1. Увеличение энергопотребления, а соответственно и тепловыделения электронными элементами вычислительной техники;

2. Увеличение времени обработки образцов распознавания и сравнения их с имеющимися образцами в базе данных;

3. Усложнении алгоритмов и программ, участвующих в процедурах распознавания;

4. Ухудшении помехоустойчивости при увеличении количества «записей» (образцов) в базе данных и усложнении программ и алгоритмов обработки информации;

5. Увеличение персонала, обслуживающего аппаратурный и программные комплексы «производства» распознавания образов»;

6. Удорожание (увеличение финансовых затрат) сферы «производства» распознавания образов».

Таким образом, вышеозначенное «производство» распознавания образов» усложняется, особенно с увеличением «записей» в базе данных, которое требует соответственной числу «записей» – разрешающей способности программно-аппаратного комплекса.

Перечисленные шесть пунктов, усложняющих разработку требуемого – по эффективности – аппаратно-программного комплекса, формируют своеобразный «потолок»: с одной стороны создающий мотивацию для инженерно-технического персонала в части достижения хороших (или приличных) результатов; с другой стороны, соблазняющий инвесторов темы на получении недостижимого результата, выражающегося вербальной формулой «лучшее – враг хорошего». При десятках миллионов записей в базе данных «сравниваемых» образцов, процент «хорошего» результата при «распознавании лиц» в настоящее время не превышает пятнадцати – двадцати процентов. Т.е. удачное распознавание, при вероятности ошибки, не превышающей одной тысячной, касается только одной пятой массива базы данных.

Персоналии, попавшие в другую часть распознаваемых образцов (остальные четыре пятых), могут ликовать: их образы «единственны и неповторимы» – шутка.

Наоборот!

Их образы настолько повторимы, что ошибки при их распознавании «превышают все допустимые пределы». Таким образом, сама жизнь, или её реалии не позволяют достичь высоких результатов при распознавании образов (или образцов), размещенных в базе данных с десятками миллионов «записей».

Поэтому при разработке рассматриваемой нами темы первостепенное значение придается оценке «потолка» предполагаемых результатов в свете перечисленных нами шести пунктов для оправдания инвестиционных вложений.

Следовательно, бояться тотального контроля с помощью распознавания образов можно только в том случае, если это распознавание производится в ограниченном массиве базы данных – не превышающем нескольких тысяч «записей» (образцов) в базе данных; или – не превышающих нескольких миллионов в базе данных – но с сильно увеличенным временем распознавания. Т.е. ожидание результатов распознавания при таком числе «записей» растягивается на многие часы и даже сутки.

Можно предположить, что следующий этап изменения ситуации в лучшую сторону может наступить лишь с резким увеличением пропускной способности магистралей передачи данных в модулях вычислительной техники, ассоциирующимся со стандартом передачи данных, соответствующим 6G или 7G, которые в природе еще не существуют.

А в остальном, как говорят, «Бог все устроит…».

Уткин Юрий Герасимович, православный публицист

Автор оперирует какими-то давно устаревшими данными (если не "высосанными из пальца"). Никаких ссылок на источники нет, оценки даны явно "с потолка".

Коротков А. В. / 07.09.2020, 12:17

3. Ещё одна ссылка на реальность

Нашёл для другой системы ссылки на массив. «Сигма-ИС RM3-Детектор-10 000 000» - массив до 10 млн. , скорость распознавания 0,7 секунды. Цена 26 млн. руб. Не очень-то запредельно, не правда ли?

Андрей Карпов / 07.09.2020, 11:57

2. Как-то не бьётся это с реальностью

Вот разработчики технологии ORBL пишут, что их алгоритм распознает до 1500 признаков на лице, вся информация собирается в файл векторов размером около 1,5 Кб. Точность распознавания составляет 99,99997% распознавание лиц с поворотом головы до 65 градусов. Распознавание идет в реал-тайм с задержкой в 0,4 секунды. Ограничения по массиву не прозвучали... Но с учетом легковесности файла, думается, что массив может быть большим.

Андрей Карпов / 07.09.2020, 11:44

1. Хорошо написано

Хорошо написано и по делу!

bryzgalov-kv / 07.09.2020, 07:25