1. Файлов будет лавина - мне это очень хорошо известно
Даже если взять большую корп. сеть, скажем на 1000 ПК и пытаться применяемый там софт держать в базе чистых (хотя-бы на уровне запушенныого и находящегося в автозагрузке), то придется постоянно ее пополнять, по 50-100 файлов в день (причина банальна - всякие гаранты-консультанты, 1C, туча самописного или ведомстенного софта, криптошифровалки, лавина разных украшалок системы, скринсейверов, плагинов и т.п.). У меня действует такая система очень давно, и поток добавляемых файлов не снижается во времени.
2. В корпорациях никто этим заниматься не будет
Это я как СБ-шник с большим стажем говорю - ибо служба безопасности не совсем двинулась головой, чтобы заниматься аудитом того, что какая-то непонятная программа посылает неясно кому непонятно для чего (особенно если посылает в сжато-зашифрованном виде).
3. См. п.п. 1 - трафик не иссякнет никогда !! Берем скажем 1000 программ, это 10000 файлов. Но файлы то постоянно обносляются - выходят новые версии, каждая третья программа сейчас с автоапдейтом через Инет и т.п. Берем тот-же антивирус - у него компоненты постоянно апдейтятстя, возьмем за прмиер того-же KIS, сколько его версий гуляет по Инет ?! Прибавим тучу его бета-версий, и получим десятки тысяч файлов только на нем. Плюс разные локализации продуктов (при условии, что локаль не в базе, а именно локализуется файл). Плюс креки (крекнутая версия отличается контрольной суммой от нормальной, для популярной программы будет несколько типов креков). AVZ сейчас распознает порядка 70-80% ПО по базе чистых, многое за счет ЭЦП. Чтобы довести эту цифру скажем до 90% - нужно увеличить базу на 1-2 порядка, вместо 70 тыс получить 700-800 тыс.
Поэтому это решение проблемы ... тем более что получив поток файлов разработчики столкнутся с другой проблемоу - как понять, чистый файл или нет ? Скажем это какой-то непонятный драйвер, сам по себе (без управляющей программы) он ничего не делает, следовательно поведенческий автоанализ в чистом виде отпадает. И что с ним делать - ковырять дизассемблером ?! А как быть с файлами, допускающими двойственное применение (в полезных целях и в зловредных) ?
Поэтому AV разработчики идут другим путем -
1. Создают базы ЭЦП тех поставщиков, которым доверяют (с возможностью добавления или удаления ЭЦП). В такой ситуации скажем для идентификации файлов MS или Adobe достаточно только проверить ЭЦП. Все больше крупных производителей ПО видят эту тенденцию и подписываю свои исполняемые файлы
2. Оснащают свои продукты всякими эвристиками, которые могут заподозрить и закарантинить что-то. Например эвристик KIS7 (в частности эмулятор) из входящего потока всякой дряни у меня на конвейере ежедневно отлавливает с десяток новых неизвестных науке зверей. Если умножить работу такого эвристика на миллионы юзеров KIS - получим карантин, но не всего подряд, а только вызывающего подозрение.