28.11.1995 Новости Для надежного тестирования необходим большой объем данных В прошлых статьях мы рассматривали проблемы разработки экспериментов и анализа данных, возникающие при определении производительности системы. В первой из них мы говорили о влиянии человеческого фактора, во второй - об аппаратных проблемах. Давайте сегодня закончим обсуждением ловушек, которые кроются в обычных статистических методах, если применять их в нашей работе. Как я отмечал в прошлой статье, расчет среднего - грубый метод, который легко может привести к неверным заключениям. Если брать среднее, подброшенная монета всегда становится на ребро, однако это нельзя назвать типичным результатом. Это просто середина между обычными (и при этом крайними) результатами - орлом и решкой. Пользователь, который в половине случаев получает отличные результаты, а в половине - никакие, вряд ли будет доволен, при этом неважно, какой получается средняя оценка производительности системы. Так что нам надо уметь правильно ставить вопросы, чтобы утверждение, что одна система работает лучше, чем другая, имело смысл. Пол Коэн, профессор информатики Университета штата Массачусетс в Эмхерсте, предлагает следующий образец диалога между автором "улучшенной" системы и его скептически настроенным коллегой. "Доказательства, - говорит первый, - у меня есть доказательства. Сегодня вечером я запущу программу, средний показатель будет выше 60, и тогда все поймут, что модифицированный код лучше". Скептик ...
читать далее.