Большинство случаев, в которых кластерный анализ работает - это ситуации, когда на входе то же самое, что на выходе. То есть те же характеристики, но сформулированные несколько иначе. Если заранее сформулировать вопросы так, чтобы ответы, например, от умных и от глупых хорошо кластеризовались, мы да, таки получим кластеризацию. Например, задавать вопросы про высшую математику и про "Фабрику звезд". Получим четкое разделение. Это - тривиальный случай. Но вопросы типа
- "5 или 4"?
- "Кто не синий?"
- "Три ли тещи?"
- "Или не он, или 10?"
подбирают ПО ТОМУ ЖЕ ПРИНЦИПУ - чтобы были видны кластеры. Играть так можно, это забавно, но делать по этому принципу выводы нельзя.
Проблема в том, что для нормальной статистики надо, чтобы не только выборка испытуемых представляла генеральную совокупность, но и выборка вопросов тоже. А генеральной совокупности всех вопросов в природе не существует.
|