En la mayoría de las aplicaciones de minería de datos se asume un entorno de observación, a saber, generación de datos aleatorios. Por lo general, la distribución del muestreo es totalmente desconocida después de la recopilación de datos, o se proporciona parcial e implícitamente dentro del procedimiento de recopilación de datos. Sin embargo, es vital saber cómo la recopilación de datos afecta su distribución teórica, ya que este tipo de conocimiento previo suele ser útil para modelar y, más tarde, para la interpretación final de los resultados. Además, es importante asegurarse de que la información utilizada para estimar un modelo y, por lo tanto, los datos utilizados posteriormente para probar y aplicar un modelo proceden de una distribución muestral equivalente y desconocida. Si este no es el caso a menudo, el modelo estimado no se puede utilizar con éxito en una aplicación final de los resultados.