Necessariamente os dados devem ser rotulados ou classificados e existem muitas formas de conseguir isto: a) pode pegar dados históricos , dados interessantes que já estejam rotulados, voce pode executar experimentos para obter dados rotulados, como os testes A/B para ver como muitos clicks podem ser capturados ou pode também obter dados rotulados terceirizados (crowdsourced) como reCAPTCHA faz para reconhecimento de texto. Outra opção interessante é descobrir um padrão que determina uma determinada saída. Por exemplo, na base sentimento 140 usaram twits com carinha feliz para rotular 800 mil twits com sentimento de felicidade e carinha triste como o sentimento oposto, resultando numa base de testes de 1,6 milhão de dados. Que outros tipos de bases com padrões podemos obter desta forma? ;-)