Minha Monografia VI - Capítulo 1, parte 3

1.2.3 - Resultados possíveis


Pelas descrições dos algoritmos de mineração de dados fica claro que existem várias formas diferentes de representar seus resultados. A presente seção entra em mais detalhes sobre algumas destas formas.


1.2.3.1 - Tabelas de Decisão


As tabelas de decisão são a forma mais simples e rudimentar de representação dos resultados de mineração de dados. Ao final da mineração é criada uma tabela cujas colunas são os mesmos atributos existentes na base de dados. Para descobrir o provável resultado de uma nova instância basta procurar por uma linha na tabela de decisão que se assemelhe a ela.


1.2.3.2 - Árvores de Decisão


Árvores de decisão são estruturas na forma de grafos onde cada nó representa um teste sobre um dos atributos das instâncias. O resultado do teste indica qual caminho na árvore deve ser seguido para terminar a classificação. Normalmente, os testes requerem a comparação de um atributo com um determinado valor constante, mas há casos em que dois atributos são comparados ou que uma função seja aplicada sobre dois ou mais atributos. Percorre-se, então, a árvore, até que um nó folha seja alcançado: é ele que indica a classificação da instância sendo testada.

Normalmente, quando o atributo é nominal, o número de ramos que saem do nó é o mesmo que o de valores possíveis para o atributo. Já quando o atributo é numérico, o teste verifica se o valor do atributo é superior ou inferior a uma determinada constante, gerando dois novos ramos. Podem haver casos em que os valores numéricos são testados para verificar se encaixam-se em um determinado intervalo, caso em que podem haver mais de dois ramos partindo de um mesmo nó.

Além disso, há casos em que os atributos são testados uns contra outros, ao invés de serem comparados com valores constantes. Estas são as chamadas regras com relação. Elas são mais comuns quando os atributos sendo analisados têm valores numéricos, ao invés de nominais. Há casos em que a definição de regras em que valores são comparados com valores constantes pode se revelar ineficaz, tendo em vista que futuras instâncias podem passar a apresentar valores de atributos em intervalos diferentes.


1.2.3.3 - Regras de Decisão


Regras de decisão são formadas por conjuntos de testes, sendo que cada um dos conjuntos representa uma classificação diferente. Se uma instância satisfizer todos os testes de um conjunto ela recebe uma determinada classificação.

Há casos em que as regras de um conjunto devem ser executadas em uma determinada ordem para que a classificação seja correta. Entretanto, há casos em que as regras não têm uma ordem determinada de execução.

À primeira vista, pode parecer que as regras de decisão não passam de árvores de decisão colocadas por escrito, mas normalmente não é o caso. Árvores de decisão, quando colocadas por escrito, podem forçar a realização de testes desnecessários.

O sentido contrário também pode ser difícil de executar: tentativas de criar árvores de decisão a partir de regras de decisão pode levar à criação de árvores demasiado complexas, além do necessário.


1.2.3.4 - Regras de Associação


Como já foi dito antes, regras de associação são regras que não tratam de descrever associações entre valores de atributos e determinados objetivos, mas sim de descrever associações entre associações e valores de atributos ou associações entre associações.

Mesmo em bases de dados com poucos dados e poucos atributos, é possível que uma quantidade considerável de regras de associação seja gerada. Um dos objetivos dos algoritmos que geram este tipo de resultado é gerar regras que cubram o máximo possível de instâncias.


1.2.3.5 - Regras com Exceção


Regras de exceção, na verdade, são uma extensão das regras de decisão. Elas surgem quando, após a execução da mineração de dados e a consequente criação de um conjunto de regras de decisão, surgem novas instâncias que não se encaixam em nenhuma das classificações.

Ao invés de executar a mineração novamente, um especialista de domínio pode ser consultado para verificar se é possível adicionar uma exceção a alguma das regras anteriormente definidas. Uma regra com uma exceção anexada é escrita da seguinte forma, por exemplo:

Se G > 56 e B < 30, então classificação = A, exceto se B < 5, então classificação = W.


1.2.3.6 - Clusters


Clusters são agrupamentos de instâncias. Os algoritmos que geram este tipo de saída buscam formar subconjuntos da base de dados. As instâncias podem, dependendo do algoritmo, ser classificadas em apenas um ou mais de um cluster. Há ainda casos em que, para cada instância, é calculada a probabilidade de sua classificação em cada um dos clusters. Por fim, podem ser geradas hierarquias de clusters onde, em uma primeira etapa, um pequeno número de clusters é gerado, e em seguida cada um deles é subdividido em grupos menores.

2 comentários:

Sony Santos disse...

"Podem haver casos", "Podem haver mais de dois ramos" etc. Na verdade, o correto é "Pode haver", no singular.

Mário Marinato disse...

Vixe! Foi errado pra professora.

Valeu a dica, Sony. Vou corrigir no meu arquivo aqui.

Grande abraço.