Sarcófago: Minha Monografia VIII - Capítulo 2, parte 2

2.3.1 - Explorer

A interface Explorer é a interface principal do WEKA. Como já dissemos anteriormente, ela permite que o usuário acesse os recursos do sistema através de menus e do preenchimento de formulários. Ela possui seis painéis diferentes, cada um com o propósito de permitir a realização das diferentes tarefas disponibilizadas pelo WEKA.

O primeiro painel permite o pré-processamento dos dados. É através dele que a fonte de dados sobre a qual a mineração de dados será feita é aberta. Quando a base de dados está aberta, o painel de pré-processamento permite visualizar os atributos existentes na base de dados, os valores possíveis para cada um deles, definir qual dos atributos será utilizado como objetivo da classificação e, graficamente, relacionamentos simples entre os valores da base de dados. No caso de atributos numéricos, o painel mostra quais são seus valores máximo e mínimo, sua média e seu desvio padrão. Além disso, neste painel é possível selecionar os atributos que serão usados na mineração de dados.

Apesar de o WEKA ser capaz de ler as bases de dados a partir de arquivos de texto com conteúdo separado por vírgulas (arquivos com a extensão .csv) ou diretamente a partir de um banco de dados, ele tem um formato de arquivo proprietário, de extensão .arff. Através do painel de pré-processamento é possível realizar a conversão de vários tipos de bases de dados para arquivos do tipo .arff.

Por fim, através do painel de pré-processamento é possível realizar diversas operações sobre a base de dados de forma a limpá-la e organizá-la para a realização da mineração de dados, como a discretização, normalização e transformação numérica dos dados. Para cada uma destas tarefas, o WEKA fornece vários algoritmos diferentes, a maioria deles oferecendo uma ampla gama de configurações possíveis. Estes algoritmos são divididos em diversas categorias: algoritmos de adição e remoção de atributos, algoritmos de modificação de valores, algoritmos de conversão de valores e algoritmos de randomização são alguns deles.

O segundo painel permite a execução de diversos algoritmos de mineração de dados que executam a classificação das instâncias existentes na base de dados. Neste painel o usuário pode selecionar o algoritmo desejado, configurá-lo (cada algoritmo fornece diferentes formas de configuração) e executá-lo. Este painel também exibe um relatório com o resultado do processamento do algoritmo de mineração de dados. O resultado da mineração depende do tipo de algoritmo utilizado, e pode ser qualquer um dos possíveis resultados descritos neste trabalho no capítulo 1. Outras informações listadas no relatório de resultado de processamento incluem estimativas da performance dos resultados, estatísticas de erro e estatísticas relacionadas com a classificação obtida.

Depois de executado o processamento, é possível ainda executar o algoritmo novamente sobre uma segunda base de dados para verificar a sua performance. O resultado deste segundo processamento também é exibido neste painel. Se o usuário não dispuser de duas base de dados, uma para o aprendizado e outra para a verificação de aprendizagem, é possível dividir a base de dados única em duas, informando qual porção dela será usada para o aprendizado e qual porção será usada no processo de verificação de aprendizagem.

Se durante uma mesma utilização do WEKA o usuário executar vários algoritmos diferentes, ou o mesmo com várias configurações de parâmetros, este painel exibe uma lista contendo todas estas execuções. Basta que o usuário clique sobre um determinado item na lista que o resultado do seu processamento será exibido, sem a necessidade de executar novamente a mineração.

Além disso, através deste painel é possível salvar os parâmetros definidos para os algoritmos de mineração de dados, sendo possível compartilhá-los e carregá-los futuramente. Por fim, é possível obter outras informações além daquelas exibidas no relatório de processamento, como curvas de custo, erros de previsão e, no caso algoritmos cujos resultados sejam árvores de decisão, a visualização gráfica das mesmas.

Entre os algoritmos fornecidos, incluem-se também algoritmos de meta-aprendizagem, que recebem um ou mais algoritmos como parâmetro e implementam técnicas para melhoria da aprendizagem, incluindo tentativas de melhora de performance, estimativa de custos, e execução paralela de dois ou mais algoritmos para validação estatística das potencialidades de cada um deles.

O terceiro painel é utilizado para a execução de algoritmos de mineração de dados que têm como objetivo a definição de clusters. Suas funcionalidades são basicamente as mesmas do segundo painel do WEKA, permitindo que o usuário selecione o algoritmo de mineração de dados desejado, efetue o ajuste dos parâmetros dos algoritmos que o permitirem, definir os dados que serão usados durante a aprendizagem e durante a verificação de aprendizagem, salvar e carregar parâmetros e visualizar os resultados do processamento.

O quarto painel é utilizado para a execução de algoritmos de mineração de dados que têm como objetivo a descoberta de regras de associação. Este painel é mais simples do que o segundo e o terceiro painéis, não apresentando as funcionalidades de definição dos dados que serão usados para aprendizagem e para verificação de aprendizagem. À exceção desta diferença, este painel apresenta as mesmas funcionalidades dos outros painéis para execução de algoritmos de mineração de dados.

O quinto painel oferece ao usuário ferramentas automatizadas para pré-processamento da base de dados. Estas ferramentas auxiliam o usuário na escolha de quais atributos devem ser levados em consideração durante a execução dos algoritmos de mineração de dados, realizando validações e verificações sobre os atributos existentes na base de dados e então sugerindo quais deles representam boas opções para serem utilizados para a mineração.

O sexto painel oferece ao usuário diferentes maneiras de visualizar sua base de dados através de gráficos bidimensionais, que mostram como as classificações das instâncias são distribuídas de acordo com dois atributos (os eixos X e Y dos gráficos). Os gráficos podem ser livremente configurados pelo usuário para exibir combinações entre quaisquer atributos da base de dados. Nestes gráficos, cada uma das instâncias existentes na base de dados é plotada como uma marcação em X, que pode, por sua vez, ser clicada. Quando a marcação de uma instância é clicada no gráfico, uma pequena janela é aberta, onde são exibidos os valores dos atributos daquela instância.

2.3.2 - Knowledge Flow

A interface Knowledge Flow tem a finalidade de fornecer aos usuários do WEKA a facilidade de organizar os componentes do WEKA (algoritmos, fontes de dados, etc.) em uma área de trabalho e conectá-los na forma de um grafo que determina como os dados são obtidos, processados e analisados. "Ela provê uma alternativa à interface Explorer para aqueles que gostam de pensar em termos de como os dados fluem pelo sistema". (Witten, Frank, p. 427). Além disso, permite o acesso a fonte de dados contínuas ou extremamente grandes, funcionalidade não fornecida pela interface Explorer.

Em sua parte superior existem oito abas que dão acesso aos componentes disponíveis e sua parte central é ocupada pela área de montagem dos componentes, onde eles são colocados e conectados.

Quase todos componentes disponibilizados nas abas superiores da interface Knowledge Flow estão disponíveis também na interface Explorer. As adições são os componentes que permitem o acesso a fontes de dados contínuas e alguns algoritmos de mineração de dados que trabalham apenas com massas de dados muito grandes, que não podem ser carregadas na interface Explorer.

Quando colocados na área de montagem, os componentes não podem ser conectados entre si de qualquer maneira. Apesar de bastante flexível, a interface Knowledge Flow não permite que o usuário realize conexões que não façam sentido, ou seja, que não sejam um fluxo de dados válido. Além disso, certas possibilidades de conexão só são disponibilizadas a partir de um componente quando este já estiver recebendo um determinado tipo de conexão. Como exemplo disso, podemos citar que não é possível conectar um componente de algoritmo de geração de árvore de decisão a um componente de visualização de gráficos sem antes conectar um componente de fonte de dados ao componente do algoritmo.

Por fim, é possível conectar alguns algoritmos entre si. Estes algoritmos, quando conectados, realizam um tratamento incremental sobre as bases de dados para realizar a mineração.

Quando todo o fluxo já estiver configurado, a mineração é iniciada através de um clique com o botão direito do mouse sobre o componente de fonte de dados e a seleção da opção "Iniciar Carregamento".

A primeira aba apresenta as fontes de dados possíveis. Entre algumas das opções disponíveis estão arquivos .arff e conexões diretas a banco de dados. Cada uma das possíveis fontes de dados pode ser apropriadamente configurada de acordo com as necessidades do usuário. No caso de bancos de dados, por exemplo, o usuário deve configurar os parâmetros de acesso ao banco, assim como a instrução SQL (Structured Query Language, Linguagem de Consulta Estruturada) que irá obter os dados desejados.

A segunda aba apresenta os destinos possíveis para os dados, ou seja, onde podem ser gravados os resultados das minerações de dados ou até mesmo do pré-processamento. As opções desta aba são as mesmas da primeira aba, à exceção da opção TextDirectory. Da mesma forma, cada um dos componentes oferece vários parâmetros de configuração ao usuário.

A terceira aba apresenta os algoritmos de pré-processamento de dados disponibilizados pelo WEKA. Como exemplos, podemos citar os algoritmos de discretização de dados, reordenação de instâncias e transformação de dados. Assim como na interface Explorer, a maioria dos algoritmos de pré-processamento de dados podem ser configurados de acordo com as necessidades e interesses do usuário.

As quarta, quinta e sexta abas põem à disposição do usuário os algoritmos de mineração de dados, divididos entre classificadores, geradores de clusters e geradores de regras de associação, respectivamente. Como já dissemos anteriormente, os algoritmos aqui disponibilizados são os mesmos existentes na interface Explorer, com a adição de alguns que só trabalham com fontes de dados extremamente grandes, que não podem ser carregadas diretamente para a memória do computador.

A sétima aba apresenta ferramentas de tratamento das bases de dados importadas, que funcionam como uma forma de preparação primária dos dados recebidos, facilitando a geração de fontes de dados de treinamento e de avaliação de treinamento, entre outros. Além disso, fornece também ferramentas de avaliação estatística dos algoritmos de processamento.

A oitava e última aba fornece ferramentas de visualização, tanto dos dados quanto dos resultados de processamento. Podemos citar, como exemplo, a ferramenta de visualização de árvores de decisão, à qual podem ser conectados os algoritmos de mineração de dados cujo resultado de processamento sejam árvores. Esta aba inclui algumas ferramentas não disponíveis na interface Explorer.

Páginas

Minha Monografia VIII - Capítulo 2, parte 2

Nenhum comentário: