CAPÍTULO 3 - ESTUDO DE CASO
3.1 - SOBRE O ESTUDO DE CASO
Durante o curso de Administração de Bancos de Dados, do qual este trabalho desempenha o papel de Trabalho de Conclusão de Curso, tivemos a oportunidade de sermos alunos da cadeira de Mineração de Dados, ministrada pelo professor Carlos Alberto Alves Lemos.
A disciplina tinha como objetivos definir e apresentar a mineração de dados, mostrar seu desenvolvimento e estado corrente, suas aplicações em situações reais e explicar diferentes métodos através dos quais a mineração de dados pode ser feita. Finalmente, nos foi exposto também o WEKA.
Como parte de nossa avaliação na cadeira de Mineração de Dados, o professor Carlos Lemos nos pediu para realizar uma mineração sobre uma base de dados utilizando o sistema WEKA e que o resultado da mesma fosse apresentado a ele na forma de um trabalho por escrito.
Para nos auxiliar na execução do trabalho, o professor Carlos Lemos nos informou o endereço de um sítio onde era possível obter bases de dados no formato de arquivos .arff, já preparadas para a mineração no WEKA, mas também nos permitiu criar nossas próprias bases de dados, caso assim desejássemos. Em nosso trabalho, utilizamos como base de dados os dados provenientes de um banco de dados particular contendo informações sobre uma coleção de discos.
3.2 - EXECUÇÃO E RESULTADOS
A base de dados era composta de 144 instâncias, cada uma com seis atributos, sendo um deles o classificador das instâncias, que representa a qualidade do disco representado pela instância (ruim, bom ou ótimo eram os valores nominais deste atributo), de acordo com o gosto do colecionador. Alguns destes atributos tiveram que ser normalizados, transformados e/ou discretizados.
O primeiro atributo indicava a quantidade de músicas existentes em cada disco. Nenhum pré-processamento foi necessário em relação a este atributo.
O segundo atributo indicava em qual terço do disco estava localizada a faixa preferida do colecionador. A base de dados original trazia neste atributo o número real da faixa dentro do disco, mas depois de algumas tentativas infrutíferas de mineração de dados, foi preciso que o alterássemos para que ele passasse a refletir em que porção do disco a faixa se encontrava.
O terceiro atributo indicava em qual terço do disco estava localizada a faixa que o colecionador menos gostava. Este atributo apresentou os mesmos problemas iniciais apresentados pelo segundo atributo, que foram resolvidos da mesma forma.
O quarto atributo era o já citado classificador de qualidade dos discos. Apesar de tê-lo mantido como textual, tivemos que tratá-lo através de um algoritmo de substituição de texto porque os valores estavam grafados de maneiras diversas (otimo e ótimo, por exemplo), o que levaria a resultados inadequados.
O quinto atributo indicava qual o estilo musical do disco em questão. Seus valores possíveis iam de 1 a 8, representando, respectivamente, os seguintes estilos: trilha sonora, MPB, pop, rock, new age, axé, jazz e rap. Na base de dados original, este atributo era textual, e optamos por torná-lo numérico tendo em vista que haviam estilos que estavam grafados de duas ou mais maneiras diferentes (rock e rock'n'roll, por exemplo), o que poderia atrapalhar o processo de mineração.
O sexto e último atributo indicava a duração do disco. Como na base de dados original ele estava armazenado no formato de horas:minutos, também necessitamos tratá-lo. Em uma primeira tentativa, utilizamos um algoritmo de discretização de dados para transformar todos os valores deste atributo em um número entre 0 e 1, sendo que o menor deles seria transformado em 0 e o maior deles transformado em 1. Porém, esta discretização não mostrou-se valiosa para a mineração de dados e decidimos, posteriormente, apenas converter os valores do atributo para minutos.
Estando com a base de dados já preparada, passamos à escolha o algoritmo de mineração de dados para geração de árvores de decisão que oferecesse o melhor índice de acerto quando utilizado para avaliar discos do colecionador que não faziam parte da base de dados.
Após algumas tentativas, ficamos satisfeitos com os resultados apresentados pelo algoritmo J48. Este algoritmo gerou a seguinte árvore de decisão:
duracao <= 53
| estilo = 1
| | qtdeFaixas <= 13: ruim
| | qtdeFaixas > 13: bom
| estilo = 2
| | qtdeFaixas <= 11: bom
| | qtdeFaixas > 11
| | | duracao <= 42: ruim
| | | duracao > 42
| | | | melhorFaixa = 1: bom
| | | | melhorFaixa = 2: ruim
| | | | melhorFaixa = 3: bom
| estilo = 3
| | qtdeFaixas <= 11
| | | duracao <= 44: bom
| | | duracao > 44: otimo
| | qtdeFaixas > 11: ruim
| estilo = 4: otimo
| estilo = 5: ruim
| estilo = 6: bom
| estilo = 7: bom
| estilo = 8: ruim
duracao > 53
| estilo = 1
| | melhorFaixa = 1: ruim
| | melhorFaixa = 2: otimo
| | melhorFaixa = 3
| | | duracao <= 57: ruim
| | | duracao > 57: bom
| estilo = 2
| | qtdeFaixas <= 15: otimo
| | qtdeFaixas > 15: bom
| estilo = 3: otimo
| estilo = 4: otimo
| estilo = 5: bom
| estilo = 6: ruim
| estilo = 7: bom
| estilo = 8: ruim
Esta árvore de decisão, quando utilizada para avaliar uma nova base de dados com outros discos do colecionador, que não faziam parte da primeira base, mostrou-se correta em aproximadamente 80% dos casos, o que demonstra a real aplicabilidade dos processos de mineração.
CONCLUSÃO
Em um mundo em que os bancos de dados crescem exponencialmente e estar sempre um passo à frente da concorrência tornou-se palavra de ordem, torna-se cada vez mais evidente a necessidade de descobrir maneiras de utilizar todo este ativo, as informações armazenadas nos bancos de dados, a nosso favor. Em resposta a este desejo surgiram as técnicas de mineração de dados.
Na verdade, não é correto dizer que surgiram, tendo em vista que os primeiros estudos do gênero datam de mais de meio século. O mais correto seria dizer que as técnicas de mineração de dados se aperfeiçoaram cada vez mais, tornando-se cada vez mais populares.
Durante a pesquisa realizada para este trabalho pudemos aprofundar nossos conhecimentos sobre o assunto, indo além do que já nos tinha sido ministrado durante a cadeira de Mineração de Dados. Pudemos, também, aprender ainda mais sobre o funcionamento do sistema WEKA, tendo, inclusive, a grata oportunidade de trocarmos alguns emails com os autores do livro que nos serviu de referencial teórico.
Se antes de iniciarmos o processo de elaboração deste trabalho já tínhamos consciência da importância do assunto e do valor prático do WEKA, depois de tê-lo terminado temos plena convicção de que a mineração de dados é uma ferramenta de inestimável valor para empresas que desejam transformar em algo valioso o que na maioria das vezes fica adormecido em backups e que, também, o WEKA é um sistema extremamente poderoso, provando-se útil, como já dissemos anteriormente, tanto para um iniciante entusiasta do assunto quanto para um pesquisador experiente.
Esperamos, sinceramente, que este trabalho, ao ser lido por aqueles que buscavam entender melhor a mineração de dados e o WEKA, possa tê-los influenciado no sentido de levá-los a desenvolver novas pesquisas e levar adiante este assunto tão interessante e rico de possibilidades.
Nenhum comentário:
Postar um comentário