Taller de Weka

Transcripción

Taller de Weka
Taller de Weka
Aurelio Sanabria Universidad de Costa Rica
1. Descargar weka de la dirección: http://www.cs.waikato.ac.nz/ml/weka/downloading.html
2. Descargar los datos para el taller de la dirección:
itcr.ac.cr/~ausanabria/
http://ic-
3. ¿Qué es weka?, ¿De dónde sale?, ¿En que se usa? //Gallirallus australis//
4. Convertir datos desde una hoja de cálculo:
1. Generar el archivo CSV
a. Abra el archivo de la hoja de cálculo con datos provisto para el taller
b. Seleccione la opción “guardar cómo” del menú archivo
c. Seleccione en el formato de archivo la opcion de archivo separado por
comas
d. Seleccione las siguientes opciones:
Delimitador de campo: tabuladores
Delimitador de texto: ’
Entrecomillar todas las celdas de texto.
e. Utilice un nombre de archivo significativo
f. Listo.
5. Importar el archivo csv en weka
6. Eliminar la columna de AGREEMENT
7. Convertir la columna Contenido de nominal a String utilizando el filtro
NominaltoString
Filters > unsupervised > attribute > NominalToString
El parámetro debe ser 1
8. Extracción de características
a. Convertir la columna contenido de string a un vector de palabras
utilizando el filtro StringToWordVector
Filters > unsupervised > attribute > StringToWordVector
Parámetros: IDFTransform : true TFTransform : true attibuteIndexes : 1 dotNotOperateOnPerClassBasis : true invertSelection :
1
false lowerCaseTokens : true minTermFreq : 20 normalizeDocLength
: normalize all data outputWordCounts : true periodicPruning : -1.0
stemmer : NullStemmer stopwords : «Seleccionar el archivo stopwords
de los materiales del taller» tokenizer : NGramTokenizer useStopList
: false wordsToKeep : 9999999999999999
Anexos
ARFF -> Andrews Ridicoulous File Format
-> Attribute-Relationship File Format
ARFF
Header
%comentarios
@relation ________________________
@attribute __nombre 1__
__tipo__
@attribute __nombre 2__
__tipo__
@attribute __nombre 3__
__tipo__
@attribute __nombre 4__
__tipo__
Data
@data
valor1,valor2,valor3,clase
valor1,valor2,valor3,clase
valor1,valor2,valor3,clase
...
__tipo__
->
->
->
->
Numeric
String
Date
Nominal {a,b,c,d}
2

Documentos relacionados

Clasificación

Clasificación Unos datos codificados según este formato estarían agrupados de tal manera que en un fichero .names estarían los nombres de los atributos y en un fichero .data estarían los datos en sí. Weka cuando...

Más detalles