DATA MINING
Desktop Survival Guide
by
Graham Williams
Desktop Survival
Project Home
List of Figures
List of Tables
Data Mining with Rattle
Introduction
Data Mining with Rattle
Data Sources
Selecting Data
Exploring Data
Transforming Data
Descriptive Models
Predictive Models
Evaluation and Deployment
Issues
Moving into R
Troubleshooting
R for the Data Miner
R
Data
Graphics in R
Understanding Data
Preparing Data
Descriptive and Predictive Analytics
Issues
Evaluating Models
Reporting
Cluster Analysis
Text Mining
Text Mining
Algorithms
Bagging
Bayes Classifier
Cluster Analysis
Conditional Trees
Hierarchical Clustering
K-Nearest Neighbours
Linear Models
Neural Networks
Support Vector Machines
Open Products
AlphaMiner
Borgelt Data Mining Suite
KNime
R
Rattle
Weka
Closed Products
C4.5
Clementine
Equbits Foresight
GhostMiner
InductionEngine
ODM
Enterprise Miner
Statistica Data Miner
TreeNet
Virtual Predict
Appendicies
Glossary
Bibliography
Index
Index
Up:
Data Mining With Rattle
Previous:
Bibliography
Contents
:
4.3.3
|
4.3.3
|
4.3.3
|
4.3.3
|
4.3.3
|
4.3.3
|
4.3.3
|
4.3.3
|
4.3.3
|
4.3.3
|
4.3.3
|
4.5.1.6
|
4.5.1.6
|
4.5.1.6
|
4.5.1.6
|
4.5.2.4.2
|
4.5.2.4.2
|
4.5.2.4.2
|
4.5.2.7
|
4.5.2.7
|
4.5.2.7
|
4.5.2.7
|
4.5.2.7
|
4.5.3.1
|
4.5.3.1
|
4.5.3.1
|
4.5.3.1
|
4.5.3.1
|
4.6.2.2
|
4.6.3.3
|
4.6.3.3
|
4.6.3.3
|
4.8.2
|
4.8.2
|
4.8.2
|
4.8.4.3.4
|
4.8.4.3.4
|
4.8.6.1
|
4.8.6.1
|
5.1.7.7
|
5.12.6
|
5.12.6
|
5.12.6
-Median/MAD
:
4.6.1
.Machine
:
5.1.7.8.2
.packages
:
5.1.6.4
.Platform
:
5.1.7.8.2
|
5.1.7.8.2
R
:
4.2
R
Console
:
4.2.1.4
?
:
5.1.4
Access
Import data into R
:
5.2.6.3
ada
:
4.8.5.1
|
4.8.9
AdaBoost
:
4.8.5
|
5.10
|
5.10
|
5.10.4
to
5.10.6
Adjusted
:
4.5.2.7
|
4.5.2.7
|
4.5.3.1
|
4.5.3.1
|
4.5.3.1
|
4.8.2
Adjustment
:
4.8.2
|
4.8.6.1
|
4.8.6.1
Advance Scout
:
5.8.5.3
Age
:
4.3.3
|
4.3.3
|
4.5.1.6
|
4.5.1.6
|
4.5.1.6
|
4.5.2.7
|
4.5.2.7
|
4.5.2.7
|
4.5.3.1
|
4.6.2.2
|
4.6.3.3
|
4.6.3.3
|
4.8.4.3.4
|
5.8.5.2
|
5.8.5.2
aggregate
:
5.2.1.4
|
5.4.2.1
All
:
4.9.1
amap
:
5.7
|
7.4.2
|
7.4.3
|
7.6
AMD64
:
5.1.8.1
analysis of variance
:
5.4.4.9
|
5.4.4.9
Annotate
:
4.5.2
|
4.5.2.1
ANOVA
:
5.4.4.9
|
see
analysis of variance
apply
:
see
lapply, mapply, sapply |
5.5.2.5
|
5.5.5.1.1
approxfun
:
5.6.1
apriori
:
5.5.5.3
|
5.8
|
5.8.5
|
5.8.5.1
|
5.8.5.2
|
5.8.5.2
|
5.8.5.2
|
5.8.5.2
to
5.8.6
arff data files
:
see
data importarff
args
:
5.1.4
array
:
5.2.2.2
arrows
:
5.3.3
Artificial neural networks
:
see
Neural networks
arules
:
4.1.7
|
5.8.1
|
5.8.4
|
5.8.5
|
5.8.5
|
5.8.5.1
|
5.8.5.2
|
5.8.6
as
:
5.8.5.2
as.Date
:
5.2.1.4
|
5.2.1.4
as.integer
:
5.4.2.2
as.logical
:
5.5.2.4
as.matrix
:
5.1.8.1
as.yearmon
:
5.2.1.4
Associate
:
4.2.4
|
4.7.3
|
4.7.3.1
association analysis
Apriori
:
5.8
to
5.8.6
associations
:
10.1.2
at
:
5.4.4.4
attach
:
5.1.6.1
|
5.2.2.6
|
5.2.4
|
5.3.1
|
5.3.1
|
5.4.4.10
attr
:
5.1.7.7
attribute
:
see
variable
audit
:
4.2.3
|
4.2.3
|
4.3.3
|
4.3.3
|
4.3.4
|
4.5.1.6
|
4.5.1.6
|
4.5.2.4.2
|
4.5.2.7
|
4.6.5.1
|
4.8.2
|
4.8.6.1
|
4.8.6.1
|
4.8.8
|
4.8.8
|
4.9.8
|
4.9.8
|
4.11.3
|
5.4.3.2.4
available.packages
:
5.1.6.2
bagging
:
7.1
|
7.1
to
7.1.5
barchart
:
5.4.4.10
|
5.4.4.10
|
5.4.4.10
to
5.4.4.16
barplot
:
5.3.1
|
5.4.1.8
|
5.4.1.8
|
5.4.7.3
|
5.4.7.3
Basics
:
4.5.1.3
Baskets
:
4.7.3.1
batch model building
:
5.12.1
bayesian analysis
Bayes theorem
:
7.2.3
bbox
:
5.2.8
Believe Num Rows
:
4.3.5
|
4.3.5
believeNRows
:
5.2.6.1
Benford
:
4.5.2.4.2
Benford's Law
:
4.5.2.4
binning
:
4.6.3.1
|
4.6.3.3
|
5.5.5.3
|
5.5.5.3
bitmap
:
5.3.15.3
bmp
:
5.3.15.3
Boost
:
4.8.5.3
|
5.10.4
|
5.10.4.2
boosting
:
4.8.5
|
4.8.5
|
4.8.5
to
4.8.5.3
|
5.10
|
5.10
|
5.10
to
5.10.6
|
10.1
bootstrap aggregating
:
7.1
Bootstrapping
:
7.3
to
7.3.3
Borgelt
:
8.2
to
8.2.2.1
box
:
5.3.2
box and whisker plot
:
see
box plot
boxplot
:
4.5.2.1
|
4.5.2.1
|
5.3.1
|
5.4.3.2
|
5.4.3.2
|
5.4.3.2.1
|
5.4.3.2.2
|
5.4.3.2.3
|
5.4.3.2.3
|
5.4.5.5
|
5.4.8.2
|
5.4.8.2
|
5.4.8.2.1
|
5.4.8.2.2
|
5.5.2.7
breaks
:
5.4.1.10
business intelligence
:
4.9.8
bxp
:
5.4.3.2.3
|
5.4.3.2.3
c
:
5.2.2.1
|
5.2.2.5
|
5.13.1
C4.5
:
9.1
to
9.1.3
capabilities
:
5.1.7.8.2
Capital.Gain
:
5.8.5.2
|
5.8.5.2
Capital.Loss
:
5.8.5.2
|
5.8.5.2
|
5.8.5.2
caret
:
5.12.2
cast
:
5.4.2.1
caTools
:
4.11.3
|
5.3.13
|
5.5.1.1
|
5.10.4
cbind
:
5.2.2.5
censored data
:
5.12.7
check box
:
3.1.5
chron
:
5.2.1.4
|
5.4.5.3
Churn
:
5.12.6
class
:
5.5.2.1.3
Classification
C4.5
:
9.1
to
9.1.3
Conditional trees
:
7.5
to
7.5.4
Decision trees
:
4.8.4
to
4.8.4.3.7
|
5.9
to
5.9.4
|
9.1
to
9.1.3
K-nearest neighbour
:
7.7
to
7.7.2
Kernel methods
:
7.12.3
to
7.12.3
to
7.12.3
Naïve Bayes
: to
7.2
to
7.2.4
Neural networks
:
7.11
to
7.11.3
Support vector machine (SVM)
:
7.12.3
to
7.12.3.3
classwt
:
5.11.4.1.2
Cleanup
:
4.6.5
|
4.6.5.1
Clementine
:
9.2
to
9.2.1
clipboard
:
5.1.7.2
|
5.2.3.2
|
5.2.7
|
5.2.7
|
5.2.7
|
5.5.4.1
Close
:
4.2.6
|
4.2.6
closure
:
5.2.1
Cluster
:
4.2.4
Clustering
Hierarchical
:
7.4.3
to
7.4.6
|
7.6
to
7.6.3
K-means
:
5.7
to
5.7.1.1.3
|
7.4.2
to
7.4.2.2.3
cm.colors
:
5.3.6
|
5.4.2.5
|
5.4.7.8
col
:
5.3.4
|
5.3.6
|
5.4.1.2
coll
:
5.1.3
collapse
:
5.1.3
|
5.1.3
colnames
:
5.2.2.5
|
5.2.2.6
|
5.4.1.1
|
5.4.7
|
5.5.2.4
color
:
5.4.1.9
colour
:
5.3.6
colSums
:
5.5.5.1.1
|
5.5.5.1.1
comment
:
5.1.3
complete.cases
:
5.5.2.5
|
5.5.2.5
complex
:
5.3.13
complex numbers
:
5.2.1.1
compress
:
5.2.4
Concepts
R
:
4.2
AdaBoost
:
4.8.5
|
5.10
AMD64
:
5.1.8.1
analysis of variance
:
5.4.4.9
ANOVA
:
5.4.4.9
associations
:
10.1.2
Bagging
:
7.1
Benford's Law
:
4.5.2.4
Boosting
:
4.8.5
|
4.8.5
|
5.10
|
5.10
|
10.1
bootstrap aggregating
:
7.1
boxplot
:
4.5.2.1
|
5.4.3.2
|
5.4.8.2
check box
:
3.1.5
closure
:
5.2.1
complex numbers
:
5.2.1.1
confusion matrix
:
4.9.2.1
|
5.13.2
contingency table
:
4.9.2.1
|
5.13.2
correlation
:
4.5.4
|
5.4.2.5
|
5.4.7.8
density estimate
:
4.5.2.2
exploratory data analysis
:
4.5
|
5.4
feature selection
:
5.5.7
Flavanoids
:
5.4.2.2
functional
:
5.1.3
functional language
:
5.1.3
Glade
:
4.2.1.1
Gnome
:
4.2.1.1
GTK+
:
4.2.1.1
histogram
:
4.5.2.2
interpreted language
:
5.1.3
interquartile range
:
4.5.2.1
|
5.4.3.2
|
5.4.8.2
K-Nearest Neighbour
:
7.7
kurtosis
:
4.5.1.4
mean
:
4.5.2.1
|
5.4.3
|
5.4.3.1
|
5.4.3.1
|
5.4.8
|
5.4.8.1
|
5.4.8.1
median
:
4.5.2.1
|
5.4.3
|
5.4.3.2
|
5.4.8
|
5.4.8.2
MySQL
:
5.2.3
normal distribution
:
4.5.2.2
Normalise
:
4.6.1
OLAP
:
10.1.2
Oracle
:
5.2.3
percentile
:
4.5.2.1
|
5.4.3.2
|
5.4.8.2
Phenols
:
5.4.2.2
pie chart
:
5.4.1.4
quartile
:
4.5.2.1
|
5.4.3.2
|
5.4.8.2
radio button
:
3.1.5
random forest
:
4.8.6
SAS
:
5.2.3
scatterplot
:
5.4.2.2
shapefiles
:
5.2.8
skewness
:
4.5.1.5
SQL
:
5.2.3
SQLite
:
5.2.3
Stata
:
5.2.3
Stem-and-leaf
:
5.4.1.6
|
5.4.7.1
test set
:
5.13.3
training set
:
5.13.3
variance
:
5.4.3
|
5.4.8
|
10.1
widget
:
3.1.5
Conditional trees
:
7.5
to
7.5.4
confidence
:
5.8.2
confusion matrix
:
4.9.2.1
|
4.9.2.1
|
5.13.2
|
5.13.2
contingency table
:
4.9.2.1
|
4.9.2.1
|
5.13.2
|
5.13.2
continue
:
5.1.7.8.2
control
:
4.8.4.3.3
|
4.8.4.3.4
Copy
:
4.2.6
|
4.2.6
cor
:
5.4.2.5
|
5.4.2.5
|
5.4.7.8
|
5.4.7.8
correlation
:
4.5.4
|
5.4.2.5
|
5.4.7.8
cost
:
5.9.3.5
cp
:
4.8.4.3.5
|
4.8.4.3.5
|
4.8.4.3.5
crude
:
6.1.1
CSV
:
4.3.3
csv data files
:
see
data importcsv
ctree
:
7.5.3
cut
:
5.5.5.3
|
5.5.5.3
|
5.5.5.3
|
5.8.5.2
|
5.8.5.2
Data
:
4.2.2
|
4.3.2
|
4.3.3
|
4.3.3
|
4.6
|
4.8.6.1
|
5.2
|
5.2.3.3
to
5.5.7
loading
:
4.3.2
data cleaning
:
5.5.2
to
5.5.2.4
Data Entry
:
4.3.8
data frame
:
5.2.2.6
to
5.2.2.6.2
data import
Access
:
4.3.2
arff
:
4.3.2
|
4.3.4
to
4.3.4
csv
:
4.3.2
|
4.3.3
to
4.3.3
|
5.2.6.2
DB2
:
4.3.2
Excel
:
4.3.2
|
5.2.6.2
missing values
:
see
missing values
MySQL
:
4.3.2
ODBC
:
4.3.2
|
4.3.5
to
4.3.5
|
5.2.6.2
Oracle
:
4.3.2
SQL Server
:
4.3.2
SQLite
:
4.3.2
Teradata
:
4.3.2
txt
:
4.3.2
|
4.3.3
data linking
:
5.5.4
to
5.5.4.2
data sources
:
see
data import
data transformation
:
5.5.5
to
5.5.5.4
aggregation
:
5.5.5.1
Sum of columns
:
5.5.5.1.1
data types
:
5.2.1
Data frame
:
5.2.2.6
to
5.2.2.6.2
date
:
5.2.1.4
to
5.2.1.4
Matrix
:
5.2.2.5
to
5.2.2.5
String
:
5.2.1.2
to
5.2.1.2.5
Vector
:
5.2.2.1
to
5.2.2.1
dataset
:
4.3.1
testing
:
4.3.1
training
:
4.3.1
Datasets
audit
:
4.2.3
|
4.2.3
|
4.3.3
|
4.3.3
|
4.3.4
|
4.5.1.6
|
4.5.1.6
|
4.5.2.4.2
|
4.5.2.7
|
4.6.5.1
|
4.8.2
|
4.8.6.1
|
4.8.6.1
|
4.8.8
|
4.8.8
|
4.9.8
|
4.9.8
|
4.11.3
|
5.4.3.2.4
crude
:
6.1.1
iris
:
5.1.2.1
|
5.1.2.1
|
5.2.3.3.1
|
5.2.4
|
5.2.4
|
5.2.4
|
5.3.1
survey
:
5.2.3.4.3
|
5.5.2.4
|
5.13.2
wine
:
5.2.3.4.1
|
5.4.1.1
|
5.4.1.2
|
5.4.1.4
|
5.4.1.8
|
5.4.1.14
|
5.4.2.1
|
5.4.2.1
|
5.4.2.2
|
5.4.2.5
|
5.4.7
|
5.4.7.3
|
5.4.7.7
|
5.4.7.8
|
5.10.4.1
XnullX
:
5.2.3.3.1
|
5.2.4
|
5.2.4
|
5.4.1.14
|
5.4.3.2.4
|
5.4.7.7
date
:
5.2.1.4
to
5.2.1.4
dd_load
:
5.4.6.1
Debian
:
5.1.1.1
decision tree
:
see
random forest
Decision trees
:
4.8.4
to
4.8.4.3.7
|
5.9
to
5.9.4
Deductions
:
4.8.4.3.4
Delete Ignored
:
4.6.5.1
density estimate
:
4.5.2.2
|
4.5.2.2
dependencies
:
4.2.1.4
Describe
:
4.5.1.2
|
4.5.2.2
DescribeDisplay
:
5.4.6.1
Design
:
7.10.1
detach
:
5.1.6.1
|
5.3.1
dev.copy
:
5.3.15.5
dev.cur
:
5.3.15.2
dev.list
:
5.3.15.2
dev.next
:
5.3.15.2
dev.off
:
5.3.15.1
dev.prev
:
5.3.15.2
dev.set
:
5.3.15.2
difftime
:
5.2.1.4
digits
:
4.11.3
|
5.1.7.8.2
dim
:
5.4.1.1
|
5.4.7
|
5.5.2.4
distribution
:
5.10.4.2
distributions
normal
:
4.5.2.2
divide by zero
:
5.2.2.7.2
do.call
:
5.2.2.6
download.file
:
5.2.3.4
download.packages
:
5.1.6.2
dprep
:
5.5.7
duplicated
:
5.5.2.2
e1071
:
5.12.2
|
7.12.2
|
7.12.3.2
EDA
:
see
Exploratory data analysis |
see
exploratory data analysis
Eddelbuettel, Dirk
:
5.1.1.1
edit
:
5.1.4
|
5.2.2.5
|
5.2.2.5
|
5.2.2.5
Education
:
4.3.3
ellipse
:
5.4.2.5
|
5.4.7.8
Employment
:
4.3.3
|
4.5.3.1
ensemble model builder
:
4.8.5
Enterprise Miner
:
9.7
to
9.7.3
entity
:
4.3.1
Equal Width
:
4.6.3.1
Equbits Foresight
:
9.3
to
9.3.1
Evaluate
:
4.2.4
|
4.2.4
|
4.2.4
|
4.8.2
|
4.8.6.1
|
4.8.6.1
|
4.8.6.1
|
4.8.8
|
4.9.1
|
4.9.1
|
4.9.1
|
4.9.1
|
4.9.1
|
4.9.1
|
4.9.8
|
4.9.8
|
4.11.6
evaluation
risk chart
:
4.8.2
example
:
5.1.4
Excel
:
see
data import
Execute
:
4.2.3
|
4.2.3
|
4.2.3
|
4.2.3
|
4.2.5.3.1
|
4.2.5.3.1
|
4.3.3
|
4.3.3
|
4.3.3
|
4.3.8
|
4.4
|
4.4
|
4.7.3.1
|
4.8.6.1
|
4.8.6.1
|
4.8.6.1
|
4.9.8
|
4.9.8
|
4.9.8
|
4.9.8
|
4.9.8
|
7.4.3
exploratory data analysis
:
4.5
|
4.5
|
5.4
|
5.4
Explore
:
4.5
|
4.5.1
|
4.5.1.6
|
4.6.2
Explore Missing
:
4.5.4
|
4.5.4
Export
:
4.2.3
|
4.2.5.3.2
|
4.2.5.3.2
|
4.6
|
4.6
|
4.11.5
false negative
:
4.9.2.1
|
5.13.2
false positive
:
4.9.2.1
|
5.13.2
feature
:
see
variable
feature selection
:
5.5.7
fields
:
5.3.13
fig
:
5.3.15.3
file
:
5.2.7
file.choose
:
5.2.3.4.1
file.show
:
4.3.3
|
5.1.7.2
Filename
:
4.3.3
finco
:
5.5.7
fix
:
5.2.2.5
Flavanoids
:
5.4.2.2
floor
:
4.11.3
for
:
5.5.2.4
Forest
:
4.8.6.1
format
:
5.2.4.1
|
5.5.5.1.1
format.df
:
5.2.4.1
formatC
:
5.2.4.2
Fujitsu
:
9.4
to
9.4.2
functional
:
5.1.3
functional language
:
5.1.3
gbm
:
5.10.4
|
5.10.4
|
5.10.4.2
|
5.10.4.2
gc
:
5.1.8.2
|
5.1.8.2
gcinfo
:
5.1.8.2
gdata
:
5.2.6.2
Gender
:
4.6.3.2
|
4.6.3.2
|
4.6.3.3
|
5.12.6
get
:
5.1.7.7
getOption
:
5.1.7.8.2
getwd
:
4.2.1.5.1
GGobi
:
4.5.3
|
4.5.3.1
ggplot
:
5.4.3.2.4
GhostMiner
:
9.4
to
9.4.2
Glade
:
4.2.1.1
glm
:
4.8.3
|
4.8.3
|
4.8.3
|
4.8.3
Gnome
:
4.2.1.1
GNU/Linux
:
5.1.1.1
gplots
:
5.1.6.4
|
5.4.4.9
graphics
barchart
: to
5.4.4.16
graphics.off
:
5.3.15.1
gray
:
5.3.6
grep
:
5.2.1.2
gsub
:
5.2.1.2.4
gsubfn
:
5.2.1.2.2
GTK+
:
4.2.1.1
Harabor, Daniel
:
4.2.1.1
head
:
5.2.2.7.6
|
5.2.2.7.6
|
5.4.1.1
|
5.4.7
Health Insurance Commission
:
5.8.5.3
help
:
5.1.4
|
5.1.4
|
5.1.4
|
5.1.6.3
|
5.1.6.3
help.search
:
5.1.4
help.start
:
5.1.4
Hierarchical clustering
:
7.4.3
to
7.4.6
|
7.6
to
7.6.3
hist
:
5.3.1
|
5.4.1.10
|
5.4.1.14
|
5.4.7.7
histogram
:
4.5.2.2
|
4.5.2.2
|
5.4.1.9
Hmisc
:
5.2.3.5.1
|
5.2.4.1
|
5.2.4.1
holdout method
:
5.13.3
horizontal
:
5.4.3.2.1
|
5.4.8.2.1
Hours
:
4.5.2.2
Hours.Per.Week
:
5.8.5.2
|
5.8.5.2
htmlhelp
:
5.1.4
hyperedges
:
5.8.5.1
IBM
Advance Scout
:
5.8.5.3
ID
:
4.3.3
|
4.3.3
|
4.3.3
if
:
5.2.1.3
image
:
5.3.13