-
Notifications
You must be signed in to change notification settings - Fork 0
Expand file tree
/
Copy pathmain.tex
More file actions
4499 lines (3925 loc) · 262 KB
/
main.tex
File metadata and controls
4499 lines (3925 loc) · 262 KB
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
\include{header}
\usepgfplotslibrary{fillbetween}
\usetikzlibrary{positioning}
\usetikzlibrary{shapes.geometric}
\usepackage{mdframed}
\usepackage{amsthm}
\usepackage{mathtools}
\usepackage{framed}
\usetikzlibrary{patterns}
\usepackage{pdflscape}
\usepackage{rotating}
\usepackage{makecell}
\usepackage{pgfplots}
% Aggiunti MANGIO
\usepackage{multirow}
\usepackage{tabularx}
\usepackage[yyyymmdd]{datetime}
\renewcommand{\dateseparator}{-}
% TEOREMI
\newtheorem*{teorema}{Teorema}
\newtheorem*{corollario}{Corollario}
\newtheorem*{dimostrazione}{Dimostrazione}
\newtheorem{proprieta}{Proprietà}
\newtheorem*{esempio}{Esempio}
\newcommand{\E}{\mathbb{E}}
\title{
Statistica e analisi dei dati \\
\small{Appunti completi e \textit{meravigliosi}, in \LaTeX}
}
\author{Mattia Oldani, Marco Aceti, Daniele Ceribelli}
\date{}
\pgfplotsset{compat=1.18}
% note
\pagestyle{fancy}
\fancyhf{}
\lhead{Statistica e analisi dei dati}
\rhead{\rightmark}
\lfoot{\thepage}
% INIZIO DEL DOCUMENTO
\begin{document}
% CREAZIONE TITOLO E AUTORE
\maketitle
% DEFINIZIONE INDICE
\renewcommand*\contentsname{Indice}
\tableofcontents
% INIZIO EFFETTIVO DELLE NOTE
\newpage
% Statistica descrittiva
\section{Statistica descrittiva}
La \textbf{statistica} è una disciplina che permette di trarre delle conclusioni partendo da dati in situazioni di incertezza; in particolare, la \textbf{statistica descrittiva} si occupa dei metodi di esposizione e sintesi dei dati.
\subsection{Concetti preliminari}
La \textbf{popolazione} è l'insieme degli elementi (individui) da cui si vorrebbero acquisire i dati; spesso, per questioni di praticità, non è però sempre possibile eseguire la raccolta dati su tutta la popolazione.
\newline
\noindent Un \textbf{campione} è un \textit{sottoinsieme rappresentativo} della popolazione su cui si fanno le analisi.
Un buon campione deve essere casuale (evitando il \textbf{sotto-campionamento} di sottoinsiemi della popolazione) e la scelta di un individuo non deve influenzare la scelta dei successivi.
Per fare in modo che il campione sia casuale si sfrutta il \textbf{campionamento casuale}, ovvero ogni elemento deve avere la stessa probabilità di essere estratto (in seguito si capirà meglio il significato di probabilità), questo garantisce che il campione sia rappresentativo dell'intera popolazione.
\noindent Quando la popolazione è divisa in \textit{sottoinsiemi non omogenei} può essere complicato ottenere un campione casuale. Per ovviare a ciò si utilizza la tecnica del \textbf{campione casuale stratificato}: in base alla \textbf{frequenza relativa} di ogni sottoinsieme si sceglie un certo numero di elementi di esso da inserire nel campione; in sostanza, gli elementi del campione si pesano in base alla frequenza relativa.
\noindent Ultimi concetti importanti sono le \textbf{frequenze}:
\begin{itemize}
\item \textbf{$f_j$ assoluta}: numero di volte che un dato compare in un campione;
\item \textbf{$f'_j$ relativa}: frazione di volte che un dato compare nel campione. Si calcola con
\setlength\abovedisplayskip{3pt} \[
f'_j = \frac{f_j}{n}.
\]
\end{itemize}
\subsection{Tipi di dati}
Introduciamo ora le differenze tra i tre tipi di dati raggruppandoli in gruppi:
\begin{itemize}
\item si parla di dati \textbf{quantitativi} se l’esito della misurazione è una quantità numerica;
\item si parla invece di dati \textbf{qualitativi} (o categorici, o nominali) quando la misurazione è fatta scegliendo un’etichetta a partire da un insieme tra quelli disponibili.
\end{itemize}
\subsubsection{Classificazione dati quantitativi}
Per quanto riguarda i dati quantitativi, viene spesso fatto riferimento alla differenza tra dati \textbf{discreti} e \textbf{continui} in funzione del tipo di insieme di valori che questi possono assumere. Possiamo quindi, a livello teorico, distinguere un insieme di dati discreti se i valori assunti sono solo interi e quindi non ci sono valori all'interno di un intervallo (per esempio il numero di tentativi non ha senso classificarlo come continuo siccome non esiste il valore $3.5$), mentre nel continuo ci saranno infiniti valori tra un numero intero e un altro (come per esempio la percentuale).
\subsubsection{Classificazione dati qualitativi}
I dati qualitativi vengono spesso ulteriormente classificati come binari, nominali oppure
ordinali. Si parla di dati \textbf{binari} quando l’osservazione può avere solo due esiti tra loro
non confrontabili. Anche nei dati \textbf{nominali}, i valori osservabili non sono tra loro confrontabili, sebbene non vi sia limite sul numero di diverse etichette. Detto in altri termini, in questo tipo di dati è solo possibile stabilire una relazione di equivalenza tra i valori osservabili. Nei dati \textbf{ordinali}, invece, è possibile stabilire una relazione d’ordine tra i valori osservabili, sarà quindi possibile distinguere tra due dati diversi quale sia il più piccolo e quale sia il più grande.
% chap 11.6 RS
\subsection{Funzione cumulativa empirica}
La \textbf{funzione cumulativa empirica}, (\textbf{ECDF}), è una funzione di variabile reale che rappresenta la funzione di ripartizione della misura empirica di un campione. Dato un insieme di osservazioni $\{x_1, \, ..., \, x_n\}$ è definita come quella funzione $\hat{F}: \mathbb R \rightarrow [0, 1]$ tale che per ogni $x \in \mathbb R$ assume un valore pari alla frequenza relativa delle osservazioni che risultano essere minori o uguali a $x$.
$$
\hat{F}(x) = \dfrac{\# \{x_i \leq x\}}{n} = \dfrac{1}{n} \sum_{i = 1}^n I_{(- \infty, x]}(x_i)
$$
Siccome possiamo vedere questa funzione come una stima della funzione di ripartizione, allora questa sarà un buon stimatore e consistente in media quadratica per la funzione di ripartizione.
\subsection{Indici di centralità}
Con gli \textbf{indici di centralità} si possono dare delle informazioni sulla \textit{``grandezza"} dei dati nel campione e descrivere attorno a quale valore si forma la rosa dei valori.
Per tutti gli indici si utilizza $n$ per indicare la \textbf{dimensione} (o \textbf{taglia}) del campione e $\{x_1, \, \dots, \, x_n\}$ il campione stesso.
\subsubsection{Media campionaria}
\begin{flushleft}
La \textbf{media campionaria}\footnote{Con il termine \textit{campionaria} si intende che i dati di cui si sta facendo la media fanno parte di un campione rappresentativo di una popolazione più ampia (quindi ci si riferisce alla statistica e non alla probabilità)} è la media aritmetica degli elementi del campione.
Si indica con $\overline x$ e si definisce con $$
\boxed{
\overline{x} = \frac{1}{n}\sumi{x_i}
}.
$$
La media si comporta bene con la \textbf{traslazione} e la \textbf{scalatura} dei dati: sia $X = \{x_1, \, x_2, \, \dots, \, x_n\}$ un campione di $n$ elementi con media campionaria $\overline x$, assumiamo di voler definire dal precedente un nuovo campione $Y = \{ y_1, \, y_2, \, \dots, \, y_n \}$ con media campionaria $\overline y$.
\newline
Se definiamo gli elementi di $Y$ come una \textit{traslazione} ($+ \, b$) degli elementi di $X$, osserviamo che $\overline y = \overline x + b$.
\[
\forall_i \
y_i = x_i + b \Rightarrow \overline{y} = \frac{1}{n}\sum\limits_{i=1}^{n}{y_i} = \frac{1}{n}\sum\limits_{i=1}^{n}{x_i} + \frac{1}{n}\sum\limits_{i=1}^{n}{b} = \overline{x} + \frac{b \cdot \cancel{n}}{\cancel{n}} = \overline{x} + b.
\]
Se invece definiamo gli elementi di $Y$ come una \textit{scalatura} ($\cdot \, a$) degli elementi di $X$, osserviamo che $\overline y = a \overline x$.
%% fix margine
\setlength\abovedisplayskip{1pt}
$$
\forall_i \ y_i = ax_i \Rightarrow \overline{y} = \frac{1}{n}\sum\limits_{i=1}^{n}{y_i} = \frac{a}{n}\sum\limits_{i=1}^{n}{x_i} = a\overline{x}.
$$
Possiamo quindi concludere che
\[
\boxed{
\forall_i \ y_i = ax_i + b \Rightarrow
\overline{y} = a\overline{x} + b
} .
\]
\end{flushleft}
La media campionaria è quindi un \textbf{operatore lineare} ma \textbf{non è uno stimatore robusto} rispetto agli \textit{outlier}, ovvero valori molto più grandi o molto più piccoli della media che possono falsare notevolmente le conclusioni. \\
Le differenze tra ciascun valore dei dati e la media campionaria si chiamano \textbf{scarti}, inoltre la somma di tutti gli scarti vale sempre $0$.
\newline \newline
Esistono altri due modi per calcolare la media campionaria:
\begin{itemize}
\item \textbf{tabella delle frequenze assolute}: è una tabella che contiene, per ogni valore $x$ del campione, la frequenza assoluta di $x$ all'interno del campione.
Per calcolare la media si sommano i prodotti tra il valore e la frequenza associata e si divide per la somma delle frequenze.
Siano $(x_j, \, f_j)$ le coppie presenti nella tabella e $k$ il numero di elementi, allora
\setlength\abovedisplayskip{2pt} \[
\overline{x} =
\dfrac{
\sum\limits_{j=1}^{k}{x_j f_j}
}{
\sum\limits_{j=1}^{k}{f_j}
}.
\]
La formula precedente riesce a calcolare la media anche se gli elementi del campione non sono descritti in maniera estensiva.
\item \textbf{tabella delle frequenze relative}: è una tabella che contiene, per ogni valore del campione, la frequenza relativa nel campione stesso. A differenza del caso precedente, la sommatoria riguarda solo il prodotto tra il dato e la sua frequenza relativa. Siano quindi $(x_j, \, f'_j)$ le coppie presenti nella tabella e $k$ il numero di elementi, allora
\[
\overline{x} = \sum\limits_{j=1}^{k}{x_j f'_j}.
\]
\end{itemize}
\noindent L'operazione di \textbf{normalizzazione delle frequenze} consiste nel dividere ciascuna frequenza per la somma totale delle frequenze per assicurare che la somma delle frequenze normalizzate sia uguale a $1$ e che le frequenze rappresentino ora le proporzioni o le probabilità relative delle categorie o degli eventi.
\noindent La media campionaria \textbf{non è applicabile} nel caso in cui si stiano trattando \textit{dati non quantitativi}
\subsubsection{Mediana campionaria}
La \textbf{mediana campionaria} è un'altra proprietà di un campione.
Per ottenere la mediana, bisogna prima ordinare il campione e successivamente considerare il valore centrale (nel caso di campioni di taglia pari, si considera la media aritmetica dei due valori centrali).
\newline
\noindent La mediana \textbf{è uno stimatore molto robusto} perché considera sempre i valori centrali, a prescindere dalle operazioni di traslazione o scalatura che vengono applicate a eventuali \textit{outlier}.
\newline
\noindent Questo indice di centralità soffre il fatto che non è possibile sfruttarlo nel caso in cui i dati del campione \textbf{non siano ordinabili}.
\subsubsection{Moda campionaria}
La \textbf{moda campionaria} di un campione è il valore che compare con frequenza maggiore e per questo può essere utilizzato con qualunque tipo di dato.
\subsubsection{Utilizzo degli indici di centralità}
\begin{center}
\begin{tabular}{ | m{3.5cm} | c | c | c | }
\hline &
%\multicolumn{1}{c}{Media} &
Media & Mediana & Moda \\
%\multicolumn{1}{c}{Mediana} &
%\multicolumn{1}{c}{Moda} \\
\hline
Scalari &
\cellcolor{lightgreen} \hspace{0.5cm} Sì \hspace{0.5cm} &
\cellcolor{lightgreen} \hspace{0.5cm} Sì \hspace{0.5cm} &
\cellcolor{lightgreen} \hspace{0.5cm} Sì \hspace{0.5cm}
\\ \hline
Categorie ordinali &
\cellcolor{lightred} \hspace{0.5cm} No \hspace{0.5cm} & %???????????????
\cellcolor{lightgreen} \hspace{0.5cm} Sì \hspace{0.5cm} &
\cellcolor{lightgreen} \hspace{0.5cm} Sì \hspace{0.5cm}
\\ \hline
Categorie non ordinali &
\cellcolor{lightred} \hspace{0.5cm} No \hspace{0.5cm} &
\cellcolor{lightred} \hspace{0.5cm} No \hspace{0.5cm} &
\cellcolor{lightgreen} \hspace{0.5cm} Sì \hspace{0.5cm}
\\ \hline
\end{tabular}
\end{center}
Una peculiarità importante da considerare è quella data dal fatto che se un grafico è simmetrico (ad esempio un istogramma) allora \textbf{media}, \textbf{moda} e \textbf{mediana} campionaria sono approssimativamente vicine.
\subsection{Indici di dispersione}
Due campioni possono avere una media e una mediana campionaria molto simile (medesima centralità), ma essere molto diversi per quanto riguarda il \textit{range} di valori che assumono. Può essere quindi utile introdurre degli indici che misurino la \textbf{dispersione} e la \textbf{variabilità del campione}.
La \textbf{dispersione} misura quanto i valori di una distribuzione distano da un valore centrale preso come riferimento.
\subsubsection{Varianza campionaria}
La \textbf{varianza campionaria} misura la distanza che c'è tra ogni punto del campione e la media campionaria.
\paragraph{Calcolo della varianza}
Possiamo tentare di calcolare la varianza sommando per ogni elemento lo scarto tra l'elemento stesso e la media campionaria:
$$
{\sum}_i (x_i - \overline{x}) =
{\sum}_i x_i - {\sum}_i \overline{x} =
{\sum}_i x_i - n\overline{x} =
\cancel{{\sum}_i x_i} - \cancel{{\sum}_i x_i} = 0
$$
\noindent Risultando sempre $0$ questo metodo di calcolo non fornisce nessuna informazione.
\noindent Possiamo quindi provare a calcolare il \textrm{valore assoluto} degli scarti, garantendo una somma $\geq 0$ sempre significativa: se tutti i valori del campione sono uguali la varianza calcolata con questa modalità sarà quindi 0:
\[
{\sum}_i{| x_i - \overline{x} |} = \begin{cases}
> 0 & \text{la varianza dei valori} \\
= 0 & \text{tutti i valori sono uguali} \\
< 0 & \perp
\end{cases}.
\]
\newline
La soluzione ``regge" ma gestire un valore assoluto è spesso scomodo, soprattutto quando si incontrano dei valori negativi. Un altro metodo per garantire valori sempre positivi è \textbf{elevare al quadrato} ogni scarto. Dividiamo successivamente il risultato della sommatoria per $n-1$:
\[
\boxed{
\mathnormal{s}^2 = \frac{1}{n-1} {\sum}_i{(x_i - \overline{x})^2}
}.
\]
\noindent Partendo dalla formula precedente, esiste un altro modo per calcolare la varianza campionaria:
\begin{gather*}
\mathnormal{s}^2 = \frac{1}{n-1}
{\sum}_i{(x_i - \overline{x})^2} = \frac{1}{n-1}{\sum}_i{(x_i^2 - 2x_i\overline{x} + \overline{x}^2)} = \\
\frac{1}{n-1} \biggl ({\sum}_i{x_i^2} -
2\overline{x} \underbrace{{\sum}_i x_i}_{=n\overline x} +
\underbrace{{\sum}_i{\overline{x}^2}} _{=n\overline x^2} \biggr) =
\frac{1}{n-1} \biggl ({\sum}_i{x_i^2} -
2n\overline{x}^2 +
n\overline{x}^2 \biggr ) =
\frac{1}{n-1} \biggl ({\sum}_i{x_i^2} - n\overline{x}^2 \biggr ).
\end{gather*}
\paragraph{Traslazione e scalatura} A differenza della media campionaria, la varianza campionaria \textbf{non è un operatore lineare}. Infatti, non supporta le seguenti proprietà:
\begin{itemize}
\item \textit{traslazione}: definendo $\forall_i \ y_i = x_i + b$, la varianza non cambia linearmente: $\sigma^2_y \neq \sigma^2_x + b$. Dimostrazione:
\[
\mathnormal{s}^2_y = \frac{1}{n - 1}{\sum}_i{(y_i - \overline{y})^2} = \frac{1}{n - 1}{\sum}_i{(x_i + \cancel b - \overline{x} - \cancel b)^2} = \frac{1}{n - 1}{\sum}_i{(x_i - \overline{x})^2} = \mathnormal{s}_x^2.
\]
Ha senso che il termine $b$ si perda: la varianza definisce quanto scarto c'è tra i dati e l'operazione di traslazione cambia solo la loro posizione, non la dispersione.
\item \textit{scalatura}: ancora, definendo $\forall_i \ y_i = a x_i$ la varianza non cambia linearmente: $\s^2_y \neq a \s^2_x$. Dimostrazione:
\[
\mathnormal{s}^2_y = \frac{1}{n - 1}\sumi{(y_i - \overline{y})^2} = \frac{1}{n - 1}\sumi{(a x_i - a\overline{x})^2} = \frac{1}{n - 1}\sumi{a^2(x_i - \overline{x})^2} = \frac{a^2}{n - 1}\sumi{(x_i - \overline{x})} = a^2\mathnormal{s}^2_x.
\]
\end{itemize}
\subsubsection{Deviazione campionaria standard}
La \textbf{deviazione campionaria standard} o \textbf{deviazione standard} si ricava dalla varianza campionaria estraendo la radice quadrata da quest'ultima:
\[
\boxed{
\mathnormal{s} = \sqrt{\mathnormal{s}^2}} = \sqrt{ \frac{1}{n-1}
\sumi{(x_i - \overline{x})^2}}
\]
\noindent Anche la deviazione campionaria standard, derivando dalla varianza, \textbf{non è un operatore lineare}. Infatti:
\begin{itemize}
\item \textit{traslazione}: $\forall_i \ y_i = x_i + b \Rightarrow \mathnormal{s}^2_y = \mathnormal{s}^2_x \Rightarrow \mathnormal{s}_y = \mathnormal{s}_x \neq \mathnormal{s}_x + b$;
\item \textit{scalatura\footnote{Attenzione, si ricordi che $(\sqrt a)^2 = (a^\frac{1}{2})^2 = a^{\frac{1}{2}\cdot2} = a^{2\cdot\frac{1}{2}} = (\sqrt a^2) = |a| \neq a$.}}: $\forall_i \ y_i = a x_i \Rightarrow \mathnormal{s}^2_y = a^2 \mathnormal{s}^2_x \Rightarrow \mathnormal{s}_y = |a| \mathnormal{s}_x \neq a \mathnormal{s}_x$;
\end{itemize}
\noindent L'operatore radice quadrata è un operatore monotono, quindi nel caso in cui la varianza assuma un valore grande/piccolo allora anche la deviazione standard assumerà un valore grande/piccolo.
Un'altra caratteristica importante è che la deviazione standard possiede la stessa unità di misura dei dati sperimentali, quindi facilita la comprensione della dispersione dei dati rispetto alla media.
\subsubsection{Quantili}
Tentiamo di definire il concetto di quantile partendo da quello di mediana campionaria. La mediana campionaria è il \underline{valore del campione}\footnote{
In caso di campione con numero di elementi pari può capitare che la mediana o il quantile non siano un valore del campione ma la media aritmetica dei due valori centrali. Nel caso particolare dei quantili, si dimostra che se $nq$ è intero allora esistono sempre due quantili ed è quindi necessario calcolare la media aritmetica.
} contemporaneamente maggiore o uguale di almeno la metà degli elementi e minore o uguale dell'altra metà degli elementi.
Possiamo generalizzare il concetto precedente di mediana introducendo il \textbf{quantile}: il quantile di grado $q \in [0,1]$ di un campione di taglia $n$ è il \underline{valore del campione} che è $\ge$ di almeno $nq$ osservazioni e $\le$ di almeno $n(1-q)$ osservazioni.
\noindent Osserviamo che $q$ è un numero reale $\mathbb R$ e può assumere infiniti valori, consentendoci un livello di granularità infinito. Spesso nella pratica, però, non è necessario considerare tutti i valori di $q$, anche perché la taglia del campione è sempre finita. Si possono quindi definire dei quantili particolari che ridefiniscono il \textbf{livello di granularità}:
\begin{itemize}
\item \textbf{percentili}: il livello è descritto da una percentuale, frazione di 100;
\item \textbf{decili}: il livello è descritto da una frazione di $10$;
\item \textbf{quartili}: il livello è descritto da una frazione di $4$.
\end{itemize}
\paragraph{Quartili}
I quartili sono molto interessanti, perché permettono una rappresentazione grafica tramite \textbf{box plot}:
\begin{center}
\begin{tikzpicture}
\draw (-1,0) rectangle (3,1); % box
% frecce + label
\draw[<-] (-1, -0.1) -- (-1, -0.4) node[anchor=north] {I quartile};
\draw[<-] (3, -0.1) -- (3, -0.4) node[anchor=north] {III quartile};
\draw (-2.5, 0.25) -- (-2.5, 0.75)
node[anchor=south] {minimo}; % baffo sinistro
\draw (-1, 0.5) -- (-2.5, 0.5); % linea sinistra
\draw[line width=0.4mm] (2.5, 0) -- (2.5, 1) ; % mediana
\draw[<-] (2.5, 1.1) -- (2.5, 1.4)
node[anchor=south] {mediana};
\draw (3, 0.5) -- (6, 0.5); % linea destra
\draw (6, 0.25) -- (6, 0.75) node[anchor=south] {massimo}; % baffo destro
% outliers sinistri
\draw (-6.5, 0.5) circle (0.5mm);
\draw (-5.4, 0.5) circle (0.5mm);
\draw [decorate,decoration={calligraphic brace}] (-6.6, 0.7) -- (-5.3, 0.7) node [pos=0.5,above=0.5mm] {\textit{outliers}};
% outliers destri
\draw (8.0, 0.5) circle (0.5mm);
\draw (9.5, 0.5) circle (0.5mm);
\draw [decorate,decoration={calligraphic brace}] (7.9, 0.7) -- (9.6, 0.7) node [pos=0.5,above=0.5mm] {\textit{outliers}};
\end{tikzpicture}
\end{center}
\noindent Questo grafico è rappresentato da una linea orizzontale dove sono collocati tutti i valori ordinati del campione, sulla quale viene disegnato un rettangolo (\textit{box} o \textit{scatola}) che parte dal primo quartile e si ferma al terzo. Se sono presenti degli \textit{outliers}, questi sono esclusi dalla retta dei punti e vengono segnati come pallini fuori dai bordi.
La distanza tra il punto minimo e il massimo è detto \textbf{range}, mentre la distanza tra il primo e il terzo quartile è detto \textbf{range interquartile} o \textbf{IQR} (range e IQE sono indici di dispersione). Il range misura la dispersione totale dei dati fornendo un'indicazione della variabilità complessiva dei dati nel campione mentre il range interquartile misura la variabilità dei dati che si trovano nella parte centrale ($50\%$) della distribuzione.
I box plot sono molto utili poiché permettono di capire la dispersione dei dati osservando la dimensione della scatola, quindi tanto più i dati si trovano attorno alla mediana più la scatola del box plot risulterà stretta.
%\newline
%È possibile passare uno
\subsubsection{Coefficiente di variazione}
Un ultimo indicatore di dispersione è il \textbf{coefficiente di variazione}
\[
\boxed{
\mathnormal{s}^* = \frac{\mathnormal{s}}{\mid \overline{x} \mid}
},
\]
un valore adimensionale utile per confrontare la variabilità dei dati di due campioni rispetto alle loro medie, anche se hanno dei valori medi molto diversi tra loro (centralità differente, ma simile dispersione). Questo può essere utile per comprendere se, nonostante le diverse medie, i due campioni condividono una certa coerenza nella variabilità dei dati.
\subsection{Indici di correlazione}
% il campione adesso è un campione a coppie
Vogliamo ora confrontare tra loro due misurazioni $x_1, \, \dots, \, x_n$ e $y_1,\, \dots, \, y_n$, formando delle coppie \linebreak \mbox{$\{(x_1,\, y_1),\, \dots,\,(x_n,\,y_n)\}$} che mettono in relazione ogni elemento $x_i$ con il corrispettivo elemento $y_i$ (in questo caso quindi il campione è formato da coppie di valori).
\subsubsection{Scatter plot e tipi di relazione}
\begin{figure}[!ht]
\centering
\subfloat[Relazione lineare diretta]{
\resizebox{7cm}{!}{
\begin{tikzpicture}
\begin{axis}[
enlargelimits=false,
axis lines = center,
axis equal,
xlabel = $x$,
ylabel = $y$,
]
\addplot+[
only marks,
scatter,
mark size=2.5pt]
table{data/scatter-linear.dat};
\addplot[color=blue, thick]{x};
\end{axis}
\end{tikzpicture}
}
}
\subfloat[Relazione lineare indiretta]{
\resizebox{7cm}{!}{
\begin{tikzpicture}
\begin{axis}[
enlargelimits=false,
axis lines = center,
axis equal,
xlabel = $x$,
ylabel = $y$,
]
\addplot+[
only marks,
scatter,
mark size=2.5pt]
table{data/scatter-ilinear.dat};
\addplot[color=blue, thick]{-x};
\end{axis}
\end{tikzpicture}
}
} \hfill
\subfloat[Relazione non lineare diretta]{
\resizebox{7cm}{!}{
\begin{tikzpicture}
\begin{axis}[
enlargelimits=false,
axis lines = center,
%axis equal,
xlabel = $x$,
ylabel = $y$,
domain=0:5,
]
\addplot+[
only marks,
scatter,
mark size=2.5pt]
table{data/scatter-parabola.dat};
\addplot[color=blue, thick]{x^2+2};
\end{axis}
\end{tikzpicture}
}
}
\subfloat[Relazione non lineare indiretta]{
\resizebox{7cm}{!}{
\begin{tikzpicture}
\begin{axis}[
enlargelimits=false,
axis lines = center,
%axis equal,
xlabel = $x$,
ylabel = $y$,
domain=0:5,
]
\addplot+[
only marks,
scatter,
mark size=2.5pt]
table{data/scatter-isqrt.dat};
\addplot[color=blue, thick]{1/sqrt(x)};
\end{axis}
\end{tikzpicture}
}
}
\caption{Scatter plot mostranti i diversi tipi di relazione tra due osservazioni}
\label{fig:scatter_plot}
\end{figure}
\paragraph{Scatter plot}
Per rappresentare queste coppie si utilizza uno \textbf{scatter plot}, o \textbf{diagramma di dispersione}, che permette di ricavare dei comportamenti \textbf{tendenziali} della relazione tra gli $x_i$ e gli $y_i$. Lo scatter plot è un piano cartesiano che permette una visione grafica delle coppie $(x_i, \, y_i)$. Su ogni asse sono inseriti i valori di una misurazione, e in corrispondenza di una coppia si inserisce un punto.
Come mostrato in \figurename \ \ref{fig:scatter_plot}, è in alcuni casi possibile approssimare la distribuzione dei punti ad una funzione monotona crescente o decrescente.
\paragraph{Tipi di relazione}
La relazione principale che si può ricavare è quella \textbf{lineare}, ovvero si possono approssimare \textbf{tendenzialmente} tutti i punti del grafico ad una retta. Esistono due tipi di relazione lineare.
\begin{itemize}
\item \textbf{relazione diretta}: al crescere/diminuire di una componente, cresce/diminuisce anche l'altra; \linebreak ``\textit{grandi}/\textit{piccoli}" valori di una componente corrispondono a ``\textit{grandi}/\textit{piccoli}" valori dell'altra;
\item \textbf{relazione inversa}: al crescere/diminuire di una componente, diminuisce/cresce l'altra; \linebreak ``\textit{grandi}/\textit{piccoli}" valori di una componente corrispondono a ``\textit{piccoli}/\textit{grandi}" valori dell'altra.
\end{itemize}
\noindent Tentiamo di definire più formalmente cosa intende per valori $x_i$ \textit{``grandi"} e \textit{``piccoli"}:
\[
\begin{cases}
x_i \textit{``grande"}: \: x_i \geq \overline x \Rightarrow x_i - \overline x \geq 0 \\
x_i \textit{``piccolo"}: \: x_i < \overline x \Rightarrow x_i - \overline x < 0
\end{cases} \! \! \! \! \! \! .
\]
\paragraph{Assenza di causalità} È importante sottolineare come non vi sia \textbf{causalità} in queste relazioni, infatti non è certo che per un valore di $x$ grande lo sia obbligatoriamente anche $y$, infatti si è parlato di \textbf{tendenza}.
\subsubsection{Covarianza campionaria}
\noindent Partendo dalla definizione informale di \textit{relazione lineare diretta} si può arrivare a una definizione più formale:
\begin{align*}
\begin{cases}
x_i \text{ è \textit{``grande"}} \land y_i \text{ è \textit{``grande"}} \\
x_i \text{ è \textit{``piccolo"}} \land y_i \text{ è \textit{``piccolo"}}
\end{cases} \hspace{-8pt} \Longrightarrow
\begin{cases}
x_i - \overline x \geq 0 \land y_i - \overline y \geq 0 \\
x_i - \overline x < 0 \land y_i - \overline y < 0
\end{cases} \hspace{-8pt} \Longrightarrow
(x_i - \overline x)(y_i - \overline y) \geq 0
\end{align*}
\noindent Analogamente, si può esprimere una \textit{relazione lineare indiretta} in termini di $(x_i - \overline x)(y_i - \overline y) < 0$.
Per capire se una relazione lineare è \textit{diretta} o \textit{indiretta} possiamo sommare tutti i termini, normalizzando per $n-1$.
\noindent Introduciamo quindi il concetto di \textbf{covarianza campionaria}, che esprime la relazione lineare tra due variabili casuali in un campione di dati rappresentando la tendenza delle due variabili a variare insieme. Viene definita come: \[
\boxed{
\text{Cov($x, \, y$)} =
\frac{1}{n-1} \sum_{i = 1}^n (x_i - \overline x) (y_i - \overline y)
\begin{cases}
> 0 & \text{relazione lineare \textit{diretta}} \\
\simeq 0 & \text{\textit{indizio di indipendenza} tra $x$ e $y$} \\
< 0 & \text{relazione lineare \textit{indiretta}}
\end{cases}
}.
\]
\setlength\intextsep{0pt}
\begin{wrapfigure}{r}{0.33\textwidth}
\begin{tikzpicture}
\begin{axis}[
enlargelimits=false,
axis lines = center,
%axis equal,
xlabel = $x$,
ylabel = $y$,
xmax=5, ymax=5,
width = 0.33\textwidth
]
\addplot+[
only marks,
scatter,
mark size=2.5pt]
table{data/scatter-norelation.dat};
\end{axis}
\end{tikzpicture}
\caption{Esempio $\text{Cov}(x, \, y) = 0$}
\label{fig:scatter_norelation}
\end{wrapfigure}
\noindent Analizziamo il caso in cui $\text{Cov}(x, \, y) \simeq 0$: un indice di covarianza uguale o prossimo allo zero può indicare un'\textbf{assenza di una relazione di dipendenza} tra le due osservazioni. Indipendenza tra le osservazioni implica $\text{Cov}(x, \, y) = 0$ (\figurename \ \ref{fig:scatter_norelation}), ma non vale necessariamente il viceversa.
\noindent L'\textbf{unità di misura} della covarianza campionaria $\text{Cov}(x, \, y)$ è il prodotto dell'unità di misura di $x_i$ con l'unità di misura di $y_i$; questa caratteristica non la rende adatta ad essere un indice descrittivo ed è il motivo per il quale non viene spesso considerata.
\label{sd:indice-correlazione-lineare}
\subsubsection{Indice di correlazione lineare}
Per risolvere il problema dell'unità di misura e avere un indice agnostico (possiamo dire anche una misura normalizzata della covarianza), si introduce l'\textbf{indice di correlazione lineare} (o di \textbf{Pearson}):
\[
\boxed{
\rho = \frac{1}{n-1} \frac{\sum_i{(x_i - \overline{x})(y_i - \overline{y})}}{\mathnormal{s}_x \mathnormal{s}_y} = \frac{\mathnormal{s}_{XY}}{\mathnormal{s}_X \mathnormal{s}_Y}
}
\]
\newline La divisione per $\mathnormal{s}_x \mathnormal{s}_y$ mantiene il segno (e le relative conseguenze) della covarianza: essendo $\mathnormal{s}_x \mathnormal{s}_y$ positivo per definizione è quindi solo una costante moltiplicativa che però rende agnostico l'indice, privandolo dell'unità di misura. Si può dimostrare che $\boxed{-1 \le \rho \le 1}$, questo permette di fissare delle soglie.
\noindent Tentiamo ora di definire una relazione lineare tra $x_i$ e $y_i$: sia $x_1, \, \dots, \, x_n$ allora definisco $\forall i \: \green{y_i = a + bx_i}$. Questo è un caso estremo: sullo scatter plot tutti i punti giacciono sulla medesima retta.
Sapendo che $\red{\overline{y} = a + b\overline{x}}$ $\Rightarrow$ \linebreak $\Rightarrow \mathnormal{s}^2_y = b^2 \mathnormal{s}_x^2$ e $\orange{\mathnormal{s}_y = |b| \mathnormal{s}_x}$.
Tentando di calcolare $\rho$ otteniamo:
\begin{align*}
\rho =& \frac{1}{n-1} \frac{\sumi{(x_i - \overline{x})(\green{y_i} - \red{\overline{y}})}}{\mathnormal{s}_x \orange{\mathnormal{s}_y}} =
\frac{1}{n-1} \frac{\sumi (x_i - \overline x)(\green{\cancel a + b x_i} - (\red{ \cancel a + b \overline x}))}{\mathnormal{s}_x \orange{|b| \mathnormal{s}_x}}
\\ =&
\frac{1}{n-1} \frac{\sumi{(x_i - \overline{x})(x_i - \overline{x})}b}{\mathnormal{s}_x\mathnormal{s}_x|b|}
=
\frac{1}{n-1} \frac{\sumi{(x_i - \overline{x})^2}}{\mathnormal{s}_x^2} \frac{b}{|b|}
=
\frac{\sumi{(x_i - \overline{x})^2}}{n-1} \frac{1}{\mathnormal{s}_x^2}
\frac{b}{|b|}
=
\cancel{\mathnormal{s}_x^2}
\frac{1}{\cancel{\mathnormal{s}_x^2}}
\frac{b}{|b|} =
\frac{b}{|b|}
\end{align*}
\noindent In questo caso, $\rho=\begin{cases} +1 & \text{se } b > 0 \\ -1 & \text{se } b < 0 \end{cases}$; se $\rho=0$ l'indice potrebbe indicare una indipendenza dei due attributi.
\paragraph{Trasformazioni lineari}
Applichiamo a $x_i$ e $y_i$ delle trasformazioni lineari:
\begin{itemize}
\item $x_i \longrightarrow x_i' = a + bx_i$, quindi $\overline{x}' = a + b\overline{x}$ e $\mathnormal{s}_{x'} = | b| \mathnormal{s}_x$;
\item $y_i \longrightarrow y_i' = c + dy_i$, quindi $\overline{y}' = c + d\overline{y}$ e $\mathnormal{s}_{y'} = | d | \mathnormal{s}_y$.
\end{itemize}
Scrivendo $\rho'$ in funzione di $x_i$ e $y_i$ si ottiene:
\begin{align*}
\rho' =&
\frac {1}{n-1} \frac {\sumi (x'_i - \overline{x}')(y'_i - \overline{y}')}{\mathnormal{s}_{x'} \mathnormal{s}_{y'}}
=
\frac{1}{n-1} \frac{\sum_i{b(x_i - \overline{x})d(y_i - \overline{y})}}{|b|\mathnormal{s}_{x} |d|\mathnormal{s}_{y}} = \\ =&
\frac{b d}{|b| |d|} \frac{1}{n-1} \frac{\sum_i{(x_i - \overline{x}})(y_i - \overline{y})}{\mathnormal{s}_{x} \mathnormal{s}_{y}} =
\frac{b d}{|bd|} \rho =
\begin{cases}
+\rho & \text{se } bd > 0 \ \ (\text{segno concorde}) \\
-\rho & \text{se } bd < 0 \ \ (\text{segno discorde})
\end{cases}
\end{align*}
Notiamo prima di tutto che $\rho$ è \textbf{insensibile alle trasformazioni lineari}. Inoltre, il segno di $\rho'$ è positivo se le trasformazioni applicate a $x_i$ e $y_i$ sono di segno concorde e quindi la relazione è lineare diretta; in caso contrario è negativo e la relazione è lineare inversa.
\paragraph{Metodo alternativo di calcolo}
L'indice di correlazione si può calcolare anche in un altro modo, sapendo che $s_x = \sqrt{\frac{1}{n-1} \sum_i{(x_i - \overline{x})^2}}$.
Iniziamo con il trovare un metodo di alternativo di calcolo della covarianza:
\begingroup\abovedisplayskip=0pt
\begin{align*}
\text{Cov}_{x, \, y} =&
\frac{1}{n-1} \sumi{(x_i - \overline{x})(y_i - \overline{y})} =
\frac{1}{n-1} \biggl (\sumi{x_i y_i} - \overline{y} \overbrace{\sumi{x_i}}^{=n\overline x} - \overline{x} \overbrace{\sumi{y_i}}^{=n\overline y} + n \overline{x} \overline{y} \biggr) = \\ =&
\frac{1}{n-1} \biggl (\sumi{x_i y_i} - n \overline{x} \overline{y} - \cancel{n \overline{x} \overline{y}} + \cancel{n \overline{x} \overline{y}} \biggr ) =
\frac{1}{n-1} \biggl (\sumi{x_i y_i} - n \overline{x} \overline{y} \biggr ).
\end{align*}
\endgroup
\noindent Notiamo come la covarianza sia una generalizzazione della varianza.
\paragraph{Problematiche} È importante sottolineare che anche questo indice può risultare fallace, questo perché, come per la covarianza campionaria (infatti l'indice di correlazione è come la covarianza ma senza il problema dell'unità di misura), avendo un valore vicino allo zero non vi è la certezza dell'assenza di correlazione tra gli elementi dei due campioni.
\subsection{Indici di eterogeneità}
Quanto è \textit{omogenea} o \textit{eterogenea} un'osservazione? Gli indici di eterogeneità cercano di dare una risposta a questa domanda, o in altri termini tramite gli indici di eterogeneità è possibile verificare quanto si differenziano tra loro gli elementi di un campione.
Inoltre, sono molto utili perché sono utilizzabili anche con i dati qualitativi nominali, a differenza degli indici precedenti, che lavoravano con dati numerici. In questa sezione utilizziamo come notazione $x_1, \, x_2, \, \dots, \, x_n$ per indicare le $n$ osservazioni e $\{ v_1, \, \dots, \, v_m \}$ per indicare l'insieme dei $m$ valori univoci. Per frequenza $f_j$ si intende la frequenza relativa del valore $j$ ($f'_j$).
\subsubsection{Indice di Gini (per l'eterogeneità)}
L'indice di Gini si indica con $I$ e si calcola con:
\[
\boxed{
I = 1 - \sum_{j=1}^{m} f^2_j
}.
\]
Quali valori può assumere $I$?
\begin{itemize}
\item limite superiore: $\exists k \: f_k \neq 0 \Rightarrow f^2_k \neq 0 \Rightarrow \sum_{j=1}^m f^2_j > 0 \Rightarrow 1 - \sum_{j=1}^m f^2_j < 1$;
\item limite inferiore: $0 \leq f_j \leq 1 \Rightarrow \forall j \: f^2_j \leq f_j \Rightarrow \sum_{j=1}^m f^2_j \leq \sum_{j=1}^m f_j \Rightarrow \sum_{j=1}^m f^2_j \leq 1 \Rightarrow 1 - \sum_{j=1}^m f^2_j \geq 0 $.
\end{itemize}
Per riassumere: \[
\boxed{0 \leq I \leq \dfrac{m-1}{m} < 1}.
\]
\noindent Osserviamo ora il comportamento dell'indice nelle situazioni estreme: \begin{itemize}
\item minima eterogeneità/massima omogeneità (tutti i valori sono uguali): \[
\exists k \: f_k = 1 \land \forall j \neq k \: f_j = 0 \Rightarrow I = 1 - \sum_{j=1}^m f^2_j = 1 - f^2_k = 1 - 1 = 0
\]
\item massima eterogeneità/minima omogeneità (tutti i valori sono diversi): \[
\forall j \: f_j = \frac{1}{m} \Rightarrow I = 1 - \sum_{j=1}^m \frac{1}{m^2} = 1 - \frac{m}{m^2} = 1 - \frac{1}{m} = \frac{m-1}{m}
\]
\end{itemize}
\noindent Notiamo come l'indice di Gini nel caso di massima eterogeneità \textit{tenda}, senza mai arrivarci, ad 1, anche considerando un numero di osservazioni arbitrariamente alto: $\lim_{m \to \infty}\frac{m-1}{m} = 1$.
\noindent Per confrontare due osservazioni di taglie diverse utilizziamo l'\textbf{indice di Gini normalizzato} $I'$: \[
\boxed{
I' = \frac{m}{m-1} I
}.
\]
Questa operazione di normalizzazione ha un enorme vantaggio, ovvero trasporta lo spazio degli indici su una scala a noi più comoda, della quale conosciamo gli estremi
\newline \newline Osserviamo il comportamento dell'indice di Gini nella versione più semplice, con due soli valori: $f_1$ e $f_2 = 1 - f_1$.
\newline Se calcoliamo l'indice di Gini otteniamo $I = 1 - f_1^2 - f_2^2 = 1 - f^2 - (1-f)^2 =1 - f^2 - 1 - f^2 + 2f = 2f - 2f^2$.
\begin{center}
\begin{tikzpicture}
\begin{axis}[
enlargelimits=false,
axis lines = center,
%axis equal,
xlabel = $f_1$,
ylabel = $I$,
domain = 0:1,
xmax=1.19,
ymin=0, ymax=0.6,
ytick={0,0.5},
xtick={0,0.5,1},
extra y ticks={0},
]
\addplot[color=blue, thick]{-2 *(-x + x^2)};
\draw[color=red, dotted, thick] (0.5, 0) -- (0.5, 0.5);
\draw[color=red, dotted, thick] (0, 0.5) -- (0.5, 0.5);
\filldraw[color=red] (0.5, 0.5) circle (0.5mm);
\end{axis}
\end{tikzpicture}
\end{center}
\noindent Al variare di $f_1$, l'indice di Gini raggiunge il suo picco al punto di massima eterogeneità ($f_1 = f_2 = 0.5$), con valore $I = \frac{m-1}m = \frac{2-1}{2} = 0.5$, ed è uguale a 0 per i punti di minima omogenità ($f_1 = 0 \land f_2 = 1$, $f_1 = 1 \land f_2 = 0$).
\subsubsection{Entropia}
Un ulteriore indice di eterogeneità è l'\textbf{entropia}, definita come:
\[
\boxed{
H = \sum_{j=1}^m f_j \cdot \log \frac{1}{f_j} = \sum_{j=1}^m -f_j \cdot \log f_j
}
\]
Anche qui analizziamo il range di valori di $H$:
\begin{itemize}
\item limite inferiore: $H_j = f_j \log{\frac{1}{f_j}} \geq 0 \Rightarrow \sum_{j=1}^m{H_j} \geq 0$. \newline Il caso $H=0$ lo si ha quando $H = 0 \Leftrightarrow \forall j \: H_j = 0 \Leftrightarrow \forall j \cancel{f_j = 0} \lor f_j = 1$;
\item limite superiore: sulla falsa riga dell'indice di Gini, il limite superiore è il caso di massima eterogeneità/minima omogeneità; vale allora $\forall j \: f_j = \frac{1}{m} \Rightarrow H = \sum_{j=1}^m{\frac{1}{m} \log{m}} = \cancel{\frac{m}{m}} \log{m} = \log{m}$.
\end{itemize}
\noindent Per riassumere: \[
\boxed{
0 \leq H \leq \log{m}
}.
\]
\noindent Infine, per confrontare due misurazioni con diversi $m$ si utilizza l'\textbf{entropia normalizzata}:
\[
\boxed{
H' = \frac{1}{\log{m}}H
}
\]
Possiamo considerare come base del logaritmo 2 (bit), questo perché non influisce sui calcoli in quanto determina solo l'unità di misura.
\subsection{Indici di concentrazione}
Gli indici di concentrazione descrivono quanto una grandezza (per esempio monetaria) è equamente distribuita o quanto è \textit{concentrata} in un numero ridotto di osservazioni. In questa sezione utilizziamo come notazione $a_1, \, a_2, \, \dots, \, a_n$, ordinate in modo non decrescente, per indicare la quantità della grandezza detenuta da $n$ soggetti. I casi estremi possono essere due: \begin{itemize}
\item \textbf{concentrazione massima}, un soggetto detiene tutta la quantità: $a_1 = 0, \, a_2=0, \, \dots, \, a_{n-1}=0, \, a_{n}=n\overline{a}$;
\item \textbf{concentrazione minima}, tutti i soggetti detengono la medesima quantità: $a_1 = a_2 = \dots = a_{n} = \overline a$.
\end{itemize}
\noindent La quantità totale posseduta dall'insieme la indichiamo con $\mathtt{tot} = \sumi a_i = n \overline a$.
\subsubsection{Curva di Lorentz}
Introduciamo due indici dipendenti da $i$, ovvero la posizione (da $1$ a $n$) dell'osservazione rispetto all'insieme: \begin{itemize}
\item $\boxed{F_i = \dfrac in}$ indica la \textit{posizione} percentuale dell'osservazione $i$ nell'insieme;
\item $\displaystyle \boxed{Q_i = \frac{1}{\mathtt{tot}} \sum_{k=1}^i a_k}$ indica la frazione di ricchezza totale posseduta dai primi $i$ individui.
\end{itemize}
\noindent La tupla $(F_i, \, Q_i)$ indica che il $100 \cdot F_i \%$ degli individui detiene il $100 \cdot Q_i \%$ della quantità totale. Inoltre:
\[
\forall i \ \ 0 \leq Q_i \leq F_i \leq 1,
\]
in quanto $F_i$ e $Q_i$ sono rapporti propri (il numeratore è sempre minore del denominatore) e, essendo l'insieme ordinato, un individuo non può detenere in percentuale più quantità $Q_i$ rispetto alla sua posizione $F_i$.
\begin{figure}[h]
\vspace*{\abovedisplayskip}
\centering
\begin{tikzpicture}
\begin{axis}[
enlargelimits=false,
axis lines = center,
%axis equal,
xlabel = $F_i$,
ylabel = $Q_i$,
domain = 0:1,
xmax=1.1,
ymin=0, ymax=1.1,
%ytick={0,1},
%xtick={0,1},
extra y ticks={0},
]
\addplot[color=blue, thick, name path=A]{x} node [midway, above, sloped] (TextNode) {minima};
\addplot[color=red, name path=B]{x^2} node [midway, above, sloped] (TextNode) {bassa};
\addplot[color=red, name path=C]{x^4} node [midway, above, sloped] (TextNode) {media};
\addplot[color=red, name path=D]{x^8} node [midway, above, sloped] (TextNode) {alta};
\addplot[color=olive, thick] (0, 0) -- (1, 0);
\addplot[color=olive, thick] (1, 0) -- (1, 1) node [midway, above, sloped, xshift=-1.5cm] (TextNode) {massima};
\filldraw[color=black] (1, 1) circle (0.5mm);
\addplot [orange!20] fill between [of = A and D, soft clip={domain=0:1}];
\addplot [orange!30] fill between [of = A and C, soft clip={domain=0:1}];
\addplot [orange!40] fill between [of = A and B, soft clip={domain=0:1}];
\end{axis}
\end{tikzpicture}
\caption{Curve di Lorentz a diversi livelli di concentrazione}
\label{fig:lorentz}
\vspace*{\abovedisplayskip}
\end{figure}
\noindent Dal rapporto tra $F_i$ e $Q_i$ è possibile avere una rappresentazione grafica del livello di concentrazione del sistema. La \textit{curva} (discreta) risultante da questo rapporto è chiamata \textbf{curva di Lorentz}, rappresentata in \figurename \ \ref{fig:lorentz}.
\subsubsection{Indice di Gini (per la concentrazione)}
La curva di Lorentz è un indice qualitativo e la sua interpretazione è quindi soggettiva: quando la osserviamo ci chiediamo quanto sia ``\textit{lontana}" dalla linea indicante la concentrazione minima. Per formalizzare tale concetto possiamo considerare la somma delle differenze tra $F_i$ e $Q_i$ per $i=1$ a $i=n-1$ (per $i=n \Rightarrow F_i-Q_1=1-1=0$), normalizzando per la somma degli $F_i$. Abbiamo quindi definito l'indice di Gini per la concentrazione:
\[
\boxed{
G = \frac{\displaystyle \sum_{i=1}^{n-1} F_i - Q_i}{\displaystyle \sum_{i=1}^{n-1} F_i}
}.
\]
\noindent L'indice di Gini è definito in $\boxed{0 \leq G \leq 1}$.
\noindent È possibile riscrivere l'indice di Gini in una forma più semplice con dei passaggi algebrici:
\begin{gather*}
\sum_{i=1}^{n-1} F_i = \sum_{i=1}^{n-1} \frac in = \frac 1n \sum_{i=1}^{n-1} i = \frac {1}{\cancel n} \frac {(n-1) \cancel n}2 = \frac{n-1}2,
\\
\boxed{
G = \frac{2}{n-1} \sum_{i=1}^{n-1} F_i - Q_i}.
\end{gather*}
\subsection{Trasformazione dei dati}
Dato il campione $X= \{x_1, \, ..., \, x_n\}$, deriviamo l'insieme dei valori osservabili $v_1, \, ..., \, v_m$ e l'insieme delle frequenze relative associate $f'_1, \, ..., \, f'_m$.
\textit{Trasformare i dati} significa trovare una funzione $g: X \rightarrow X'$ iniettiva che modifica ogni elemento del campione $X$ applicandolo alla funzione $g$.
Come mai si vuole una funzione iniettiva? Poiché avendo una funzione non iniettiva si rischia di mappare due elementi diversi sullo stesso valore, ma questo non deve accadere perchè modificherebbe le frequenze relative associate ad ogni valore, e noi vogliamo una trasformazione che mantenga tutte le proprietà del campione di partenza.
Quindi per completezza ricordiamo che una funzione iniettiva è una funzione tale che presi due elementi \textbf{diversi} del dominio $v_1$ e $v_2$, essi sono associati a due elementi \textbf{diversi} del codominio, $f(v_1)$ e $f(v_2)$.
\paragraph{Traslazione}
Consideriamo la \textbf{traslazione} di un valore $k \in \mathbb{R}$: quest'ultima è una funzione $g(x) = x \pm k$ che ``sposta" in avanti o indietro tutte le misurazioni di $k$. Questa trasformazioni viene utilizzata generalmente nel caso in cui i dati siano di dimensioni molto grandi o molto piccole, in modo da trasformarli in dati che possono essere trattati più facilmente.
\paragraph{Scalatura}
Consideriamo ora la \textbf{scalatura} di un fattore $h \in \mathbb{R^+}$: quest'ultima è una funzione $g(x) = hx$. \\
A differenza della traslazione, tutti gli indici analizzati fin'ora sono sensibili alla scalatura.
\[
\begin{cases}
h > 1: \textit{i dati vengono dilatati} \\
0 < h < 1: \textit{i dati vengono compressi} \\
h < 0: \textit{i dati oltre a subire una dilatazione o compressione vengono specchiati} \\
\end{cases} \! \! \! \! \! \! .
\]
Sfruttando la scalatura è possibile fare in modo che il valore \textbf{minimo} sia $0$ e che non vi sia una limitazione sul valore massimo, e questo è possibile scalando per il valore minimo delle osservazioni.
\begin{table}[h]
\centering
\vspace{\abovedisplayskip}
\begin{tabular}{r l|cc}
\multicolumn{2}{c}{\textbf{Indice}} \vline & $g(x) = x \pm k$ & $g(x) = hx$ \\
\hline
Media & $\overline x$ & $\overline x \pm k$ & $h \overline x$ \\
Mediana & $m_x$ & $m_x \pm k$ & $h m_x$ \\
Moda & $M_x$ & $M_x \pm k$ & $h M_x$ \\
Quantile & $q_x$ & $q_x \pm k$ & $h q_x$ \\
\hline
Varianza & $\mathnormal{s}_x^2$ & $\mathnormal{s}_x^2$ & $h^2 \mathnormal{s}^2_x$ \\
Dev. std. & $\mathnormal{s}_x$ & $\mathnormal{s}_x$ & $|h|\mathnormal{s}_x$ \\
Range & $r_x$ & $r_x$ & $hr_x$ \\
IQR & $\text{IQR}_x$ & $\text{IQR}_x$ & $h \text{IQR}_x$
\end{tabular}
\vspace{\abovedisplayskip}
\end{table}
\paragraph{Cambiamento di origine e scala}
Applicare delle trasformazioni ai dati significa cambiare sistema di riferimento, mappando un range $(a, \, b)$ in un range $(c, \, d)$.
\begin{figure}[h]
\vspace*{\abovedisplayskip}
\centering
\begin{tikzpicture}
\begin{axis}[
enlargelimits=false,
axis lines = center,
%axis equal,
xlabel = $x$,
ylabel = $x'$,
domain = -1:1.75,
xmin=-0.25, xmax=1.50,
ymin=-0.25, ymax=1.50,
xtick={0.25, 1.25},
xticklabels={$a$, $b$},
ytick={0.25, 1.25},
yticklabels={$c$, $d$}
]
\addplot[color=blue, ultra thick, domain=0.25:1.25]{x};
\addplot[color=blue]{x};
\filldraw[color=blue] (0.25, 0.25) circle (0.5mm);
\filldraw[color=blue] (1.25, 1.25) circle (0.5mm);
\end{axis}
\end{tikzpicture}
\caption{Modifica del sistema di riferimento con trasformazione lineare}
\label{fig:transform}
\vspace*{\abovedisplayskip}
\end{figure}
\noindent Osservando il grafico a \figurename \ \ref{fig:transform}, la funzione che mappa $(a,b)$ in $(c,d)$ è una retta, la cui equazione la si ricava con la formula della retta passante tra due punti: \begin{align*}
f(x) = x^i =
\frac{x'-c}{d-c} = \frac{x-a}{b-a} \Rightarrow
x' = c + \frac{d-c}{b-a}(x-a)
\end{align*}
\noindent La \textbf{standardizzazione} (o \textbf{normalizzazione}) è un caso particolare di cambiamento di origine e scala, e consiste nell’applicare una scala il cui fattore è uguale alla deviazione standard dei valori, per poi traslare verso sinistra rispetto alla media dei valori. Definiamo per standardizzazione una operazione di trasformazione lineare di variabile che prevede una centratura (sottrarre la media) e una uniformazione (dividere per la deviazione standard). Tramite la centratura otteniamo una nuova variabile con media (o valore atteso) zero e tramite l'uniformazione togliamo l'unità di misura ed esprimiamo la variabile utilizzando come unità di misura la deviazione standard. Per esempio il valore standardizzato di $\overline{x} + 2,5 \cdot s_x = 2,5$. In questo modo i valori positivi sono valori sopra media e quelli negativi sono valori sotto media \[
(a, \, b) \rightarrow (-1, \, +1) \Rightarrow x' = 2 \frac{x-a}{b-a} -1 \Leftrightarrow x' = \frac{x - \overline x}{\mathnormal{s}_x}
\]
\noindent La trasformazione di standardizzazione trasforma pertanto l’insieme dei valori in un altro insieme
di valori la cui media è $0$ e la cui varianza è $1$.
Nel caso in cui il campione segua la \textbf{distribuzione approssimativamente normale} e venga applicata questa trasformazione si avrà che:
\begin{itemize}
\item approssimativamente il 68\% delle osservazioni dista dalla media campionaria sta tra -1 e 1;
\item approssimativamente il 95\% delle osservazioni dista dalla media campionaria sta tra -2 e 2;
\item approssimativamente il 99.7\% delle osservazioni dista dalla media campionaria sta tra -3 e 3.
\end{itemize}
\begin{dimostrazione}[Media campionaria pari a $0$]
Supponiamo di avere un campione di dati $(x_1, x_2, \ldots, x_n)$ con media campionaria $(\overline{x})$ e deviazione standard campionaria $(s_x)$.
\begin{align*}
\text{Media campionaria di }\frac{x - \overline{x}}{s_x} & = \frac{1}{n} \sum_{i=1}^{n} \left(\frac{x_i - \overline{x}}{s_x}\right) \\
& = \frac{1}{n} \sum_{i=1}^{n} \left(\frac{x_i}{s_x} - \frac{\overline{x}}{s_x}\right) \\
& = \frac{1}{n} \left(\frac{1}{s_x} \sum_{i=1}^{n} x_i - \frac{1}{s_x} \sum_{i=1}^{n} \overline{x}\right) \\
& = \frac{1}{n} \left(\frac{1}{s_x} \sum_{i=1}^{n} x_i - \frac{n\overline{x}}{s_x} \right) \\
& = \frac{1}{n} \left(\frac{n\overline{x}}{s_x} - \frac{n\overline{x}}{s_x}\right) \\
& = \frac{1}{n} \left(0\right) \\
& = 0
\end{align*}
\end{dimostrazione}
\begin{dimostrazione}[Varianza campionaria pari a $1$]
\begin{align*}
\text{Varianza campionaria di }\frac{x - \overline{x}}{s_x} & = \frac{1}{n-1} \sum_{i=1}^{n} \left(\frac{x_i - \overline{x}}{s_x}\right)^2 \\
& = \frac{1}{s_x^2} \frac{1}{n-1} \sum_{i=1}^{n} \left(x_i - \overline{x}\right)^2 \\
& = \frac{1}{s_x^2} \underbrace{\frac{1}{n-1} \sum_{i=1}^{n} \left(x_i - \overline{x}\right)^2}_{s_x^2} \\
& = \frac{1}{\cancel{s_x^2}} \cdot \cancel{s_x^2} \\
& = 1
\end{align*}
\end{dimostrazione}
\paragraph{Trasformazioni logaritmiche}
A volte i valori di una variabile osservata sono molto grandi oppure molto distanziati. In questi casi può essere utile considerare non tanto il valore originale ma, pensando a tale valore come potenza di una data base, ragionare in termini del relativo esponente. Ciò corrisponde ad applicare una trasformazione logaritmica del seguente tipo:
\[
x \Rightarrow x' = \log x
\]
Nel caso i valori siano molto distanziati tra loro e caratterizzati da una distribuzione di frequenza unimodale fortemente asimmetrica, la trasformazione logaritmica permette di ottenere una distribuzione di frequenza più simmetrica.
\subsection{Analisi della varianza}
Dato un campione $X$ può essere interessante suddividerlo in gruppi e osservare le differenze tra un gruppo e l'altro.
\noindent Ad esempio, dato un campione che contiene i redditi di una certa professione si potrebbe dividere e confrontare per regione, per genere o per fascia d'età.
\newline Indichiamo con $x_i^g$ l'$i$-esimo campione e $n_g$ il numero di osservazioni del $g$-esimo dei $1, \, \dots, \, G$ gruppi.
L'indice $i$ varia quindi tra $1$ e $n_g$:
$x_1^1, \, x_2^1, \, \dots, \, x_{n_1}^1, \, \dots, \, x_{1}^{G}, \, \dots, \, x_{n_G}^G$.
Se si è interessati a valutare l’ipotesi che i valori delle medie nei vari gruppi non siano sensibilmente differenti, per esempio perché si vuole dimostrare che il reddito non sia troppo diverso in un gruppo di città, oppure per dimostrare l’efficacia di un dato trattamento medico, è possibile applicare un metodo chiamato \textbf{ANOVA} (\textbf{ANalysis Of VAriance}). L’idea alla base di questo metodo è che se non vi sono sostanziali differenze tra i gruppi considerati, allora calcolare la varianza all’interno di un gruppo qualsiasi non dovrebbe portare a un risultato molto dissimile da quello ottenuto effettuando il calcolo su tutti i dati a disposizione.
Si definisce la media campionaria di un gruppo \[
\overline{x}^g = \frac{1}{n_g} \sum_{i=1}^{n_g}{x_i^g};
\]
di conseguenza, è possibile ridefinire la media campionaria come \[
\overline{x} = \frac{1}{n} \sum_{g=1}^G{\sum_{i=1}^{n_g}{x_i^g}} = \frac{1}{n} \sum_{g=1}^G{n_g \overline{x}^g}.
\]
Si possono definire ora tre indici di variazione, in stretta correlazione tra loro:
\begin{itemize}
\item (\textit{total}) $\operatorname{var}_T = \dfrac{\text{SS}_\text{T}}{n-1}$, con $\displaystyle \text{SS}_\text{T} = \sum_{g=1}^G \sum_{i=1}^{n_g} (x_i^g - \overline{x})^2$: la varianza totale del campione;
\item (\textit{within}) $\operatorname{var}_W = \dfrac{\text{SS}_\text{W}}{n-G}$, con $\displaystyle \text{SS}_\text{W} = \sum_{g=1}^G \sum_{i=1}^{n_g} (x_i^g - \overline{x}^g)^2$: la varianza di ogni elemento del gruppo;
\item (\textit{between}) $\operatorname{var}_B = \dfrac{\text{SS}_\text{B}}{G-1}$, con $\text{SS}_\text{B} = \displaystyle \sum_{g=1}^G n_g(\overline{x}^g - \overline{x})^2$; la varianza tra ogni gruppo e l'insieme completo.
\end{itemize}
Vale sempre la seguente regola:
\[
\boxed{\text{SS}_\text{T} = \text{SS}_\text{W} + \text{SS}_\text{B}}.
\]
\mdfsetup{skipabove=0pt,skipbelow=0pt}
\begin{dimostrazione}[$\text{SS}_\text{T} = \text{SS}_\text{W} + \text{SS}_\text{B}$]
\begin{align*}
\textnormal{SS}_\textnormal{T} &= {\sum}_g {\sum}_i (x_i^g - \overline{x})^2 = \\
&= {\sum}_g \sumi ((x_i^g)^2 - 2x_i^g\overline{x} + (\overline{x})^2)= \\
\intertext{\indent completo il quadrato di $(x_i^g - \overline{x}^g)^2$ per ottenere $\textnormal{SS}_\textnormal{W}$ e riscrivo le sommatorie}
&= {\sum}_g
\sumi \left(\cancel{(x_i^g)^2} - 2x_i^g\overline{x} + (\overline{x})^2
\green{\cancel{+(\overline x^g)^2}} \red{-(\overline x^g)^2} \green{+2x_i^g\overline{x}^g} \red{\cancel{-2x_i^g\overline{x}^g}}
\right )= \\
&= \underbrace{{\sum}_g \sumi \left(x_i^g - \overline x^g \right)^2}_{=\textnormal{SS}_\textnormal{W}} +
{\sum}_g \sumi \left ( (\overline x)^2 - (\overline x^g)^2 - 2 x^g_i \overline x + 2 x^g_i \overline x^g \right ) = \\
&= \textnormal{SS}_\textnormal{W} + {\sum}_g \left (
n_g(\overline x)^2 - n_g (\overline x^g)^2 - 2 \overline x \sumi x^g_i + 2\overline x^g \sumi x^g_i
\right ) = \\
\intertext{\indent essendo $\sumi x_i^g = n_g \overline x$, raccolgo $n_g$}
&= \textnormal{SS}_\textnormal{W} + {\sum}_g n_g \left (
(\overline x) ^ 2 - (\overline x^g) ^2 - 2 \overline x \overline x^g + 2 (\overline x^g)^2
\right ) = \\
\intertext{\indent ho quindi ottenuto il quadrato della formula di $\textnormal{SS}_\textnormal{B}$}
&= \textnormal{SS}_\textnormal{W} + \underbrace{{\sum}_g n_g \left (
\overline x^g - \overline x
\right )^2}_{\textnormal{SS}_\textnormal{B}} = \\
&= \textnormal{SS}_\textnormal{W} + \textnormal{SS}_\textnormal{B} = \textnormal{SS}_\textnormal{T} \tag*{$\blacksquare$}
\end{align*}
%\endgroup
\end{dimostrazione}
\subsection{Alberi di decisione}
Gli indici di eterogeneità sono alla base della costruzione di un interessante classificatore chiamato \textbf{albero di decisione}. Un albero di decisione assegna \textit{oggetti} a \textit{classi}, dove un oggetto è descritto tramite un'osservazione che consiste in un vettore di valori per degli attributi prefissati.
\newline \newline
Il procedimento di classificazione procede nel modo seguente: si considera la radice dell'albero che è contrassegnata da una condizione che coinvolge i valori di uno o più attributi per l'oggetto che si vuole classificare; a seconda del valore di questa condizione, si percorre una delle due frecce partenti dalla radice. Se il nodo a cui si arriva è un nodo terminale, in tale nodo è indicata la classe assegnata all'oggetto, altrimenti il nodo riporta un'altra condizione da valutare, iterando il comportamento precedente fino a che non si raggiunge una foglia, in questo modo si determina una classe per l'oggetto.
\newline \newline
Quindi un albero di decisione è un albero in cui tutti i nodi interni vengono etichettati con dei criteri booleani che si possono testare sui dati mentre le foglie vengono etichettate con un esito del processo di classificazione.
\subsubsection{Alberi binari}
L'albero viene costruito sulla base di una domanda che lo spezza in due, quindi il primo passo per la costruzione è guardare il dataset, visualizzare gli attributi che abbiamo a disposizione e formulare la domanda sull'attributo che permette di spezzare il dataset in due parti più o meno uguali. Per controllare quanto la domanda posta sia stata buona, è necessario trovare un indice di eterogeneità per poi calcolare la media pesata sui due gruppi.
\newline
Per proseguire con la creazione dell'albero di decisione, bisognerebbe applicare nuovamente il processo di ottimizzazione al gruppo che non ha ottenuto la massima omogeneità, e ripetere il processo finché non la si ottiene in tutti i gruppi.
\newline
Una volta finita la creazione del nostro albero possiamo passargli un oggetto e in base alle condizioni create, gli verrà assegnata una classe. Ovviamente, seppur è possibile lavorare con dati categorici per la costruzione di alberi di decisione, è necessario che questi vengano convertiti in valori numerici in quanto altrimenti la libreria per generare l'albero non funzionerebbe.
\subsection{Analisi di classificatori}
Immaginiamo di avere a disposizione un classificatore \textit{binario}, costruito cioè per discriminare tra due classi che indicheremo come positiva e negativa. Possiamo valutare la bontà di questo classificatore calcolando il numero di casi che vengono classificati in modo errato; notiamo però che ci sono due possibili modi di sbagliare la classificazione:
\begin{itemize}
\item un esempio positivo viene classificato come negativo, dando luogo a un cosiddetto falso negativo;
\item un esempio negativo viene classificato come positivo, e in questo caso si parla di falso positivo.
\end{itemize}
In alcuni casi il peso dato a un errore che coinvolge un falso positivo equivale a quello dato a un falso negativo, ma non è sempre così. Se per esempio il procedimento di classificazione mira a determinare i portatori di una grave malattia contagiosa, un falso positivo sta a indicare un individuo sano che viene erroneamente classificato come malato; un falso negativo corrisponde invece a un individuo contagioso classificato come sano e quindi a una falla nel contenimento di una potenziale epidemia.
\newline \newline
La \textbf{matrice di confusione} è una matrice in cui una dimensione è legata alle predizione effettuate mentre sulle colonne il valore effettivo. Abbiamo quindi per ogni cella una possibile predizione che può essere:
\begin{center}
\begin{tabular}{ | m{3cm} | c | c | c | c | }
\hline
\multicolumn{2}{|c|}{} & \multicolumn{2}{|c|}{Effettivo} \\
\cline{3-4}
\multicolumn{2}{|c|} {}
& Positivi & Negativi\\
\hline
\multirow{2}{*}{Predizione}
& Positivo & True Positive (VP) & False Positive (FP) \\
\cline{2-4}
& Negativo & False Negative (FN) & True Negative (VN) \\
\hline
\rowcolor{green!50}
\multicolumn{2}{| c |}{Totals}
& TP & TN \\
\hline
\end{tabular}
\end{center}
La \textbf{sensibilità} è la capacità del classificatore di predire bene i positivi $\dfrac{\text{VP}}{\text{TP}}$ mentre la \textbf{specificità} è la capacità del classificatore di predire bene i negativi $\dfrac{\text{VN}}{\text{TN}}$
\newline
Una volta calcolati i valori, è possibile valutare il classificatore in funzione della posizione assunta dal punto di coordinate $(1 - \text{specificità}, \text{sensibilità})$
\subsubsection{Classificatori costanti}
Sono i classificatori che associano indiscriminatamente gli oggetti nella classe positiva; quello che succede è che tutti i positivi sono predetti correttamente mentre tutti i negativi sono predetti falsamente. La sensibilità in questo caso sarà $1$ e la specificità sarà $0$. Lo stesso vale per i classificatori che associano indiscriminatamente gli oggetti nella classe negativa. (\figurename \ \ref{fig:classificatori}a)
\subsubsection{Classificatori ideali}
Sono i classificatori che hanno come coordinate $(0, 1)$ e significa che il $100\%$ dei valori positivi viene correttamente classificato e lo stesso per i negativi; quindi è il classificatore che non commette errore. (\figurename \ \ref{fig:classificatori}b)
\subsubsection{Classificatori casuali}
Sono i classificatori che corrispondono al punto $\left(\dfrac{1}{2},\dfrac{1}{2}\right)$, quindi assegna un generico oggetto a una classe scelta uniformemente a caso, per esempio lanciando una moneta. (\figurename \ \ref{fig:classificatori}c)
\subsubsection{Classificatori a soglia}
Sono i classificatori effettuano il procedimento di classificazione di un generico oggetto calcolando una quantità e verificando che quest'ultima sia superiore a una soglia prefissata. La quantità varierà in funzione dell'oggetto considerato mentre la soglia resterà uguale. Gli indici di sensibilità e specificità possono essere utilizzati proprio per fissare il valore della soglia: indicando con $\theta$ un generico valore per la soglia e identificato un intervallo $[\theta_{\text{min}}, \theta_{\text{max}}]$, si può considerare un'opportuna discretizzazione finita di tale intervallo $D = \{\theta_0 = \theta_{\text{min}}, ..., \theta_n = \theta_{\text{max}}\}$. Per ogni $\theta \in D$ è poi possibile calcolare la sensibilità e la specificità del classificatore e disegnare sul piano cartesiano il punto corrispondente; il risultato è una traiettoria che prende il nome di \textbf{curva ROC}. (\figurename \ \ref{fig:classificatori}d) L'andamento di una curva ROC ha sempre l'origine e il punto $(1, 1)$ come estremi. Infatti quando la soglia assume rispettivamente i suoi valori minimo e massimo il classificatore ha un output costante. Il grafico della curva viene inoltre utilizzato per valutare la bontà del classificatore indipendentemente da uno specifico valore della soglia; il valore di tale area viene indicato con la sigla \textbf{AUC} ("Area Under the ROC Curve"): più si avvicina a $1$ , più il classificatore ha un comportamento che approssima quello del caso ideale CI.