L’era dei big data ha prodotto metodologie estese per estrarre caratteristiche/pattern da dati di serie temporali complesse. Dal punto di vista della scienza dei dati, queste metodologie sono emerse da pi`u discipline, tra cui statistica, elaborazione/ingegneria dei segnali e informatica. Il clustering `e una soluzione per classificare dati enormi quando non c’`e alcuna conoscenza precedente sulle classi, ottendo cos`ı la riduzione della numerosit`a ad esempio. L’obiettivo del clustering `e identificare la struttura in un set di dati senza etichetta organizzando i dati in gruppi omogenei in cui la dissomiglianza all’interno del gruppo `e ridotta al minimo e la dissomiglianza tra i gruppi `e massimizzata. I dati sono chiamati statici se tutti i loro valori delle caratteristiche non cambiano nel tempo o se il cambiamento `e trascurabile. La maggior parte delle analisi di clustering `e stata eseguita su dati statici. Proprio come il clustering di dati statici, il clustering di serie temporali richiede un algoritmo o una procedura di clustering per formare cluster dato un insieme di oggetti di dati non etichettati e la scelta dell’algoritmo di clustering dipende sia dal tipo di dati disponibili che dal particolare scopo e dall’applicazione. Considerando le serie temporali come oggetti discreti, le procedure di clustering convenzionali possono essere utilizzate per raggruppare un insieme di serie temporali individuali rispetto alla loro somiglianza in modo tale che serie temporali simili siano raggruppate nello stesso cluster. Da questa prospettiva sono state sviluppate tecniche di clustering di serie temporali, la maggior parte delle quali dipende in modo critico dalla scelta della misura della distanza (cio`e della somiglianza). In generale, la letteratura definisce tre diversi approcci alle serie temporali di cluster: (i) Shape-based clustering, il clustering viene eseguito in base alla somiglianza delle forme, in cui le forme di due serie temporali sono abbinate utilizzando contrazioni e decontrazioni non lineari degli assi temporali; (ii) Feature-based clustering, le serie temporali grezze vengono trasformate nel vettore di caratteristiche di dimensione inferiore dove, per ogni serie temporale, viene creato un vettore di caratteristiche di lunghezza fissa e uguale (di solito un insieme di caratteristiche statistiche ); (iii) Model-based clustering assume un modello matematico per ciascun cluster e tenta di adattare i dati al modello assunto. .. [a cura dell'Autore]
High-dimensional time series clustering: nonparametric trend estimation / Giuseppe Feo , 2021 Oct 19., Anno Accademico 2019 - 2020. [10.14273/unisa-4568].
High-dimensional time series clustering: nonparametric trend estimation
Feo, Giuseppe
2021
Abstract
L’era dei big data ha prodotto metodologie estese per estrarre caratteristiche/pattern da dati di serie temporali complesse. Dal punto di vista della scienza dei dati, queste metodologie sono emerse da pi`u discipline, tra cui statistica, elaborazione/ingegneria dei segnali e informatica. Il clustering `e una soluzione per classificare dati enormi quando non c’`e alcuna conoscenza precedente sulle classi, ottendo cos`ı la riduzione della numerosit`a ad esempio. L’obiettivo del clustering `e identificare la struttura in un set di dati senza etichetta organizzando i dati in gruppi omogenei in cui la dissomiglianza all’interno del gruppo `e ridotta al minimo e la dissomiglianza tra i gruppi `e massimizzata. I dati sono chiamati statici se tutti i loro valori delle caratteristiche non cambiano nel tempo o se il cambiamento `e trascurabile. La maggior parte delle analisi di clustering `e stata eseguita su dati statici. Proprio come il clustering di dati statici, il clustering di serie temporali richiede un algoritmo o una procedura di clustering per formare cluster dato un insieme di oggetti di dati non etichettati e la scelta dell’algoritmo di clustering dipende sia dal tipo di dati disponibili che dal particolare scopo e dall’applicazione. Considerando le serie temporali come oggetti discreti, le procedure di clustering convenzionali possono essere utilizzate per raggruppare un insieme di serie temporali individuali rispetto alla loro somiglianza in modo tale che serie temporali simili siano raggruppate nello stesso cluster. Da questa prospettiva sono state sviluppate tecniche di clustering di serie temporali, la maggior parte delle quali dipende in modo critico dalla scelta della misura della distanza (cio`e della somiglianza). In generale, la letteratura definisce tre diversi approcci alle serie temporali di cluster: (i) Shape-based clustering, il clustering viene eseguito in base alla somiglianza delle forme, in cui le forme di due serie temporali sono abbinate utilizzando contrazioni e decontrazioni non lineari degli assi temporali; (ii) Feature-based clustering, le serie temporali grezze vengono trasformate nel vettore di caratteristiche di dimensione inferiore dove, per ogni serie temporale, viene creato un vettore di caratteristiche di lunghezza fissa e uguale (di solito un insieme di caratteristiche statistiche ); (iii) Model-based clustering assume un modello matematico per ciascun cluster e tenta di adattare i dati al modello assunto. .. [a cura dell'Autore]| File | Dimensione | Formato | |
|---|---|---|---|
|
117672040651902554675707328818088428748
accesso aperto
Tipologia:
Altro materiale allegato
Dimensione
208.37 kB
Formato
Adobe PDF
|
208.37 kB | Adobe PDF | Visualizza/Apri |
|
131783955431514148232541775204306185997
accesso aperto
Tipologia:
Altro materiale allegato
Dimensione
226.09 kB
Formato
Adobe PDF
|
226.09 kB | Adobe PDF | Visualizza/Apri |
|
145060429840444537440694878804954448391
accesso aperto
Tipologia:
Altro materiale allegato
Dimensione
993.86 kB
Formato
Adobe PDF
|
993.86 kB | Adobe PDF | Visualizza/Apri |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


