• Edizioni di altri A.A.:
  • 2022/2023
  • 2023/2024

  • Lingua Insegnamento:
    Le lezioni saranno svolte in Italiano. Le slides e il libro di testo sono in italiano. 
  • Testi di riferimento:

    Libri di testo consigliati:

    James, Witten, Hastie, Tibshirani (2013) Introduzione all'apprendimento statistico (con applicazioni in R), Piccin

    Valentina Porcu, Guida al text mining e alla sentiment analysis con R, edito da Valentina Porcu 2016, eBook
     
  • Obiettivi formativi:

    L’insegnamento si propone di fornire allo studente gli strumenti per estrarre informazioni rilevanti da grandi moli di dati, con particolare attenzione all'apprendimento statistico sia in
    contesto predittivo che non (apprendimento supervisionato e non). Inoltre il corso persegue l’obiettivo di fornire agli studenti i concetti relativi ai metodi per l’analisi e la descrizione di dati testuali. Il text mining è una delle tecniche di analisi dati che ha tratto più benefici dal progredire delle tecniche per la raccolta di dati online e dallo sviluppo del web. Infatti, i dati in forma di testo sono estremamente importanti per tutta una serie di analisi, dalla ricerca ed estrazione d'informazione, alla classificazione automatica di un testo, all'estrazione di concetti.
    Le esercitazioni riguarderanno l’applicazione delle tecniche e metodologie introdotte attraverso l’utilizzo del linguaggio statistico R.

    RISULTATI DELL'APPRENDIMENTO ATTESI Conoscenza e capacità di comprensione
    1. Comprensione della natura dei dati multivariati e dei dati testuali e delle metodologie statistiche per il loro trattamento. .
    2. Comprensione e capacità di spiegare i concetti base degli algoritmi per l’estrazione di informazioni da basi di dati multivariati e testuali.
    3. Capacità di applicare i principi di ragionamento statistico nell'elaborazione e nell'interpretazione dei risultati derivanti da analisi di dati reali
    4. Capacità di utilizzare il software R per l’analisi statistica
    Autonomia di giudizio
    - Apprendere i concetti logici e statistici che sono indispensabili per lavorare autonomamente nella ricerca, selezione ed elaborazione di dati multivariate e testuali derivanti da diverse fonti.
    Abilità comunicative
    - Imparare la terminologia e le tecniche statistiche per comunicare o discutere correttamente i risultati dell'analisi dei dati multivariati e testuali.
     
  • Prerequisiti:

    Conoscenze base di statistica.
     
  • Metodi didattici:

    Il corso sarà articolato in lezioni teoriche ed esercitazioni pratiche svolte attraverso l’utilizzo del linguaggio di programmazione R. La frequenza alle attività didattiche non è obbligatoria tuttavia è fortemente consigliata
     
  • Modalità di verifica dell'apprendimento:

    L’esame si articola nello svolgimento di diversi progetti durante il corso e la successiva presentazione orale dei risultati ottenuti.
     
  • Sostenibilità:
     
  • Altre Informazioni:

    E-mail: lara.fontanella@unich.it
    Giorni ed orari di ricevimento studenti: dopo le lezioni e per appuntamento da concordarsi via e-mail
     


Il corso prevede la trattazione dei seguenti argomenti per il raggiungimento dei risultati di apprendimento attesi: introduzione alla programmazione in R; introduzione all'apprendimento statistico, tecniche di visualizzazione dei dati; tecniche di regressione e classificazione; apprendimento non supervisionato (analisi delle componenti principali, metodi di raggruppamento); introduzione al Text Mining; algoritmi per la preparazione dei testi; visualizzazione di dati testuali; metodologie statistiche ed algoritmi per l’analisi dei dati testuali; tecniche di estrazione dei dati da social media.

1. Introduzione ad R
2. Introduzione a data mining e statistical learning.
3. Tecniche di visualizzazione dei dati
4. Richiami di probabilità
5. La distribuzione Normale multivariata
6. Modelli di apprendimento supervisionati (Regressione, Classificazione)
7 Modelli di apprendimento non supervisionati (Clustering, ACP)
8. Introduzione al Text Mining
9. Preparazione dei testi (Standardizzazione o preprocessing, tokenizzazione, Stopwords, Stemming, modello “Bag of words”)
10. Visualizzazione dati testuali
11. Analisi statistica dei dati testuali
12. Classificazione automatica di testi
13. Topic models
14. Web scraping

Avvisi

Nessun avviso in evidenza

Documenti

Nessun documento in evidenza

Scopri cosa vuol dire essere dell'Ud'A

SEDE DI CHIETI
Via dei Vestini,31
Centralino 0871.3551

SEDE DI PESCARA
Viale Pindaro,42
Centralino 085.45371

email: info@unich.it
PEC: ateneo@pec.unich.it
Partita IVA 01335970693

icona Facebook   icona Twitter

icona Youtube   icona Instagram