logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-10212015-170522


Tipo di tesi
Tesi di laurea magistrale
Autore
SCARALE, MARIAGIOVANNA
URN
etd-10212015-170522
Titolo
Il web 2.0 e la blogosfera italiana. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
Dipartimento
FILOLOGIA, LETTERATURA E LINGUISTICA
Corso di studi
INFORMATICA UMANISTICA
Relatori
relatore Prof. Tavosanis, Mirko
Parole chiave
  • blog
  • corpora
  • corpus
  • italiano
  • linguistica
  • statistica
  • web
Data inizio appello
09/11/2015
Consultabilità
Tesi non consultabile
Data di rilascio
09/11/2085
Riassunto
Il lavoro di tesi magistrale presentato nelle successive pagine è nato dalla volontà di fornire dati precisi sul fenomeno dei blog (considerando due generi in particolare: i blog letterari e quelli giornalistici), realtà caleidoscopiche dal punto di vista sia linguistico sia sociale.
Lo scopo di questa ricerca è stato quello di evidenziare le differenze linguistiche, morfologiche, lessicali e sintattiche che intercorrono tra due prodotti molto variegati, i blog letterari e i blog giornalistici, analizzando, nel contempo, la lingua usata al loro interno.
Prima di giungere, però, allo studio e all’analisi vera e propria dei vari corpora, è stato essenziale un lavoro preliminare di categorizzazione.
Il lavoro di ricerca e analisi posto alla base di questo scritto si è articolato in due fasi distinte:
- nella prima fase sono stati analizzati i blog nel loro complesso, in quanto siti, per capirne le caratteristiche strutturali e per mettere in atto una suddivisione in macrogeneri testuali;
- nella seconda fase sono stati analizzati i post di ogni blog da un punto di vista linguistico e statistico;
Per lo studio sono stati esaminati 500 blog. Sono, poi, stati raccolti 2000 post tratti da 200 blog provenienti dall’insieme appena citato (i 10 post più recenti di ogni blog ritenuto giornalistico o letterario, le due categorie che si è deciso di analizzare anche dal punto di vista statistico) e selezionati in modo casuale. Di questo corpus si è analizzato il linguaggio, il tipo di scrittura, l’utilizzo o meno di abbreviazioni, emoticon ed espressività grafica e la presenza o meno di errori (di forma, di battitura, di sintassi). Successivamente, avvalendosi del Text Tool Read-It, strumento del Cnr di Pisa , si sono estratti dal corpus i dati numerici utili per la fase successiva di analisi statistica della lingua.
Nella fase preliminare si è deciso di prendere in considerazione quattro macro generi testuali. Nella fase successiva, invece, quella che ha visto lo studio statistico vero e proprio, in cui si sono presi in considerazione i singoli post, ci si è soffermati sullo studio e sull’analisi dei post appartenenti ai sottogeneri del “blog giornalistico” (appartenente al macrogenere “blog tematico”) e del “blog letterario/poetico” (appartenente al macrogenere “blog letterario”). I macrogeneri di riferimento sono stati:
- Diaristico;
- Tematico (che include i blog giornalistici e quelli specialistici);
- Letterario;
- Inclassificabile (che include i blog-citazione, i blog fotografici ecc.).
File