logo SBA

ETD

Digital archive of theses discussed at the University of Pisa

 

Thesis etd-10212015-170522


Thesis type
Tesi di laurea magistrale
Author
SCARALE, MARIAGIOVANNA
URN
etd-10212015-170522
Thesis title
Il web 2.0 e la blogosfera italiana. Metodi statistici applicati ai corpora dell’italiano dei blog giornalistici e letterari
Department
FILOLOGIA, LETTERATURA E LINGUISTICA
Course of study
INFORMATICA UMANISTICA
Supervisors
relatore Prof. Tavosanis, Mirko
Keywords
  • blog
  • corpora
  • corpus
  • italiano
  • linguistica
  • statistica
  • web
Graduation session start date
09/11/2015
Availability
None
Release date
09/11/2085
Summary
Il lavoro di tesi magistrale presentato nelle successive pagine è nato dalla volontà di fornire dati precisi sul fenomeno dei blog (considerando due generi in particolare: i blog letterari e quelli giornalistici), realtà caleidoscopiche dal punto di vista sia linguistico sia sociale.
Lo scopo di questa ricerca è stato quello di evidenziare le differenze linguistiche, morfologiche, lessicali e sintattiche che intercorrono tra due prodotti molto variegati, i blog letterari e i blog giornalistici, analizzando, nel contempo, la lingua usata al loro interno.
Prima di giungere, però, allo studio e all’analisi vera e propria dei vari corpora, è stato essenziale un lavoro preliminare di categorizzazione.
Il lavoro di ricerca e analisi posto alla base di questo scritto si è articolato in due fasi distinte:
- nella prima fase sono stati analizzati i blog nel loro complesso, in quanto siti, per capirne le caratteristiche strutturali e per mettere in atto una suddivisione in macrogeneri testuali;
- nella seconda fase sono stati analizzati i post di ogni blog da un punto di vista linguistico e statistico;
Per lo studio sono stati esaminati 500 blog. Sono, poi, stati raccolti 2000 post tratti da 200 blog provenienti dall’insieme appena citato (i 10 post più recenti di ogni blog ritenuto giornalistico o letterario, le due categorie che si è deciso di analizzare anche dal punto di vista statistico) e selezionati in modo casuale. Di questo corpus si è analizzato il linguaggio, il tipo di scrittura, l’utilizzo o meno di abbreviazioni, emoticon ed espressività grafica e la presenza o meno di errori (di forma, di battitura, di sintassi). Successivamente, avvalendosi del Text Tool Read-It, strumento del Cnr di Pisa , si sono estratti dal corpus i dati numerici utili per la fase successiva di analisi statistica della lingua.
Nella fase preliminare si è deciso di prendere in considerazione quattro macro generi testuali. Nella fase successiva, invece, quella che ha visto lo studio statistico vero e proprio, in cui si sono presi in considerazione i singoli post, ci si è soffermati sullo studio e sull’analisi dei post appartenenti ai sottogeneri del “blog giornalistico” (appartenente al macrogenere “blog tematico”) e del “blog letterario/poetico” (appartenente al macrogenere “blog letterario”). I macrogeneri di riferimento sono stati:
- Diaristico;
- Tematico (che include i blog giornalistici e quelli specialistici);
- Letterario;
- Inclassificabile (che include i blog-citazione, i blog fotografici ecc.).
File