logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-05012025-171758


Tipo di tesi
Tesi di laurea magistrale
Autore
DI DOMENICO, VALERIA
URN
etd-05012025-171758
Titolo
Raccolta di sistemi per l’analisi delle pubblicazioni accademiche
Dipartimento
INFORMATICA
Corso di studi
INFORMATICA PER L'ECONOMIA E PER L'AZIENDA (BUSINESS INFORMATICS)
Relatori
relatore Milli, Letizia
relatore Guidotti, Riccardo
Parole chiave
  • analisi bibliometrica
  • bibliometrix
  • bibliotools
  • citespace
  • co-autorship
  • collaborazioni scientifiche
  • google scholar
  • json
  • produzione scientifica
  • python
  • rete di coautori
  • reti di citazioni
  • strumenti bibliometrici
  • valutazione della ricerca scientifica
  • visualizzazione dati
  • vosviewer
  • web scraping
Data inizio appello
30/05/2025
Consultabilità
Completa
Riassunto
L’analisi delle pubblicazioni accademiche e delle reti di citazioni rappresenta un elemento fondamentale per la valutazione e la comprensione della ricerca scientifica. Questa tipologia di analisi consente infatti di monitorare l’evoluzione delle discipline, di identificare tendenze emergenti nel panorama scientifico, di misurare l’impatto delle pubblicazioni, e di individuare le collaborazioni tra autori e istituzioni. In questo contesto, la bibliometria e l’analisi delle reti di citazioni forniscono strumenti quantitativi indispensabili per lo studio delle dinamiche della produzione scientifica, sia a livello individuale che collettivo.
La tesi presenta una rassegna dei principali strumenti utilizzati per lo studio bibliometrico e delle reti di citazione. Tra questi vengono esaminati software molto diffusi come CitNetExplorer, CRExplorer, HistCite, VOSviewer, CiteSpace, Network Workbench, Harzing’s Publish or Perish, InCites (Clarivate), Bibliometrix R package, BiblioTools, OpenAlex, Lens.org, IN-SPIRE, ScientoPy, SciMAT, Baji Macro e BibExcel. Per ciascuno di questi strumenti sono stati analizzati in dettaglio le funzionalità principali, le modalità di utilizzo, le potenzialità analitiche, i punti di forza e le limitazioni. Lo scopo è fornire un quadro chiaro e comparativo che possa orientare il ricercatore nella scelta dello strumento più adatto in base agli obiettivi dell’analisi.
Accanto alla rassegna degli strumenti esistenti, la tesi propone anche un contributo originale sotto forma di uno strumento sviluppato ad hoc in Python, finalizzato all’analisi delle collaborazioni scientifiche tra autori, con particolare riferimento al contesto del Dipartimento di Informatica dell’Università di Pisa. Questo tool è stato progettato per sfruttare i dati disponibili pubblicamente su Google Scholar, tramite tecniche di web scraping automatizzato. Il processo ha inizio con l’identificazione dei ricercatori del dipartimento, dai quali viene costruita una rete di coautori che si estende fino a un massimo di tre gradi di separazione, includendo quindi non solo i collaboratori diretti, ma anche quelli indiretti.
Il cuore dell’analisi consiste nell’estrazione e nell’elaborazione dei paper presenti su Google Scholar per ciascun autore identificato. Per ogni coppia di autori, il sistema registra il numero di pubblicazioni scritte insieme, organizzando l’informazione per anno. In questo modo, è possibile ricostruire non solo le relazioni accademiche, ma anche osservare la loro evoluzione temporale. Il risultato viene salvato in formato JSON, rendendo il dataset facilmente esportabile, visualizzabile o integrabile con altri strumenti bibliometrici.
Questo sistema automatizzato consente di effettuare analisi più dettagliate e su larga scala delle reti di collaborazione scientifica, offrendo nuove opportunità di studio anche in ottica comparativa tra dipartimenti, settori disciplinari o periodi temporali. La struttura modulare e flessibile del tool permette inoltre di adattarlo a nuovi contesti, includere ulteriori parametri di ricerca, o integrarlo con dati provenienti da altre piattaforme come Scopus, Web of Science o Dimensions.
In sintesi, la tesi coniuga una parte teorico-descrittiva, dedicata alla revisione degli strumenti bibliometrici, con una parte applicativa che dimostra come sia possibile sviluppare strumenti personalizzati in grado di estrarre conoscenza utile dai dati accademici, facilitando così una comprensione più profonda e aggiornata delle dinamiche scientifiche contemporanee.

The analysis of academic publications and citation networks is a fundamental element for evaluating and understanding scientific research. This type of analysis makes it possible to monitor the evolution of disciplines, identify emerging trends in the scientific landscape, measure the impact of publications, and detect collaborations between authors and institutions. In this context, bibliometrics and citation network analysis provide essential quantitative tools for studying the dynamics of scientific production, both at the individual and collective level.
The thesis presents a review of the main tools used for bibliometric and citation network analysis. Among these, widely used software tools are examined, including CitNetExplorer, CRExplorer, HistCite, VOSviewer, CiteSpace, Network Workbench, Harzing’s Publish or Perish, InCites (Clarivate), Bibliometrix R package, BiblioTools, OpenAlex, Lens.org, IN-SPIRE, ScientoPy, SciMAT, Baji Macro, and BibExcel. For each of these tools, the main features, usage modes, analytical capabilities, strengths, and limitations have been analyzed in detail. The goal is to provide a clear and comparative overview to guide researchers in selecting the most suitable tool according to their analysis objectives.
In addition to the review of existing tools, the thesis also offers an original contribution in the form of a custom-developed Python tool, aimed at analyzing scientific collaborations between authors, with a particular focus on the context of the Department of Computer Science at the University of Pisa. This tool was designed to exploit publicly available data on Google Scholar, using automated web scraping techniques. The process begins by identifying researchers within the department, from whom a co-author network is built, extending up to a maximum of three degrees of separation, thus including not only direct collaborators but also indirect ones.
The core of the analysis consists in extracting and processing the papers available on Google Scholar for each identified author. For every pair of authors, the system records the number of publications they have written together, organizing this information by year. In this way, it is possible to reconstruct not only academic relationships but also to observe their evolution over time. The result is saved in JSON format, making the dataset easily exportable, viewable, or integrable with other bibliometric tools.
This automated system enables more detailed and large-scale analysis of scientific collaboration networks, offering new opportunities for research, even from a comparative perspective between departments, disciplinary areas, or time periods. The modular and flexible structure of the tool also makes it adaptable to new contexts, allows the inclusion of additional search parameters, or integration with data from other platforms such as Scopus, Web of Science, or Dimensions.
In summary, the thesis combines a theoretical-descriptive section, dedicated to reviewing bibliometric tools, with a practical section demonstrating how it is possible to develop custom tools capable of extracting useful knowledge from academic data, thus facilitating a deeper and more up-to-date understanding of contemporary scientific dynamics.
File