logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-10132019-170044


Tipo di tesi
Tesi di laurea magistrale
Autore
EMILIANI, VITTORIA EMMA MARIA
URN
etd-10132019-170044
Titolo
Utilizzo di tecniche di web mining per una valutazione dell'innovatività delle aziende
Dipartimento
INFORMATICA
Corso di studi
DATA SCIENCE AND BUSINESS INFORMATICS
Relatori
relatore Ghelli, Giorgio
Parole chiave
  • scraping
  • positive unlabeled learning
  • NLP
  • logistic regression
  • innovation
  • web mining
Data inizio appello
06/12/2019
Consultabilità
Non consultabile
Data di rilascio
06/12/2089
Riassunto
L'innovazione è un tema che negli ultimi anni viene sempre più trattato da aziende private e da entità governative, poichè può essere considerato il motore principale della crescita economica. Come è difficile innovare è altrettanto complesso individuare l'innovazione nelle aziende e definire quali tra le tante possono essere le vere aziende "innovative". Per farlo è necessario essere a conoscenza di diverse informazioni che spesso non sono accessibili liberamente da terzi.
L'obiettivo di questa tesi è di verificare se esiste la possibilità di classificare con una qualche affidabilità un'azienda come innovativa o meno sulla base di un'analisi del solo sito aziendale, utilizzando come variabile target i testi delle pagine web delle aziende dichiarate innovative dalla camera di commercio italiana. Non avendo a disposizione un database che contenesse le aziende reputate non innovative, è stato allenato un modello di regressione logistica sui dati positivi - nonchè i testi delle aziende innovative - e su dati non etichettati, rappresentati dai testi dei siti web del resto delle aziende italiane non registrate nel registro delle imprese innovative. Si introduce perciò l'ambito del Positive Unlabeled Learning.
I risultati mostrano che questo approccio produce previsioni credibili e ha il potenziale per essere un'aggiunta altamente efficiente in termini di costi all'insieme esistente di indicatori di innovazione. Le probabilità previste a livello di impresa possono essere interpretate come una misura continua di innovazione, offrendo ulteriori vantaggi rispetto agli indicatori di innovazione binaria tradizionali.
File