logo SBA

ETD

Archivio digitale delle tesi discusse presso l’Università di Pisa

Tesi etd-03172026-160941


Tipo di tesi
Tesi di laurea magistrale
Autore
FREGGIA, EUGENIA
URN
etd-03172026-160941
Titolo
Automatic Text Analysis for Machine Maintenance in Float­Zone Crystal Growth Production
Dipartimento
INGEGNERIA DELL'ENERGIA, DEI SISTEMI, DEL TERRITORIO E DELLE COSTRUZIONI
Corso di studi
INGEGNERIA GESTIONALE
Relatori
relatore Prof. Fantoni, Gualtiero
relatore Prof. Calaon, Matteo
supervisore Ing. Barbieri, Marta
Parole chiave
  • entities relation discovery
  • maintenance records
  • Natural Language Processing
  • text information
  • Text Mining
Data inizio appello
14/04/2026
Consultabilità
Non consultabile
Data di rilascio
14/04/2066
Riassunto (Inglese)
The continuous evolution of electronics and optoelectronics has led to an increasing demand for extremely high-quality silicon wafers. In this context, the Float-Zone crystal growth technique plays a key role, as it enables the production of silicon with extremely low impurity levels and high electrical resistivity. These characteristics make this process particularly suitable for the manufacturing of high-power electronic devices and high-efficiency solar cells. However, the Float-Zone process is characterized by high production costs, mainly due to the need for extremely pure and therefore expensive raw materials. Moreover, it is a highly complex process in which yield losses may occur due to operational instabilities, equipment failures, and process anomalies. In industrial practice, companies adopting the Float-Zone method typically achieve a production yield of around 50%, meaning that approximately one out of every two silicon ingots must be discarded because it does not meet the required quality standards. For this reason, any issue or anomaly occurring during the production process is considered highly critical. Technicians and operators document these events in so-called maintenance logs, records in which the problems encountered during the various production stages and the corrective actions taken to resolve them are reported in free-text form. Over time, this practice has generated a large amount of potentially valuable operational knowledge. However, accessing and systematically analyzing this information is challenging. Maintenance logs are typically written quickly by operators and therefore exhibit an informal writing style, characterized by abbreviations, technical terminology, typographical errors, and sometimes the use of multiple languages. As a result, although these data may contain valuable information for improving production yield and reducing operational costs, analyzing them using traditional methods is practically impossible. In this context, Natural Language Processing (NLP) techniques become highly relevant. NLP is a field of artificial intelligence that enables computers to understand and analyze human language by transforming unstructured text into structured representations that can be automatically processed. However, many NLP models are trained on well-structured and linguistically clean corpora, typically originating from domains such as medicine or law. Consequently, these models struggle to interpret industrial maintenance descriptions, which are characterized by informal, concise, and often noisy language. For this reason, standard NLP pipelines cannot be directly applied to maintenance logs without proper adaptation to the specific characteristics of industrial maintenance data. This study addresses this challenge through a case study conducted in a Danish industrial context involving the Float-Zone growth of silicon crystals. The analysis is based on more than 18,000 maintenance records, which exhibit significant variability in both structure and terminology. Building on existing applications of NLP in industrial maintenance, this work focuses on adapting these techniques to a highly specialized production process with strict quality requirements. To this end, a text-analysis pipeline specifically tailored to the company’s data was designed. The proposed pipeline consists of several stages. First, a text cleaning and standardization phase was carried out to reduce linguistic noise and prepare the data for subsequent analyses. The texts were then translated into English in order to enable the use of more advanced and widely trained language models. Next, the sentences contained in the logs were classified into two main categories: problems and corrective actions. A clustering technique was then applied within each category to identify recurring patterns and group similar descriptions of problems and maintenance interventions. Finally, a knowledge extraction phase was conducted, structured into three main analyses. The first involved the construction of a problem-action contingency table, used to analyze the relationships between observed problems and the corrective actions adopted, providing insights into how maintenance interventions are distributed within the company. The second analysis focused on building a machine-problem plot, which makes it possible to examine how different types of faults or anomalies are distributed across the machines involved in the production process. Lastly, a domain ontology was developed to model the main entities and relationships present in the sentences describing maintenance problems and actions. The results demonstrate the potential of the proposed approach to support a systematic and data-driven analysis of maintenance activities, paving the way for future developments in predictive maintenance and production process optimization.
Riassunto (Italiano)
La continua evoluzione dell’elettronica e dell’optoelettronica ha determinato una crescente domanda di wafer di silicio di altissima qualità. In questo contesto, la tecnica di crescita dei cristalli Float-Zone riveste un ruolo fondamentale, poiché consente la produzione di silicio con livelli di impurità estremamente ridotti e un’elevata resistività elettrica. Queste caratteristiche rendono tale processo particolarmente adatto alla realizzazione di dispositivi elettronici ad alta potenza e di celle solari ad alta efficienza. Tuttavia, il processo Float-Zone è caratterizzato da costi di produzione elevati, dovuti principalmente alla necessità di utilizzare materie prime estremamente pure e, di conseguenza, costose. Inoltre, si tratta di un processo altamente complesso, nel quale possono verificarsi perdite di rendimento causate da instabilità operative, guasti alle apparecchiature e anomalie di processo. Nella pratica industriale, le aziende che adottano il metodo Float-Zone raggiungono tipicamente un rendimento produttivo di circa il 50%, il che implica che circa un lingotto di silicio su due venga scartato per il mancato rispetto degli standard qualitativi richiesti. Per questo motivo, qualsiasi problema o criticità che si verifica durante il processo produttivo assume un’importanza rilevante. Tecnici e operatori documentano tali eventi all’interno dei cosiddetti maintenance logs, registri nei quali vengono annotati, sotto forma di testo libero, i problemi riscontrati nelle diverse fasi di produzione e le azioni correttive intraprese per risolverli. Nel tempo, questa pratica ha generato una grande quantità di conoscenza operativa potenzialmente preziosa. Tuttavia, l’accesso e l’analisi sistematica di tali informazioni risultano complessi. I log di manutenzione sono infatti compilati rapidamente dagli operatori e presentano uno stile di scrittura informale, caratterizzato da abbreviazioni, terminologia tecnica, errori di battitura e, in alcuni casi, dall’uso combinato di più lingue. Di conseguenza, sebbene questi dati possano contenere informazioni utili per migliorare il rendimento produttivo e ridurre i costi operativi, la loro analisi tramite metodi tradizionali risulta particolarmente difficile. In questo contesto, le tecniche di Natural Language Processing (NLP) assumono un ruolo rilevante. L’NLP è un ambito dell’intelligenza artificiale che consente ai computer di comprendere e analizzare il linguaggio umano, trasformando testi non strutturati in rappresentazioni strutturate che possono essere elaborate automaticamente. Tuttavia, molti modelli di NLP sono addestrati su corpora ben strutturati e linguisticamente corretti, tipicamente provenienti da domini come quello medico o legale. Di conseguenza, tali modelli incontrano difficoltà nell’interpretare descrizioni di manutenzione industriale, che sono invece caratterizzate da un linguaggio informale, sintetico e spesso rumoroso. Per questo motivo, le pipeline standard di NLP non possono essere applicate direttamente ai log di manutenzione senza un adeguato adattamento alle specifiche caratteristiche dei dati industriali. Il presente studio affronta questa sfida attraverso un caso di studio condotto in un contesto industriale danese coinvolto nella crescita di cristalli di silicio mediante processo Float-Zone. L’analisi si basa su oltre 18.000 registri di manutenzione, caratterizzati da una significativa variabilità nella struttura e nella terminologia utilizzata. Sulla base delle applicazioni esistenti dell’NLP nel campo della manutenzione industriale, questo lavoro si concentra sull’adattamento di tali tecniche a un processo produttivo altamente specializzato e critico in termini di qualità. A tal fine, è stata progettata una pipeline di analisi del testo specificamente adattata ai dati dell’azienda. La pipeline sviluppata comprende diverse fasi. In primo luogo, è stata effettuata una fase di pulizia e standardizzazione del testo, finalizzata a ridurre il rumore linguistico e rendere i dati adatti alle successive analisi. I testi sono stati poi tradotti in lingua inglese, al fine di consentire l’utilizzo di modelli linguistici più avanzati e ampiamente addestrati. In seguito, le frasi contenute nei log sono state classificate in due categorie principali: problemi e azioni correttive. All’interno di ciascuna categoria è stata quindi applicata una tecnica di clustering, con l’obiettivo di identificare pattern ricorrenti e raggruppare descrizioni simili di problemi e interventi di manutenzione. Infine, è stata condotta una fase di estrazione della conoscenza, articolata in tre analisi principali. La prima ha previsto la costruzione di una tabella di contingenza problema-azione, utilizzata per analizzare le relazioni tra i problemi riscontrati e le azioni correttive adottate, fornendo indicazioni sulla distribuzione degli interventi manutentivi all’interno dell’azienda. La seconda analisi ha riguardato la costruzione di una matrice macchina-problema, che consente di studiare la distribuzione delle diverse tipologie di guasti o anomalie sulle varie macchine presenti nel processo produttivo. Infine, è stata sviluppata un’ontologia del dominio, finalizzata a modellare le principali entità e relazioni presenti nelle frasi che descrivono problemi e azioni di manutenzione. I risultati ottenuti dimostrano il potenziale dell’approccio proposto nel supportare un’analisi sistematica e basata sui dati delle attività di manutenzione, aprendo la strada a futuri sviluppi nell’ambito della manutenzione predittiva e dell’ottimizzazione dei processi produttivi.
File