The Application of Artificial Intelligence in Veterinary Neurology : Opportunities, Risks, and Future Perspectives
Künstliche Intelligenz (KI) ist eine transformative Technologie, die Computeralgorithmen zur Analyse und Interpretation komplexer Datensätze nutzt. KI-Technologien verändern zunehmend das moderne Gesundheitswesen und sind der Kern vieler aktuell in der Entwicklung befindlicher Anwendungen für die Diagnostik, die Unterstützung klinischer Entscheidungen und die wissenschaftliche Kommunikation. Diese Arbeit untersucht die Anwendbarkeit von zwei KI-Algorithmen in der Veterinärneurologie: Ein Convolutional Neural Network (CNN) zur Klassifizierung von MRT-Scans des Hundegehirns sowie ein Large Language Model (LLM) zur klinischen Entscheidungsfindung und zur Unterstützung beim wissenschaftlichen Schreiben in der Veterinärneurologie. Die diagnostische Bildgebung ist eine der vielversprechendsten klinischen Anwendungen von KI-Algorithmen. Ziel erster Arbeit war es, ein CNN-Modell zu entwickeln, das MRT-Aufnahmen des Gehirns von Hunden als normal oder abnormal klassifizieren kann und dadurch eine automatisierte Läsionserkennung und effizientere Befundung ermöglicht. Das CNN-Modell wurde anhand von MRT-Datensätzen von 550 Patienten mit T1-gewichteten Sequenzen vor und nach Kontrastmittelgabe aus vier Universitäten trainiert, validiert und getestet. Unser speziell für diese Anwendung programmiertes CNN-Modell SepNetDense erreichte bezogen auf die Schnittebenen und verglichen mit den manuellen Annotationen menschlicher Experten als Goldstandard eine Genauigkeit von 74%. Eine receiver operating characteristic (ROC)-Analyse des CNN-Modells bezogen auf die Patienten ergab, dass bei einem Schwellenwert von 51% abnormalen Schnittebenen pro Patienten ein optimales Gleichgewicht von 83% Sensitivität und 78% Spezifität bei einer Genauigkeit von 80% erreicht wurde. Eine ANCOVA-Analyse ergab, dass die Institute mit ihren unterschiedlichen Geräten und Protokollen sowie die diagnostischen Kategorien der Läsionen die Faktoren mit dem stärksten und interagierendem Einfluss auf die Modellgenauigkeit waren. Die zweite Arbeit untersuchte das Potenzial und die Grenzen des LLM ChatGPT bei der klinischen Entscheidungsfindung in der Veterinärneurologie. Zu diesem Zweck haben wir eine strukturierte, mehrphasige Bewertung der diagnostischen Leistungsfähigkeit von ChatGPT anhand von zwanzig Fällen bei Hunden durchgeführt, die vier episodische neurologische Störungen umfassten: idiopathische Epilepsie, strukturelle Epilepsie, paroxysmale Dyskinesie und Synkope. Unsere Ergebnisse deuten darauf hin, dass die diagnostische Leistungsfähigkeit von ChatGPT von verschiedenen Faktoren abhängt, insbesondere der Art und Weise wie klinische Informationen präsentiert werden, der jeweiligen Erkrankung und der Verfügbarkeit relevanter Daten im Internet. Erkrankungen, die Neurologen besser bekannt sind als der Allgemeinheit, wie z. B. paroxysmale Dyskinesie, stellten für ChatGPT eine besondere Herausforderung dar. Darüber hinaus führte die Umformulierung derselben Krankengeschichte oder Untersuchung oft zu subtil unterschiedlichen Ergebnissen, was die probabilistische und nicht deterministische Natur von LLM-basierten Modellen widerspiegelt. Diese Variabilität wirft Bedenken hinsichtlich ihrer Reproduzierbarkeit und Zuverlässigkeit im klinischen Kontext auf. Darüber hinaus haben wir in der dritten Arbeit das Potenzial von LLMs in Bezug auf das Erstellen wissenschaftlicher Publikationen im Bereich der Veterinärneurologie untersucht. Mit Hilfe von ChatGPT haben wir drei fiktive Abstracts, Einleitungen und Referenzlisten erstellt. Anschließend haben wir dreizehn Board-zertifizierte Veterinärneurologen gebeten, die KI-generierten Inhalte und vergleichbare, von Menschen geschriebene Originalpublikationen zu lesen und in einem zweistufigen Bewertungsprozess die KI-generierten Texte zu identifizieren. Die Ergebnisse zeigten, dass die Texte von ChatGPT oft nicht von menschlichen Texten zu unterscheiden waren, insbesondere wenn die Gutachter mit dem Thema weniger vertraut waren. Unsere Ergebnisse deuten darauf hin, dass LLMs die wissenschaftliche Produktivität steigern können, werfen aber auch ethische Bedenken auf. Zusammenfassend lässt sich sagen, dass die kontinuierliche Weiterentwicklung und Integration von KI-basierten Modellen die Analyse von MRT-Bildern sinnvoll unterstützen und zu Effizienzsteigerungen bei der klinischen Entscheidungsfindung und der Erstellung von wissenschaftlichen Publikationen führen kann. Hierbei sollten jedoch strenge Kontrollen implementiert werden, um ethische Bedenken ernst zu nehmen und die Patientensicherheit zu priorisieren.
Artificial intelligence (AI) is a transformative technology which uses computer algorithms to analyse and interpret complex data sets. AI technologies are increasingly transforming modern healthcare, and form the core of many applications currently being developed for diagnosis, clinical decision support and communication. This thesis explores the applicability of two AI algorithms in the field of veterinary neurology: a convolutional neural network (CNN) for classifying canine brain MRI scans and a large language model (LLM) to assist in diagnostic reasoning and scientific writing within veterinary neurology. Diagnostic imaging is one of the most promising clinical applications of AI algorithms. The aim of the first study was to develop a CNN model capable of classifying MRI images of dogs' brains as normal or abnormal. The model was trained, validated, and tested using MRI datasets from four universities, comprising 550 MRI scans, acquired with T1-weighted (T1W) pre- and post-contrast sequences. Our customised CNN model, SepNetDense, reached an overall slice-level accuracy of 74%, based on manual expert annotations as the gold standard. A receiver operating characteristic (ROC) analysis of the CNN model’s predictions at the patient level revealed that, at a threshold of 51% abnormal slices per patient, the model achieved an optimal balance of 83% sensitivity, 78% specificity, and 80% accuracy. ANCOVA analysis showed that the institutional diagnostic settings, including divergent MRI scanners, protocols, and procedures, as well as the diagnostic categories of the lesions, were the two major interacting factors influencing the CNN model’s accuracy. The second study aimed to evaluate the potential and limitations of the LLM ChatGPT for clinical decision-making in veterinary neurology. To achieve this, we conducted a structured, multi-phase evaluation of ChatGPT's diagnostic performance on twenty canine cases, comprising four episodic neurological disorders: idiopathic epilepsy, structural epilepsy, paroxysmal dyskinesia, and syncope. Our findings suggest that the diagnostic performance of ChatGPT depends on various factors, including the presentation of clinical information, the specific disease under consideration, and the availability of relevant data online. Disorders that are more familiar to neurologists than to the general public, such as paroxysmal dyskinesia, were particularly challenging for the model. Furthermore, rephrasing the same clinical history and clinical examination often resulted in subtly different outputs, reflecting the probabilistic and non-deterministic nature of LLM-based models. This variability raises concerns about their reproducibility and reliability in clinical settings. Furthermore, in the third study, we explored the potential of LLMs in scientific communication within the field of veterinary neurology. Using ChatGPT, we generated three fictitious abstracts, introductions, and reference lists. Subsequently, we asked thirteen board-certified veterinary neurologists to read these AI-generated and comparable human-written manuscripts and identify the AI-generated content through a two-stage evaluation. The results showed that the text generated by ChatGPT was often indistinguishable from human writing, particularly when the reviewers were less familiar with the subject matter. While our findings suggest that LLMs can enhance scientific productivity, they also introduce considerable ethical concerns. In conclusion, the ongoing development and integration of AI-based models into clinical workflows have the potential to provide valuable support for MRI image analysis and enhance efficiency in clinical decision-making and scientific publishing. However, appropriate oversight and ethical safeguards are essential to ensure their responsible use and prioritise patient safety.
Preview
Cite
Access Statistic


