Sprachassistenten, die im Dialog das Ausfüllen von Formularen oder das Erfassen strukturierter Informationen aus semi-strukturierten Spracheingaben erlauben, sind zunehmend verbreitet. Diese laufen jedoch fast ausschließlich auf leistungsstarken Servern. Die Hochschule Hof und der Projektpartner entwickeln Ansätze, diese Technologien auch auf mobilen Endgeräten nutzbar zu machen.
Ziel der Zusammenarbeit
Das Vorhaben zielt darauf ab, die digitale Souveränität des Projektpartners zu stärken, Abhängigkeiten von externen Anbietern zu reduzieren und gleichzeitig Kosten zu sparen. Dabei wird analysiert, ob open-source Sprachassistenten auf leistungsstarken, aber kostengünstigen Endgeräten eingesetzt werden können, um die Datenverarbeitung und gleiche User Experience (UX) auch unter außergewöhnlichen Bedingungen wie in Funklöchern oder unter Tage zu ermöglichen.
Arbeiten der Hochschule
Die Hochschule Hof untersucht verschiedene Szenarien, um die Effizienz von Sprachassistenten auf unterschiedlichen Hardware-Plattformen zu vergleichen und nutzbar zu machen. Dazu gehören die folgenden Schlüsselpunkte, die hinsichtlich ihrer Genauigkeit sowie ihrer Geschwindigkeit untersucht und bewertet werden:
- Nutzung von variierender Hardware, angefangen bei Servern mit Data Center GPU, über Workstations mit Consumer GPU, bis hin zu KI Speziallösungen wie Nvidia DGX Spark und Nvidia Orin Nano. Weiterhin werden leistungsstarke Notebooks, MiniPCs mit AMD und Intel Prozessoren, und mit höchster Priorität Smartphones in die Lösungsentwicklung einbezogen.
- Untersuchung unterschiedlicher Spracherkennungs- und Sprachsynthese-Modelle mit und ohne Streaming-Fähigkeiten.
- Evaluation größerer und kleinerer Large Language Models (LLMs) in quantisierter (komprimierter) Form.
- Vergleich der LLMs und Spracherkenner mit integrierten Audio Language Models, die Spracherkenner und LLM sowie in manchen Fällen sogar zusätzlich Sprachsynthese in einem einzigen Modell vereinen. Dies würde die gleichzeitige Nutzung mehrerer Modelle für Spracherkennung, Interpretation und Sprachausgabe erübrigen.
- Einsatz unterschiedlicher Laufzeitumgebungen mit Optimierungen für bestimmte Hardware, um die Geschwindigkeit des Assistenten zu steigern.
Arbeiten des Projektpartners
Der Projektpartner steuert Anwendungsfälle und Daten bei, die zur Evaluation der Lösung genutzt werden können. Er bewertet die Qualität der Ergebnisse aus der praktischen Anwendung, um die Praxistauglichkeit der entwickelten Ansätze sicherzustellen.