Cookie Consent by FreePrivacyPolicy.com

SpeechEdge

Sprachassistenten, die strukturierte Informationen aus Spracheingaben erfassen, werden zunehmend eingesetzt – das Vorhaben zielt darauf ab, deren Nutzung auch auf mobilen Endgeräten zu ermöglichen, anstatt wie bisher ausschließlich auf leistungsstarken Servern.

Projekt Begin:
1. Juli 2025
Projekt Ende:
31. März 2026

Sprachassistenten, die im Dialog das Ausfüllen von Formularen oder das Erfassen strukturierter Informationen aus semi-strukturierten Spracheingaben erlauben, sind zunehmend verbreitet. Diese laufen jedoch fast ausschließlich auf leistungsstarken Servern. Die Hochschule Hof und der Projektpartner entwickeln Ansätze, diese Technologien auch auf mobilen Endgeräten nutzbar zu machen.

Ziel der Zusammenarbeit

Das Vorhaben zielt darauf ab, die digitale Souveränität des Projektpartners zu stärken, Abhängigkeiten von externen Anbietern zu reduzieren und gleichzeitig Kosten zu sparen. Dabei wird analysiert, ob open-source Sprachassistenten auf leistungsstarken, aber kostengünstigen Endgeräten eingesetzt werden können, um die Datenverarbeitung und gleiche User Experience (UX) auch unter außergewöhnlichen Bedingungen wie in Funklöchern oder unter Tage zu ermöglichen.

Arbeiten der Hochschule

Die Hochschule Hof untersucht verschiedene Szenarien, um die Effizienz von Sprachassistenten auf unterschiedlichen Hardware-Plattformen zu vergleichen und nutzbar zu machen. Dazu gehören die folgenden Schlüsselpunkte, die hinsichtlich ihrer Genauigkeit sowie ihrer Geschwindigkeit untersucht und bewertet werden:

  1. Nutzung von variierender Hardware, angefangen bei Servern mit Data Center GPU, über Workstations mit Consumer GPU, bis hin zu KI Speziallösungen wie Nvidia DGX Spark und Nvidia Orin Nano. Weiterhin werden leistungsstarke Notebooks, MiniPCs mit AMD und Intel Prozessoren, und mit höchster Priorität Smartphones in die Lösungsentwicklung einbezogen.
  2. Untersuchung unterschiedlicher Spracherkennungs- und Sprachsynthese-Modelle mit und ohne Streaming-Fähigkeiten.
  3. Evaluation größerer und kleinerer Large Language Models (LLMs) in quantisierter (komprimierter) Form.
  4. Vergleich der LLMs und Spracherkenner mit integrierten Audio Language Models, die Spracherkenner und LLM sowie in manchen Fällen sogar zusätzlich Sprachsynthese in einem einzigen Modell vereinen. Dies würde die gleichzeitige Nutzung mehrerer Modelle für Spracherkennung, Interpretation und Sprachausgabe erübrigen.
  5. Einsatz unterschiedlicher Laufzeitumgebungen mit Optimierungen für bestimmte Hardware, um die Geschwindigkeit des Assistenten zu steigern.

Arbeiten des Projektpartners

Der Projektpartner steuert Anwendungsfälle und Daten bei, die zur Evaluation der Lösung genutzt werden können. Er bewertet die Qualität der Ergebnisse aus der praktischen Anwendung, um die Praxistauglichkeit der entwickelten Ansätze sicherzustellen.

Förderer

Neuste Projekte
i