Heise 04.06.2026
13:39 Uhr

Lokale Spracherkennung für Windows – ohne Cloud


Lokale KI-Funktionen nicht mehr nur auf Copilot+-PCs: Microsoft bringt die Windows AI APIs auf CPUs und GPUs – plus eine neue Spracherkennung.

Lokale Spracherkennung für Windows – ohne Cloud

Auf seiner Entwicklerkonferenz Build 2026 hat Microsoft mehrere Neuerungen für die Windows AI APIs vorgestellt. Im Mittelpunkt stehen eine neue API für lokale Spracherkennung und eine breitere Hardware-Unterstützung. Damit sollen die KI-Funktionen künftig auf deutlich mehr Windows-11-Systemen laufen. Man wolle Entwicklern so den Einsatz lokaler KI erleichtern und die Abhängigkeit von der Cloud verringern, sagt Microsoft.

Die Windows AI APIs liefern Entwicklern vorgefertigte KI-Funktionen, die lokal auf dem Gerät laufen. Ein passendes Modell müssen die Entwickler dafür weder selbst finden noch ausführen oder optimieren.

Zu den bisherigen Funktionen zählen unter anderem Texterkennung (OCR), Bildbeschreibung, das Hochskalieren von Bildern per Super Resolution, Objekterkennung und das Entfernen von Bildinhalten. Technische Grundlage sind Windows ML und die von Microsoft bereitgestellten Modelle.

Neu hinzu kommt eine Speech Recognition API, die Sprache lokal in Text umwandelt. Sie beherrscht sowohl Echtzeit- als auch Batch-Transkriptionen und verarbeitet Eingaben per Mikrofon, als Audio-Stream oder aus Audiodateien. Die Verarbeitung läuft direkt auf dem Gerät und kommt ohne Internetverbindung aus.

Laut Microsoft eignet sich die API unter anderem für Diktierfunktionen, automatische Untertitel, Transkriptionswerkzeuge und Anwendungen zur Barrierefreiheit. Die öffentliche Vorschau unterstützt zunächst allerdings nur die englische Sprache. Eine schrittweise Ausweitung auf weitere Sprachen und weitere Länder ist bereits angekündigt.

Neben der neuen Schnittstelle erweitert Microsoft die Hardware-Unterstützung der Windows AI APIs. Bislang liefen viele Funktionen vor allem auf Copilot+-PCs mit einer Neural Processing Unit (NPU). Künftig laufen die APIs verstärkt auch auf herkömmlichen Prozessoren und Grafikkarten.

So unterstützt die neue Speech Recognition API sowohl NPUs als auch CPUs. Das bisher für Textfunktionen genutzte Windows-Sprachmodell läuft zusätzlich auf geeigneten dedizierten GPUs, und die Video Super Resolution kommt künftig auch auf CPUs zum Einsatz.

Für Entwickler vergrößert sich damit vor allem die potenzielle Nutzerbasis. Anwendungen mit lokalen KI-Funktionen lassen sich auf deutlich mehr Windows-11-Geräten einsetzen, ohne dass spezielle KI-Hardware nötig ist. Besonders auf Desktop-PCs und Workstations mit leistungsfähigen Grafikkarten dürfte das die Verbreitung lokaler KI-Anwendungen erleichtern.

Microsoft weist zudem darauf hin, dass die Modelle hinter den Windows AI APIs nicht automatisch auf jedes Gerät wandern. Stattdessen lädt Windows sie erst herunter, wenn eine Anwendung sie tatsächlich anfordert. Das hält den Bedarf an Speicherplatz und Bandbreite gering.

(fo)