Was große Suchmaschinen heute schon recht gut beherrschen, gestaltet sich im unternehmens- oder Community-internen Umfeld bislang schwierig: Mit Anfragen in natürlicher Sprache durch Kontextsensitivität schnell und gezielt zu relevanten Suchergebnissen zu gelangen. Gerade in fachspezifischen Kontexten tritt die Problematik verstärkt zutage, denn um möglichst treffsicher zu werden, benötigen die Suchhelfer bislang Unmengen an Daten. In einem überschaubaren Fachumfeld ist eine solche Datenmenge aber nicht vorhanden. Im Rahmen des vom Bayerischen Staatsministerium für Wirtschaft, Landesentwicklung und Energie geförderten Forschungsprojekts »SEMIARID« suchen DATEV-Spezialisten gemeinsam mit Partnern deshalb nach neuen Wegen, Suchmaschinen mit Hilfe von Künstlicher Intelligenz (KI) das Verstehen semantischer Zusammenhänge beizubringen.

»PI_SEMIARID«

Das Projekt »SEMIARID« wird gefördert vom Bayrischen Staatsministerium für Wirtschaft, Landesentwicklung und Energie.

Suchmaschinen, die heute bereits eine sehr effiziente Suche ermöglichen, basieren auf sogenannten Transformer-Netzwerken. Sie gehören zur Gruppe der Deep Learning Verfahren, einer Königsdisziplin im Bereich der KI. In allgemeinen Suchmaschinen, die von Millionen Anwendern genutzt werden, sind genug Daten vorhanden, um solche Transformer-Netzwerke zu erzeugen. Dagegen sind die typischen Datenbestände in unternehmensinternen Suchumgebungen deutlich kleiner und können außerdem aufgrund hoher Anforderungen an Datenschutz und Vertraulichkeit oft nicht für statistische Auswertungen verwendet werden. Da Transformer-Netzwerke unter solchen Bedingungen nicht trainiert werden können, dominieren in diesem Bereich nach wie vor auf Stichwörtern basierende Verfahren. Diese sind jedoch nicht in der Lage komplexe sprachliche Zusammenhänge zu erfassen und liefern daher hauptsächlich dann gute Ergebnisse, wenn eine konkrete, wörtliche Übereinstimmung der Suchbegriffe mit den Zielinformationen vorliegt.

Für gutes Kontextverständnis auch mit wenig Trainingsdaten
Abhilfe für dieses Problem will die von DATEV gemeinsam mit der Intrafind Software AG und der TH Deggendorf ins Leben gerufene Forschungsinitiative »SEMIARID« schaffen. Im Rahmen des auf drei Jahre angelegten, vom Bayerischen Staatsministerium für Wirtschaft, Landesentwicklung und Energie geförderten Projekts entwickeln die Partner eine Suchmaschinentechnologie, die hohen Standards an Datenschutz und Datensicherheit genügt und dennoch die Bedeutung einer Suchanfrage erfassen und eine hohe Treffsicherheit bei den Suchergebnissen erzielen kann.

Ausgangsbasis dafür sind ebenfalls Transformer-Netzwerke, die aber durch spezifische Anpassungen und Erweiterungen so angepasst werden, dass sie auch auf kleineren Dokumentenbeständen funktionieren. Außerdem wird auch vorliegendes Expertenwissen in die KI eingeflochten, um benötigte Menge an Trainingsdaten weiter zu reduzieren. Die daraus entstehenden Verbesserungen haben auch einen direkten Mehrwert für DATEV-Anwenderinnen und -Anwender: Sie fließen in DATEV Suchanwendungen wie etwa bei der Datenbank für Fach- und Serviceinformationen »LEXinform« oder der Online-Plattform »SmartExperts« ein.