IBMs neue Suchmaschine und die Zweitverwertung des Discovery Server

25. November 2004 von Wolfgang Sommergut

In den nächsten Wochen soll IBMs neue Suchmaschine auf den Markt kommen. Gemäß der seit einiger Zeit üblichen Namenskonventionen hört sie auf das Wortmonster „DB2 Information Integrator OmniFind Edition“. Sie ist auf die Recherche in Unternehmensdaten spezialisiert. Dort gelten andere Anforderungen als im Web.
omnifind.jpg

Eine Enterprise-Suche muss in der Lage sein, zahlreiche Datenquellen zu erschließen und dabei viele Datenformate zu lesen. Außerdem soll sie Suchergebnisse abhängig von den Zugriffsrechten des betreffenden Benutzers ausgeben: Dokumente, die ich gar nicht öffnen darf, brauche ich in der Trefferliste erst gar nicht zu sehen.

Ein weiterer Unterschied zur Web-Suche besteht bei der Bewertung der Relevanz von Daten. Das Web organisiert sich durch Verlinkung selbst, Unternehmensdaten verfügen hingegen in ihrer Mehrzahl über keine Verweisinformationen. Deshalb kann eine Suchmaschine dort die Relevanz einer Seite normalerweise nicht nach dem Google-Prinzip ermitteln – also anhand der Zahl von Links, die auf sie verweisen. Sie muss aufgrund des Inhalts herausfinden, ob ein Dokument für einen bestimmten Suchbegriff bedeutsam ist. Nach diesem Muster arbeitete auch die erste Generation der Web-Suchdienste und wurde dabei systematische durch Spam in die Irre geführt. Dieses Problem sollte innerhalb von Firmen nicht existieren.

Um die Bedeutung von Texten zu erfassen, greift die IBM auf Technologien aus dem leise verschiedenen Discovery Server zurück. Es handelte sich dabei um ein im Jahr 2000 groß angekündigtes Knowledge-Management-Produkt der Lotus-Abteilung. Seine Aufgabe sollte darin bestehen, Dokumente anhand automatisch erzeugter Taxonomien zu kategorisieren. Diese Fähigkeit soll nun helfen, die am besten zu einem Suchausdruck passenden Texte zu finden.

Der Discovery Server übernahm allerdings noch eine weitere Aufgabe. Er sollte anhand der Benutzergewohnheiten herausfinden, wer in einem Unternehmen Experte für welche Themen ist. Dazu führte er Statistik darüber, wie oft jemand ein Dokument einer bestimmten Kategorie verfasste oder zum Lesen öffnete. Das klappte allerdings nur über das Frontend des Discovery-Server. Außerdem konnte er den Inhalt von Mail-Ordnern analysieren, um die Affinität eines Mitarbeiters zu bestimmten Themen zu eruieren.

Derartige Kenntnisse über die Verteilung von Wissen in einer Firma wären natürlich bei der Sortierung von Suchergebnissen nützlich. Stammt ein Dokument etwa von einem Experten auf einem Gebiet, könnte man es in der Trefferliste weiter vorne platzieren. Allerdings scheiterte dieses Feature des Discovery Server im Unternehmensalltag. Man kann sich leicht vorstellen, dass es gegen die Erfassung von so vielen personenbezogenen Informationen Widerstände gibt. Außerdem erfordert ein solches System einiges an Disziplin und Pflegeaufwand. Dieser Teil des einst so hochgelobten KM-Servers fand daher nicht Eingang in Omnifind.

Siehe auch: Anmerkungen zu IBMs kostenloser Web-Suchmaschine Omnifind Yahoo Edition

Kategorie: Suchmaschinen Ein Kommentar »

Eine Antwort zu “IBMs neue Suchmaschine und die Zweitverwertung des Discovery Server”

  1. Jörg Wittkewitz sagt:

    Interessanterweise sind die Zulieferer der früheren Lotus-Produkte wie beispielsweise Verity noch heute erfolgreich aktiv mit genau den Features, die beim KDS nicht richtig wollten. Obwohl auch ich damals umfangreiche Artikel über Raven und Nachfolger schrieb und es daher besser wissen müsste, erschien auch mir der Schritt fraglich, warum das Frontend als KD-Add-On in der Websphere-Umgebung versank und der Raven-Kern zwei Jahre später verschwand.
    Und wenn ich mir die riesige Infografik ansehe, dann wird schnell klar, warum das so war und ist:
    Dateisysteme, E-Mail-Server, DBs und das Intranet. Da fehlt doch was Entscheidendes. Oder müssen Ominfindkunden zukünftig eine EIP-Lizenz von IBM dazurechnen, wenn sie auch archivierte Inhalte oder DMS-Daten in den Ergebnissen brauchen? Und wie integriere ich Omnifind in Business Process Engines, die Inhalte prozessbasiert verteilen?
    Vielen Menschen wird erst im vertieften Gespräch klar, was es heisst, Listen, Dokumente und Reports direkt neben Datensätzen aus DBs zu lesen und beides über paramatrisierbare Suchanfragen je nach Vorgang individuell sortieren zu können. Aber in fast allen täglich relevanten Fällen wie Call-Center, Online-Bestellabwicklung, Sachbearbeitung von der Versicherung bis zum Amt ist beides parallel wichtig.
    Denn das Finden ist nicht das Problem, es geht viel mehr darum, mit Blick auf Teilschritte in Prozessen die jeweilig relevante Information passend zum aktuellen Vorgang zu liefern. Wissenslandkarten etc. sind ganz nett für Wissenbilanzen, interne Weiterbildung etc.
    Aber: Der Clou liegt ja in einer Produktivitätssteigerung, die die geleisteten Investitionen in DMS, ECM und sonstwelchen Content Systeme im Büroalltag direkt bei jedem Mitarbeiter in effizientere, also auch frustvermindernde Funktionen abbildet. Und dies erfolgt nicht allein mit dem Expertenfeature, das bei Verity K2 einfach bedeutet, dass jemand, der sich als Experte geoutet hat, online etc. verfügbar werden kann – wenn es zum gesuchten Thema dürftige Treffer gibt. Dann kann man auch per Monitorng einen Alert an den Competence Leader oder Wissensmanager losschicken, dass ein bestimmtes Thema wiederholt wenig Inhalte geliefert hat.
    Die individuellen Interessensprofile kann jeder selbst erstellen, ändern oder einen Satz Themen per Benutzerrolle zugeordnet bekommen als erste Grundlage. Ob und wie man die Suchvorgänge oder andere Methoden für weitere Relevanzoptimierungen vornimmt hängt immer auch davon ab, ob man so ein System eher zum groben Recherchieren oder zum Adleraugensuchsystem für genau den einen Spesenbeleg vom 13.02.1995 nutzt. Denn oft passiert beides parallel im selben Haus. Daran scheitern viel Anbieter, die sich vorschnell auf die so genannten schwach strukturierten Inhalte wie E-mails, digitale Archive oder aber die Datenbanken als Zielojekte für die Datenrecherche stürzen. Ach ja und dann wären da noch hoch dynamische Inhalte auf Weblogs die man – meines Wissens nach auch nicht damit finden kann. Sollte eine Suchmaschine aber können. Man will ja nicht nur im eigenen Datensaft schmoren, oder?
    Beste Grüße
    Jörg Wittkewitz