Kürzlich stellte OpenAI einen neuen Web-Crawler namens GPTBot vor, der bereits Aufmerksamkeit erregt hat. Der primäre Zweck des Crawlers besteht darin, das World Wide Web nach einschlägigen Inhalten zu durchsuchen, um auf diese Art und Weise KI-Modelle zu optimieren. Dadurch kann es gelingen, die Qualität und Sicherheit von Sprachmodellen, wie ChatGPT, zu verbessern. Der Crawler wird dabei Datenquellen, die hinter Paywalls liegen, persönliche Informationen sammeln oder gegen Richtlinien verstoßen, meiden.
OpenAI befindet sich in ähnlicher Weise wie andere Unternehmen, die KI-Sprachmodelle entwickeln, aufgrund möglicher Datenmissbräuche in der Kritik. Es hat schon Fälle gegeben, in denen die Verwendung von Inhalten ohne die notwendige Genehmigung oder Urheberrechtsverletzung zur Schulung von Sprachmodellen behauptet wurde. Mit GPTBot versucht OpenAI, die Erfassung von Inhalten besser zu regulieren.
Webseitenbetreiber haben die Möglichkeit, GPTBot den Zugriff auf ihre Inhalte zu verweigern oder teilweise zu erlauben. Sie können dies über die Datei robots.txt steuern. Es gibt jedoch einige anfängliche Probleme mit GPTBot, einschließlich der Tatsache, dass einige Webseiten dem Crawler den Zugriff verweigert haben, weil er nicht auf ihren Whitelists steht oder Tests nicht besteht, die seine „Menschlichkeit“ überprüfen.
Angesichts der Entwicklung und des Einsatzes von KI im Web gibt es Bedenken hinsichtlich der aktuellen Nutzung des fast 30 Jahre alten robots.txt-Protokollss zur Steuerung des Web-Crawlings. Google ist überzeugt dass es Zeit ist, zusätzliche maschinenlesbare Mittel zur Auswahl und Kontrolle für Web-Publisher im Kontext von KI und Forschung zu erforschen.
Kurz gesagt, OpenAI’s Einführung von GPTBot ist ein Schritt in Richtung besserer Content-Erfassung für KI-Training, wird aber auch von Datenschutzbedenken begleitet.