Laut Bearing-Monitoring hat der Mitgründer von Anthropic, Christopher Olah, bei einem päpstlichen Enzyklika-Event offengelegt, dass sein Team interne Strukturen in großen Sprachmodellen entdeckt habe, die menschlichen neuronalen Mustern stark ähneln und Selbstreflexions-Verhalten zeigen. Am bemerkenswertesten: Forschende identifizierten gefühlsähnliche Zustände in neuronalen Netzwerken, die menschlicher Freude, Zufriedenheit, Furcht, Traurigkeit und Angst entsprechen.
Olah räumte ein, dass führende KI-Labore, darunter Anthropic, strukturelle Konflikte zwischen Sicherheits-Governance und kommerziellem Druck vor sich haben, wodurch es diesen Institutionen schwerfällt, sich selbst bei Ausrichtungsproblemen (Alignment) zu korrigieren. Er forderte unabhängige externe Aufsicht, um ethische Vorgaben durchzusetzen und gesellschaftliche Herausforderungen anzugehen, die durch KI-Systeme entstehen, die potenziell Formen von Bewusstsein aufweisen.