ESG-Ratings: Quo vadis?

Es herrscht keine Einigkeit zwischen den verschiedenen ESG-Ratingagenturen. Die Korrelation zwischen den verschiedenen Rating-Einstufungen der größten Anbieter bleibt gering – so das Ergebnis einer neuen Studie, die vom MIT Sloan und der Universität Zürich veröffentlicht wurde. Konkret bedeutet dies, dass sich die Rating-Anbieter höchst uneinig darüber sind, welche Unternehmen sich besonders nachhaltig verhalten oder Defizite in puncto Nachhaltigkeit aufweisen. Die unter dem Titel “Aggregate Confusion: The Divergence of ESG Ratings” veröffentlichte Studie bestätigt damit die Ergebnisse einer früheren Ausarbeitung, auf die wir vor etwas über einem Jahr bereits aufmerksam gemacht hatten. Die Verwirrung bleibt groß. Unternehmen wissen oft nicht, was Stakeholder und ESG-Ratingagenturen von ihnen eigentlich erwarten.

Datenwolke voraus

Jeder redet von Nachhaltigkeit, aber offenbar ist auch im Jahr 2022 noch unklar, was dies in der Praxis bedeutet. So entsteht bei der graphischen Darstellung der Ergebnisse der Studie eine breite Datenwolke, welche die hohe Streuung der Rating-Noten der verschiedenen Agenturen reflektiert. Ein Beispiel: Der Auswertung zufolge kommt das von MSCI am besten bewertete Unternehmen bei Sustainalytics gerade mal auf eine durchschnittliche Einstufung. Absurderweise kommt das von MSCI als am wenigsten nachhaltig eingestufte Unternehmen bei Sustainalytics ebenfalls auf eine durchschnittliche Note (die beiden Datenpunkte sind hier rot markiert). Sustainalytics und MSCI gelten als die beiden renommiertesten ESG-Rating-Anbieter.

Die Streuung der Ratings der verschiedenen Ratingagenturen ist groß.

Die Studie untersucht die ESG-Einstufungen aller großen ESG-Ratingagenturen: KLD (heute Teil von MSCI), Sustainalytics, Moody’s ESG (Vigeo Eiris), S&P Global (RobecoSAM), Refinitiv (Asset4) und MSCI. Die Korrelation, also in diesem Fall die Einigkeit, der ESG-Ratings der unterschiedlichen Anbieter zu den insgesamt 924 untersuchten Unternehmen fällt mit 0,38 bis 0,71 gering aus. Diese Beobachtung steht im Kontrast zu den Rating-Einstufungen bei Bonitäts-Ratings. Hier herrscht mit einer Korrelation von über 0,9 eine ausgesprochen hohe Einigkeit der Anbieter, was die Einstufung der Unternehmen zur finanziellen Stabilität angeht. Es geht also auch anders.

Und es wird noch schlimmer

In einem weiteren Schritt untersuchen die Wissenschaftler, welche Gründe zu dieser Uneinigkeit führen, und untersuchen daher die genaue Zusammensetzung der einzelnen Ratings. Die diversen Ratinganbieter greifen auf 38 bis 282 unterschiedliche Indikatoren zurück, die insgesamt 64 verschiedenen Kategorien zugeordnet werden können. Die Kern-Kategorien sind Biodiversität, Mitarbeiterentwicklung, Energie, Nachhaltigkeit der Produkte, Gesundheit und Sicherheit, Mitarbeiterangelegenheiten, Produktsicherheit, Vergütung, Lieferketten und Wasser. Ein Vergleich der Ratingergebnisse der einzelnen Kategorien ist ernüchternd: Die Streuung der Ergebnisse innerhalb der einzelnen Kategorien, welche zusammen dann ein Rating formen, ist noch höher als die Streuung der ESG-Ratings selbst. In anderen Worten: Eine Ratingagentur könnte beispielsweise zu dem Schluss kommen, dass ein Unternehmen besonders gut im Bereich „Energie“ abschneidet, während eine andere in dieser Kategorie genau zur umgekehrten Einschätzung gelangt. Aus der Studie:

“However, even categories that measure straightforward facts that are easily obtained from public records do not all have high levels of correlation. For instance, membership of the UN Global Compact and CEO/Chairperson separation should be unambiguous but show correlations of 0.92 and 0.59, respectively. There are also several negative correlations, such as Lobbying between Sustainalytics and Moody’s ESG or Indigenous Rights between Sustainalytics and Refinitiv. In these cases, the level of disagreement is so severe that rating agencies reach not merely different but opposite conclusions.”

Es wird klar, dass die Messmethodik ein ernsthaftes Problem darstellt.

Drei Faktoren könnten für die hohe Streuung bei ESG-Ratings ursächlich sein:

Measurement / Messung: Wie messen die Anbieter denselben Faktor? Mitarbeiterzufriedenheit kann beispielsweise über den Mitarbeiterumschlag im Unternehmen oder über die Anzahl an gerichtlichen Auseinandersetzungen eines Unternehmens mit seinen Mitarbeitern approximiert werden.
Scope / Umfang: Welchen Umfang hat die Messung? Beispiel: Berücksichtigt ein Anbieter Lobbying-Aktivitäten eines Unternehmens oder greift er nicht auf diesen Faktor zurück.
Weight / Gewichtung: Wie gewichten die Anbieter einzelne Faktoren?

Das Resultat der Studie: Die Messung ist mit einem Anteil von 56 % die wesentliche Ursache für die unterschiedlichen ESG-Ratings, gefolgt vom Umfang mit 38 % und der Gewichtung mit 6 %. Das stellt ein Problem dar, denn per se sind unterschiedliche Ratingergebnisse nicht zu verteufeln. Theoretisch könnten diese damit begründet sein, dass einzelne Anbieter die Komponenten des ESG-Ratings in unterschiedlichem Umfang analysieren oder gewichten. Die Daten zeigen aber, dass die eigentliche Messung und nicht der Umfang oder die Gewichtung der wesentliche Grund für die Streuung bei den ESG-Noten ist. Das ESG-Messthermometer der Anbieter ist defekt. Um es in Schulnoten auszudrücken: Die Qualität der ESG-Ratings ist oft mangelhaft.

Die Ratingagenturen kommen bei der Bewertung verschiedener Faktoren zu sehr unterschiedlichen Ergebnissen. Die Qualität und Validität der eigentlichen Messung ist mangelhaft.

Für Investoren, die wirklich nachhaltig investieren wollen, bedeutet dies in Konsequenz, dass man sich nicht passiv auf ESG-Ratings „ausruhen“ sollte. Investoren müssen sich selbst tiefergehend mit den Unternehmen beschäftigen und ihre Aktionärsrechte aktiv ausüben – anders lässt sich nachhaltiges Investieren angesichts der Qualität der ESG-Ratings nicht umsetzen.

Messung und Interpretation sind nicht trivial

In der Tat herrscht wenig Klarheit darüber, wie einzelne Dimensionen eines ESG-Ratings gemessen werden sollten. Wie die WirtschaftsWoche in einem Gespräch mit uns kürzlich aufgegriffen hatte, kreiden einige ESG-Ratingagenturen Berkshire Hathaway beispielsweise an, dass Warren Buffett nach wie vor sowohl CEO als auch Chairman des Unternehmens ist – wir können darin kein Problem erkennen. Es herrscht zwar eine gewisse Klarheit, aus welchen Kategorien und Dimensionen sich ein ESG-Rating zusammensetzen sollte, aber es ist unklar, wie die Messung der einzelnen Faktoren erfolgen sollte. Einzelne Dimensionen eines Ratings wie etwa der Wasserverbrauch sind verhältnismäßig leicht messbar. Die meisten Dimensionen sind jedoch nicht ohne weiteres beobachtbar, sondern können nur approximiert werden. Wenn Governance also über die Trennung der Rolle des CEO und Chairmans gemessen wird, schneidet Berkshire Hathaway schlecht ab, wenn hingegen die Vergütung des Managements als wesentliches Kriterium für das Governance-Rating herangezogen wird, erhält Berkshire Hathaway Bestnoten.

Eine Verzerrung, die keine ist?

Ein wesentlicher Treiber der Divergenz der Messungen der verschiedenen ESG-Rating-Anbieter könnte den Forschern zufolge in einem Halo-Effekt begründet sein. Bei diesem aus der Psychologie bekannten Phänomen handelt es sich um eine kognitive Verzerrung, bei der von bekannten Eigenschaften einer Person auf unbekannte geschlossen wird. In der Studie wird festgestellt, dass eine positive Einschätzung eines Unternehmens in einer Kategorie sich positiv auf andere ESG-Dimensionen auswirkt. Bei schwierig oder eher subjektiv messbaren Kategorien (wie etwa der Governance bei Berkshire Hathaway) könnten sich Ratingagenturen – ungerechtfertigterweise – von leichter und objektiver messbaren Kategorien beeinflussen lassen.

Eine unglaubliche Datenmenge

In der Studie werden insgesamt unglaubliche 709 unterschiedliche Indikatoren ausgemacht, aus welchen die Ratingagenturen die einzelnen unternehmensspezifischen Bewertungen zusammensetzen. Als Investoren sind wir es gewohnt, mit großen Datenmengen konfrontiert zu werden. Täglich, ja bisweilen minütlich, trudeln Nachrichten und Einschätzungen über den Bloomberg-Ticker ein. Wir sehen unsere Aufgabe als Investoren darin, die wenigen wesentlichen Datenpunkte zu identifizieren. Wir filtern und strukturieren die tägliche Datenflut also und besinnen uns am Ende in der Regel sprichwörtlich auf eine Handvoll Daten und Argumente, welche eine Investmententscheidung rechtfertigen. Für uns stellt sich auch mit Hinblick auf ESG-Ratings die Frage, ob derartig viele Datenpunkte erforderlich sind. In der Tat stellen auch die Wissenschaftler fest: „one could replicate an overall rating with less than the full set of categories”.

Eine Kakerlake kommt selten allein

Der oben beschriebene Halo-Effekt lässt sich aus unserer Sicht auf zwei Weisen interpretieren:

Es handelt sich um eine echte Verzerrung: Unternehmen, die gut / schlecht in einer Dimension eingestuft sind, werden zu Unrecht in einer anderen Dimension ähnlich gut / schlecht bewertet.
Die Bewertung in einer Dimension hat tatsächlich eine objektive Wechselbeziehung mit einer anderen, weil eine gewisse Kausalität besteht.

Wie erwähnt, sind für uns bei der Einschätzung zu einem Investment am Ende nur eine Handvoll Datenpunkte und Analysen ursächlich. Die Schwierigkeit beim Investieren besteht darin, die aussagekräftigen Datenpunkte in der täglichen Datenflut zu identifizieren. Der Leser ahnt, wir tendieren zu (b) und denken, dass es bei ESG-Ratings vielleicht weniger zu einem Halo-Effekt, also einer ungerechtfertigten Verzerrung kommt, und eher zwischen den Faktoren tatsächlich häufig ein gewisser Zusammenhang besteht. Aus unserer Sicht genügt bei manchen Unternehmen ein einziger Datenpunkt für eine Einschätzung: Ein Automobilhersteller, der seine Dieselmotoren manipuliert und über den CO₂-Ausstoß der Motoren täuscht, schneidet in puncto Nachhaltigkeit der Produkte bei den Ratingagenturen schlecht ab. Die Signalwirkung eines solchen Verhaltens kann kaum überschätzt werden, denn es stellt in der Regel nur die Spitze eines Eisberges dar: Wer auf derartige Weise Kunden und Regulatoren täuscht, wird unserer Einschätzung zufolge ein ähnliches Verhalten gegenüber Mitarbeitern oder Zulieferern an den Tag legen und die Öffentlichkeit vielleicht auch an anderer Stelle über bestimmte Umweltfaktoren täuschen.

Die Eigentümer- und Anreizstruktur als Indikator mit Strahlkraft

Wie dargestellt, sind die wenigsten ESG-Dimensionen wirklich direkt, objektiv beobachtbar, sondern können zumeist nur über verschiedene Indikatoren approximiert werden. Es stellt sich daher die Frage, ob es sinnvoll ist, wirklich objektiv beobachtbare Indikatoren stärker zu gewichten da diese oft auch eine gewisse Aussagekraft über weniger gut beobachtbare Faktoren aufweisen. Für uns bleibt einer der wichtigsten Faktoren die Aktionärsstruktur eines Unternehmens und damit verbunden die Anreizstruktur des Managements – dieser Indikator weist eine besonders hohe Strahlkraft auf. Selbstverständlich geht unsere Analyse darüber hinaus. Wir sammeln weitere Eindrücke aus diversen Primärquellen, insbesondere Gesprächen mit dem Management unserer Beteiligungen, Vor-Ort-Besuchen, Expertengesprächen, und greifen auch auf Sekundärquellen zur Analyse bestimmter ESG-Dimensionen zurück. Dies ergibt ein deutlich qualitativeres Bild als das der ESG-Ratingagenturen, aber – zumindest aus unserer Brille – auch eines, das näher an der Wahrheit liegt. Wir erachten jedoch die Eigentümerstruktur als den wirksamsten Treiber und Indikator für langfristig orientierte und damit auch nachhaltige Unternehmensentscheidungen in allen drei ESG-Dimensionen.