In den letzten beiden Teilen hat Thomas Flassbeck, der Gründer und Geschäftsführer von SimFin, die Idee von möglichst kostengünstigen Unternehmensdaten für alle vorgestellt. Daneben hat er uns einen Ausblick auf die Internationalisierung der Fundamentaldaten gegeben. Heute möchten wir uns vor allem mit der technischen Seite hinter dem Angebot beschäftigen.
Der Blick in den Maschinenraum, um Fundamentaldaten zu erzeugen Kannst du den Prozess beschreiben, mit dem ihr Finanzdaten für neue Firmen einbindet?
Wir haben verschiedene Crawler. Mit diesen lassen sich automatisiert Dokumente im Web durchsuchen. Für amerikanische Unternehmensdaten wird auf der SEC Website nach den Daten von einer Firma gesucht. Für internationale Finanzdaten werden erst mal Jahres- und Quartalsberichte in PDF Form gecrawlt. Wenn der Crawler nicht alles findet, werden die notwendigen Dokumente manuell hochgeladen.
Was passiert dann mit den Dokumenten?
Aus den Berichten extrahieren wir die Rohdaten. Dieser Vorgang ist für PDFs relativ kompliziert und für die US-Finanzdaten vergleichsweise einfach. Die Daten werden dann an eine API geschickt. Diese konsolidiert die Fundamentaldaten von allen Berichten. Das heißt, mehrere Zeitperioden werden zusammengeführt. An dieser Stelle entscheidet sich auch, welche Daten von den Rohdaten relevant sind und welche nicht. Wir standardisieren dann die zusammengeführten Finanzdaten. Das bedeutet, dass wir die Rohdaten vereinheitlichen. So können wir die Kennzahlen in einer aggregierten Tabelle im Zeitverlauf darstellen.
Wie stellt ihr die Datenqualität für die importierten Daten sicher?
Wir überprüfen für alle Unternehmensdaten im Prinzip, ob die „Summen“, die eine Firma in ihren Rohdaten veröffentlicht hat, mit unseren berechneten Zahlen übereinstimmen. Also zum Beispiel für die GuV: Stimmt der von der Firma veröffentlichte Gewinn mit dem von uns berechneten Gewinn (also Umsatz minus Kosten etc.) überein? Wenn eine falsche Zuordnung stattgefunden hat, gibt es hier eine Differenz.
Hört sich nach viel manueller Arbeit an.
Ja, am Anfang. Mittlerweile haben unsere Algorithmen aber schon so viel von unseren manuellen Korrekturen „gelernt“, dass der ganze Prozess sehr effizient abläuft. Das ist ja das Gute an Machine Learning, dass das System über die Zeit immer besser wird, wenn man die Fehler kontinuierlich korrigiert.
Die Vor- und Nachteile der Methoden Für die amerikanischen Unternehmen verwendet ihr die Finanzdaten, die von der SEC zur Verfügung gestellt werden. Was sind hier die Probleme?
Wir haben bis vor Kurzem die maschinenlesbaren XBRL-Daten verwendet, weil diese am „einfachsten“ auszulesen sind. Jeder Zahl sind zum Beispiel bereits eine Periode und eine Größeneinheit zugeordnet. In den XBRL-Daten sind aber leider relativ viele Fehler, also echte Zahlendreher oder ein Minuszeichen das fehlt. Teilweise fehlen die Unternehmensdaten auch einfach komplett.
Nicht die besten Voraussetzungen …
Ja, genau, deshalb sind wir jetzt dazu übergegangen, die HTML-Daten auf der SEC-Seite zu verwenden. Diese enthalten viel weniger Fehler. Jedoch muss man bei diesen mehr automatisiert erkennen. Welcher Zeitperiode ist eine Zahl in einer Tabelle zuzuordnen? Welche Einheit wird verwendet? Hierfür haben wir jetzt verschiedene neuronale Netze, die das sehr gut hinbekommen. Wir überprüfen dann noch mal den finalen Output von dem neuen HTML-Crawler mit den XBRL-Daten. Aber XBRL ist jetzt nicht mehr unsere primäre Datenquelle.
Ende 2018 habt ihr euch recht zuversichtlich zu eurem neuen PDF-Crawler gezeigt, welcher die Finanzdaten auch für internationale Unternehmen sammeln kann. Weshalb sind trotzdem wenige internationale Unternehmen in eurer Datenbank?
Ende 2018 war die Alpha-Version des PDF-Extractors fertig, mit dem man aus den PDFs die Rohdaten für die GuV, Bilanz etc. extrahieren kann. Für viele Unternehmen hat das auch sehr gut funktioniert, für einige gab es aber noch Probleme. Das heißt, es gab ein „Proof of Concept“, aber das Ganze wirklich zu skalieren, also nicht nur für 5 Unternehmen anzuwenden, sondern für 100 oder 1.000, ist noch einmal eine andere Sache.
Was ist jetzt der Stand?
Nach der kompletten Überarbeitung des Backends sind wir zuversichtlich hinsichtlich der Verwendung des PDF-Crawlers. Das Ziel ist es, damit noch im Januar den DAX abzudecken.
The post SimFin – Mit KI automatisiert von der IR-Seite zu aufbereiteten Finanzdaten appeared first on The Motley Fool Deutschland.
Motley Fool Deutschland 2021