🧐 ProPicks KI Oktober-Update: Welche Aktien haben es geschafft?Jetzt reinschauen

SimFin – Mit KI automatisiert von der IR-Seite zu aufbereiteten Finanzdaten

Veröffentlicht am 02.01.2021, 10:33
Aktualisiert 02.01.2021, 10:35
SimFin – Mit KI automatisiert von der IR-Seite zu aufbereiteten Finanzdaten
DE40
-

In den letzten beiden Teilen hat Thomas Flassbeck, der Gründer und Geschäftsführer von SimFin, die Idee von möglichst kostengünstigen Unternehmensdaten für alle vorgestellt. Daneben hat er uns einen Ausblick auf die Internationalisierung der Fundamentaldaten gegeben. Heute möchten wir uns vor allem mit der technischen Seite hinter dem Angebot beschäftigen.

Der Blick in den Maschinenraum, um Fundamentaldaten zu erzeugen Kannst du den Prozess beschreiben, mit dem ihr Finanzdaten für neue Firmen einbindet?

Wir haben verschiedene Crawler. Mit diesen lassen sich automatisiert Dokumente im Web durchsuchen. Für amerikanische Unternehmensdaten wird auf der SEC Website nach den Daten von einer Firma gesucht. Für internationale Finanzdaten werden erst mal Jahres- und Quartalsberichte in PDF Form gecrawlt. Wenn der Crawler nicht alles findet, werden die notwendigen Dokumente manuell hochgeladen.

Was passiert dann mit den Dokumenten?

Aus den Berichten extrahieren wir die Rohdaten. Dieser Vorgang ist für PDFs relativ kompliziert und für die US-Finanzdaten vergleichsweise einfach. Die Daten werden dann an eine API geschickt. Diese konsolidiert die Fundamentaldaten von allen Berichten. Das heißt, mehrere Zeitperioden werden zusammengeführt. An dieser Stelle entscheidet sich auch, welche Daten von den Rohdaten relevant sind und welche nicht. Wir standardisieren dann die zusammengeführten Finanzdaten. Das bedeutet, dass wir die Rohdaten vereinheitlichen. So können wir die Kennzahlen in einer aggregierten Tabelle im Zeitverlauf darstellen.

Wie stellt ihr die Datenqualität für die importierten Daten sicher?

Wir überprüfen für alle Unternehmensdaten im Prinzip, ob die „Summen“, die eine Firma in ihren Rohdaten veröffentlicht hat, mit unseren berechneten Zahlen übereinstimmen. Also zum Beispiel für die GuV: Stimmt der von der Firma veröffentlichte Gewinn mit dem von uns berechneten Gewinn (also Umsatz minus Kosten etc.) überein? Wenn eine falsche Zuordnung stattgefunden hat, gibt es hier eine Differenz.

Hört sich nach viel manueller Arbeit an.

Ja, am Anfang. Mittlerweile haben unsere Algorithmen aber schon so viel von unseren manuellen Korrekturen „gelernt“, dass der ganze Prozess sehr effizient abläuft. Das ist ja das Gute an Machine Learning, dass das System über die Zeit immer besser wird, wenn man die Fehler kontinuierlich korrigiert.

Die Vor- und Nachteile der Methoden Für die amerikanischen Unternehmen verwendet ihr die Finanzdaten, die von der SEC zur Verfügung gestellt werden. Was sind hier die Probleme?

Wir haben bis vor Kurzem die maschinenlesbaren XBRL-Daten verwendet, weil diese am „einfachsten“ auszulesen sind. Jeder Zahl sind zum Beispiel bereits eine Periode und eine Größeneinheit zugeordnet. In den XBRL-Daten sind aber leider relativ viele Fehler, also echte Zahlendreher oder ein Minuszeichen das fehlt. Teilweise fehlen die Unternehmensdaten auch einfach komplett.

Nicht die besten Voraussetzungen …

Ja, genau, deshalb sind wir jetzt dazu übergegangen, die HTML-Daten auf der SEC-Seite zu verwenden. Diese enthalten viel weniger Fehler. Jedoch muss man bei diesen mehr automatisiert erkennen. Welcher Zeitperiode ist eine Zahl in einer Tabelle zuzuordnen? Welche Einheit wird verwendet? Hierfür haben wir jetzt verschiedene neuronale Netze, die das sehr gut hinbekommen. Wir überprüfen dann noch mal den finalen Output von dem neuen HTML-Crawler mit den XBRL-Daten. Aber XBRL ist jetzt nicht mehr unsere primäre Datenquelle.

Ende 2018 habt ihr euch recht zuversichtlich zu eurem neuen PDF-Crawler gezeigt, welcher die Finanzdaten auch für internationale Unternehmen sammeln kann. Weshalb sind trotzdem wenige internationale Unternehmen in eurer Datenbank?

Ende 2018 war die Alpha-Version des PDF-Extractors fertig, mit dem man aus den PDFs die Rohdaten für die GuV, Bilanz etc. extrahieren kann. Für viele Unternehmen hat das auch sehr gut funktioniert, für einige gab es aber noch Probleme. Das heißt, es gab ein „Proof of Concept“, aber das Ganze wirklich zu skalieren, also nicht nur für 5 Unternehmen anzuwenden, sondern für 100 oder 1.000, ist noch einmal eine andere Sache.

Was ist jetzt der Stand?

Nach der kompletten Überarbeitung des Backends sind wir zuversichtlich hinsichtlich der Verwendung des PDF-Crawlers. Das Ziel ist es, damit noch im Januar den DAX abzudecken.

The post SimFin – Mit KI automatisiert von der IR-Seite zu aufbereiteten Finanzdaten appeared first on The Motley Fool Deutschland.

Motley Fool Deutschland 2021

Dieser Artikel erschien zuerst auf The Motley Fool

Aktuelle Kommentare

Installieren Sie unsere App
Risikohinweis: Beim Handel mit Finanzinstrumenten und/oder Kryptowährungen bestehen erhebliche Risiken, die zum vollständigen oder teilweisen Verlust Ihres investierten Kapitals führen können. Die Kurse von Kryptowährungen unterliegen extremen Schwankungen und können durch externe Einflüsse wie finanzielle, regulatorische oder politische Ereignisse beeinflusst werden. Durch den Einsatz von Margin-Trading wird das finanzielle Risiko erhöht.
Vor Beginn des Handels mit Finanzinstrumenten und/oder Kryptowährungen ist es wichtig, die damit verbundenen Risiken vollständig zu verstehen. Es wird empfohlen, sich gegebenenfalls von einer unabhängigen und sachkundigen Person oder Institution beraten zu lassen.
Fusion Media weist darauf hin, dass die auf dieser Website bereitgestellten Kurse und Daten möglicherweise nicht in Echtzeit oder vollständig genau sind. Diese Informationen werden nicht unbedingt von Börsen, sondern von Market Makern zur Verfügung gestellt, was bedeutet, dass sie indikativ und nicht für Handelszwecke geeignet sein können. Fusion Media und andere Datenanbieter übernehmen daher keine Verantwortung für Handelsverluste, die durch die Verwendung dieser Daten entstehen können.
Die Nutzung, Speicherung, Vervielfältigung, Anzeige, Änderung, Übertragung oder Verbreitung der auf dieser Website enthaltenen Daten ohne vorherige schriftliche Zustimmung von Fusion Media und/oder des Datenproviders ist untersagt. Alle Rechte am geistigen Eigentum liegen bei den Anbietern und/oder der Börse, die die Daten auf dieser Website bereitstellen.
Fusion Media kann von Werbetreibenden auf der Website aufgrund Ihrer Interaktion mit Anzeigen oder Werbetreibenden vergütet werden.
Im Falle von Auslegungsunterschieden zwischen der englischen und der deutschen Version dieser Vereinbarung ist die englische Version maßgeblich.
© 2007-2024 - Fusion Media Limited. Alle Rechte vorbehalten.