SimFin – Mit KI automatisiert von der IR-Seite zu aufbereiteten Finanzdaten

Veröffentlicht am 02.01.2021, 10:33

Aktualisiert 02.01.2021, 10:35

SimFin – Mit KI automatisiert von der IR-Seite zu aufbereiteten Finanzdaten

DE40

In den letzten beiden Teilen hat Thomas Flassbeck, der Gründer und Geschäftsführer von SimFin, die Idee von möglichst kostengünstigen Unternehmensdaten für alle vorgestellt. Daneben hat er uns einen Ausblick auf die Internationalisierung der Fundamentaldaten gegeben. Heute möchten wir uns vor allem mit der technischen Seite hinter dem Angebot beschäftigen.

Der Blick in den Maschinenraum, um Fundamentaldaten zu erzeugen Kannst du den Prozess beschreiben, mit dem ihr Finanzdaten für neue Firmen einbindet?

Wir haben verschiedene Crawler. Mit diesen lassen sich automatisiert Dokumente im Web durchsuchen. Für amerikanische Unternehmensdaten wird auf der SEC Website nach den Daten von einer Firma gesucht. Für internationale Finanzdaten werden erst mal Jahres- und Quartalsberichte in PDF Form gecrawlt. Wenn der Crawler nicht alles findet, werden die notwendigen Dokumente manuell hochgeladen.

Was passiert dann mit den Dokumenten?

Aus den Berichten extrahieren wir die Rohdaten. Dieser Vorgang ist für PDFs relativ kompliziert und für die US-Finanzdaten vergleichsweise einfach. Die Daten werden dann an eine API geschickt. Diese konsolidiert die Fundamentaldaten von allen Berichten. Das heißt, mehrere Zeitperioden werden zusammengeführt. An dieser Stelle entscheidet sich auch, welche Daten von den Rohdaten relevant sind und welche nicht. Wir standardisieren dann die zusammengeführten Finanzdaten. Das bedeutet, dass wir die Rohdaten vereinheitlichen. So können wir die Kennzahlen in einer aggregierten Tabelle im Zeitverlauf darstellen.

Wie stellt ihr die Datenqualität für die importierten Daten sicher?

Wir überprüfen für alle Unternehmensdaten im Prinzip, ob die „Summen“, die eine Firma in ihren Rohdaten veröffentlicht hat, mit unseren berechneten Zahlen übereinstimmen. Also zum Beispiel für die GuV: Stimmt der von der Firma veröffentlichte Gewinn mit dem von uns berechneten Gewinn (also Umsatz minus Kosten etc.) überein? Wenn eine falsche Zuordnung stattgefunden hat, gibt es hier eine Differenz.

Hört sich nach viel manueller Arbeit an.

Ja, am Anfang. Mittlerweile haben unsere Algorithmen aber schon so viel von unseren manuellen Korrekturen „gelernt“, dass der ganze Prozess sehr effizient abläuft. Das ist ja das Gute an Machine Learning, dass das System über die Zeit immer besser wird, wenn man die Fehler kontinuierlich korrigiert.

Die Vor- und Nachteile der Methoden Für die amerikanischen Unternehmen verwendet ihr die Finanzdaten, die von der SEC zur Verfügung gestellt werden. Was sind hier die Probleme?

Wir haben bis vor Kurzem die maschinenlesbaren XBRL-Daten verwendet, weil diese am „einfachsten“ auszulesen sind. Jeder Zahl sind zum Beispiel bereits eine Periode und eine Größeneinheit zugeordnet. In den XBRL-Daten sind aber leider relativ viele Fehler, also echte Zahlendreher oder ein Minuszeichen das fehlt. Teilweise fehlen die Unternehmensdaten auch einfach komplett.

Nicht die besten Voraussetzungen …

Ja, genau, deshalb sind wir jetzt dazu übergegangen, die HTML-Daten auf der SEC-Seite zu verwenden. Diese enthalten viel weniger Fehler. Jedoch muss man bei diesen mehr automatisiert erkennen. Welcher Zeitperiode ist eine Zahl in einer Tabelle zuzuordnen? Welche Einheit wird verwendet? Hierfür haben wir jetzt verschiedene neuronale Netze, die das sehr gut hinbekommen. Wir überprüfen dann noch mal den finalen Output von dem neuen HTML-Crawler mit den XBRL-Daten. Aber XBRL ist jetzt nicht mehr unsere primäre Datenquelle.

Ende 2018 habt ihr euch recht zuversichtlich zu eurem neuen PDF-Crawler gezeigt, welcher die Finanzdaten auch für internationale Unternehmen sammeln kann. Weshalb sind trotzdem wenige internationale Unternehmen in eurer Datenbank?

Ende 2018 war die Alpha-Version des PDF-Extractors fertig, mit dem man aus den PDFs die Rohdaten für die GuV, Bilanz etc. extrahieren kann. Für viele Unternehmen hat das auch sehr gut funktioniert, für einige gab es aber noch Probleme. Das heißt, es gab ein „Proof of Concept“, aber das Ganze wirklich zu skalieren, also nicht nur für 5 Unternehmen anzuwenden, sondern für 100 oder 1.000, ist noch einmal eine andere Sache.

Was ist jetzt der Stand?

Nach der kompletten Überarbeitung des Backends sind wir zuversichtlich hinsichtlich der Verwendung des PDF-Crawlers. Das Ziel ist es, damit noch im Januar den DAX abzudecken.

The post SimFin – Mit KI automatisiert von der IR-Seite zu aufbereiteten Finanzdaten appeared first on The Motley Fool Deutschland.

Motley Fool Deutschland 2021

Dieser Artikel erschien zuerst auf The Motley Fool

Alle (0) Kommentare ansehen0

Aktuelle Kommentare

DAX

19.045,05

-75,33

-0,39%

DAX Futures

19.183,00

-83,0

-0,43%

US 500

5.718,70

-32,4

-0,56%

Dow Jones

42.352,75

+341,16

+0,81%

SMI

11.969,40

-31,13

-0,26%

Dollar Index

102,357

+0,082

+0,08%

Euro Index

129,72

-0,08

-0,06%

Beliebteste Artikel

Nachrichten

Analysen

Aktien Frankfurt Ausblick: Dax setzt Konsolidierung über 19.000 Punkte fort

Von dpa-AFX

07. Okt. 2024

Wirtschaftskalender: Fünf Dinge, die für Anleger diese Woche wichtig werden

Von Investing.co...

06. Okt. 2024

Cardano: Platzt die Blase jetzt endgültig?

Von Investing.co...

07. Okt. 2024

Mega-Rallye in China! Hedgefonds zittern: Margin Calls ohne Ende?

Von Investing.co...

05. Okt. 2024

Bitcoin-Wale zittern vor US-Wahlen: Kommt der Mega-Pump im November?

Von Investing.co...

06. Okt. 2024

Weitere Nachrichten

Market Movers

Name	Kurs	+/- %	Vol.
Deutsche Bank	15,880	+0,66%	1,92M
Bayer	29,27	-1,81%	869,27K
Siemens Energy AG	34,86	-1,39%	617,90K
SAP	200,225	-0,24%	141,79K
Siemens AG	181,96	-0,50%	139,97K
Rheinmetall AG	500,800	-3,69%	90,17K
Münchener Rück AG	474,15	-1,20%	69,64K

Name	Kurs	+/- %	Vol.
Jenoptik	28,520	+4,32%	122,69K
KSB Pref	610,00	+3,04%	341,00
Mutares SE & Co KgaA	24,85	+1,64%	23,89K
Atoss AG	127,400	+1,76%	1,27K
Commerzbank	16,720	+1,61%	1,21M
Dürr AG	22,800	+0,88%	34,29K
Sixt SE	67,000	+0,90%	29,13K

Name	Kurs	+/- %	Vol.
PVA Tepla AG	12,530	-6,77%	76,56K
ThyssenKrupp AG	3,268	-4,39%	958,05K
thyssenkrupp nucera	9,43	-4,17%	59,33K
Ceconomy	3,030	-4,36%	75,31K
Rheinmetall AG	500,800	-3,69%	90,17K
Hensoldt	29,30	-3,11%	38,33K
SAF Holland	15,200	-3,18%	36,54K

Trendaktien

Name	Kurs	+/- %	Vol.
Siemens Energy AG	34,84	-1,44%	615,05K
Rheinmetall AG	500,800	-3,69%	89,42K
Mercedes Benz Group	57,110	-0,37%	220,72K
Allianz SE	292,61	+0,28%	58,04K
BASF	47,800	-0,90%	301,05K

Installieren Sie unsere AppQR-Code scannen und sofort Zugang zu unserer App erhalten

Risikohinweis: Beim Handel mit Finanzinstrumenten und/oder Kryptowährungen bestehen erhebliche Risiken, die zum vollständigen oder teilweisen Verlust Ihres investierten Kapitals führen können. Die Kurse von Kryptowährungen unterliegen extremen Schwankungen und können durch externe Einflüsse wie finanzielle, regulatorische oder politische Ereignisse beeinflusst werden. Durch den Einsatz von Margin-Trading wird das finanzielle Risiko erhöht.
Vor Beginn des Handels mit Finanzinstrumenten und/oder Kryptowährungen ist es wichtig, die damit verbundenen Risiken vollständig zu verstehen. Es wird empfohlen, sich gegebenenfalls von einer unabhängigen und sachkundigen Person oder Institution beraten zu lassen.
Fusion Media weist darauf hin, dass die auf dieser Website bereitgestellten Kurse und Daten möglicherweise nicht in Echtzeit oder vollständig genau sind. Diese Informationen werden nicht unbedingt von Börsen, sondern von Market Makern zur Verfügung gestellt, was bedeutet, dass sie indikativ und nicht für Handelszwecke geeignet sein können. Fusion Media und andere Datenanbieter übernehmen daher keine Verantwortung für Handelsverluste, die durch die Verwendung dieser Daten entstehen können.
Die Nutzung, Speicherung, Vervielfältigung, Anzeige, Änderung, Übertragung oder Verbreitung der auf dieser Website enthaltenen Daten ohne vorherige schriftliche Zustimmung von Fusion Media und/oder des Datenproviders ist untersagt. Alle Rechte am geistigen Eigentum liegen bei den Anbietern und/oder der Börse, die die Daten auf dieser Website bereitstellen.
Fusion Media kann von Werbetreibenden auf der Website aufgrund Ihrer Interaktion mit Anzeigen oder Werbetreibenden vergütet werden.
Im Falle von Auslegungsunterschieden zwischen der englischen und der deutschen Version dieser Vereinbarung ist die englische Version maßgeblich.

Beliebte Suchbegriffe

Versuchen Sie es noch einmal mit einem anderen Suchbegriff

SimFin – Mit KI automatisiert von der IR-Seite zu aufbereiteten Finanzdaten

Aktuelle Kommentare

Trendaktien