IRIS 2016 Openlaws Hackathon Beitrag Weblaw AG, Bern (www

IRIS 2016 Openlaws Hackathon
Beitrag Weblaw AG, Bern (www.weblaw.ch
1. Auswertung von Entscheidtexten (Schweizerisches Bundesgericht).
Alle Entscheide des Schweizerischen Bundesgerichts (ab 1928), ergänzt um
Metainformationen, d.h. Rechtsgebiete, erkannte Normen- und Deskriptoren und weitere jur.
Referenzen.
Motivation:
Ganz im Sinne der IRIS 2016 sollten Verbindungen und Muster in einem mittelgrossen
Datenbestand gefunden werden. Der Wert von Daten liegt nicht nur in den Metadaten und im
Volltext, sondern auch in expliziten oder impliziten Beziehungen zwischen einzelnen
Datensätzen. Wir bieten einen umfassend analysierten, annotierten und verschlagworteten
Datenbestand zum Spielen an.
Aufgabenstellung:
Ausgehend von einer Datenmenge in einem XML-Format sollen folgende und ähnliche
Fragen beantwortet werden
-
-
Welches sind in die Leading Cases in einem bestimmten Rechtsgebiet?
Automatische Zuordnung von anderen Texten in die bestehenden Rechtsgebiete
(Beispiel: zusätzliche Entscheide ohne Information, welchem Rechtsgebiet diese
zugehörig sind - Versuch, diese Entscheide den korrekten Rechtsgebieten
zuzuordnen).
Leading Cases in Bezug auf bestimmte Rechtsfragen bzw. einfacher: auf bestimmte
Gesetzesartikel?
Hinweise:
- die Datenbasis umfasst alle Entscheide des Schweizerischen Bundesgerichts ab
1928, als einzelne XML Files. Diese files beinhalten sowohl Metadaten (Descriptoren,
Referenzen, Therauswerte) wie auch annotierte Volltexte.
- ein mögliches Vorgehen ist das Erstellen eines Graphen und dann die Erstellung von
entsprechenden Reports.
2. Generierung von Verzeichnissen (als Beispiel hier: Abkürzungsverzeichnis, weitere
Möglichkeiten: Zeitschriftenverzeichnis, Literaturverzeichns)
Motivation:
Das Erstellen eines Abkürzungsverzeichnisses gehört sicher nicht zu den beliebtesten und
intellektuell herausfordendsten Aufgaben in der täglichen wissenschaftlichen Arbeit.
Wie könnte eine Toolunterstützung und eine mögliche Datenbank aussehen, welche eine
solche Arbeit mindestens teilweise automatisieren kann. Damit ein bisschen mehr Zeit für
Rechtschreibeprüfung bleibt. Oder so.
2.1. Abkürzungsverzeichns
Ziel: Zentrales Abkürzungsverzeichnis, länderübergreifend, mehrsprachig, kategorisiert ->
Positivliste, die weiter gepflegt und ausgebaut werden kann. Möglichkeit, Kategorien
hinzuzufügen (Tagging. Beispiel: Abkürzungen Gesetzgebung, Rechtsprechung, DE, AT,
CH, Bund, Länder oder Kantone, generische Abkürzungen, Publikationsspezifische
Abkürzungen (Beispiel IRIS-Tagungsband) etc.).
Vorgehen: bestehende Verzeichnisse suchen (RIS? CH:
https://www.bk.admin.ch/themen/sprachen/00083/00561/index.html?lang=de, sehr langes
PDF File - maschinenlesbare version?, DE: Erlasse sowie
Übersetzungenhttps://www.gesetze-im-internet.de/Teilliste_translations.html).
Eingabetool?
Zweiter Ansatz, schwieriger: Aus normalen Texten Abkürzungen und die
Abkürzungserklärungstexte (Volltext zu einer Abkürzung) automatisiert finden und
extrahieren.
Ziel bei beiden Ansätzen: mit einer Positivliste unstrukturierte Texte auswerten können.
Möglichkeiten zur semiautomatischen Unterstützung.
2.2. Analog dazu Zeitschriftenverzeichnis
Automatisches Erkennen von Zeitschriftenzitaten in Texten.
3. Erstellen von Epubs oder PDFs aus html Texten
Grundlage können Texte aus der Datenbank von Weblaw (Entscheide des Bundesgerichts)
oder auch von Openlaws sein.
Idee: Selektion von Texten, die zu einem Dokument zusammengefügt werden sollen,
allenfalls Anpassung der Reihenfolge, Definition eines Titelblattes und Publikation als Epub
oder PDF