XML
(eXetnsible Markup Language) entwickelt sich zu einem Standard zur
Repräsentation von Daten im Web. Dies vor allem weil:
· XML-Dokumenten sind leicht zu erstellen, lesen und
verstehen
· XML lässt sich im Internet auf einfache Weise
nutzen
· XML unterstützt ein breites Spektrum von
Anwendungen, etc.
XML stellt
Daten als Bäume dar. Baum-Knoten werden hierbei als Elemente bezeichnet und
sind ggf. durch Attribute annotiert. Auch Textelemente sind möglich. Durch Document
Type Definitions (DTDs) lässt sich die Struktur von XML-Dokumenten
beschreiben. Dieser Vortrag soll als Einführung in XML dienen.
Grundlegende
Konzepte des
Dokumenten-Markup
Eine Reise durch
die Zeit
XML als
Markup-Sprache
Anwendungen von XML
Separationskonzept
Grundlegend für Markup ist die Aufteilung eines
Dokuments in die drei Bestandteile Struktur (structure), Inhalt
(content) und Darstellung (representation).
·
Struktur
meint die Information aus welchen
Teilen ein Dokument besteht. Welche interne Struktur diese Teile selber haben,
welche dieser Teile unbedingt erforderlich und welche optional sind und wie oft
in welchen Reihenfolge diese Teile auftreten.
Eine Dokumentenstruktur kann man
festlegen, auch ohne gleichzeitig den Inhalt eines Dokuments anzugeben, was
dann ein Dokumentenmodell oder Inhalts-modell
genannt wird.
·
Inhalt
Einzelne Zeichen werden mit
geeigneten syntaktischen Hilfsmitteln zu Gruppen zusammengefasst, was in XML
den Elementen entspricht. Diesen Gruppen werden Namen und optional Attribute
zugewiesen. Ein rekursiver Aufbau, in dem Gruppen neben Zeichen auch Gruppen
enthalten können, ist möglich – somit tritt die Baumstruktur zu Tage.
Meistens wird auch eine Referenz
auf ein bestimmtes Dokumentenmodell angegeben. Somit kann neben dem korrekten
Einsatz der syntaktischen Hilfsmittel zur Gruppierung, auch das Einhalten der
Restriktionen des Dokumentenmodells geprüft werden.
·
Darstellung
Ist die physikalische Umsetzung
des (logischen) Dokuments, z.B. ausgedruckt auf einem Blatt oder dargestellt
auf einem Bildschirm. D.h. es geht um typographische Fragen wie etwa
Schriftgröße, linksbündig oder Blocksatz, Einbindung von Bildern usw.
Inhaltsmodelle (bzw. Dokumentenmodelle)
Zur Beschreibung einer Struktur eines Dokuments
werden zunächst elementare Teile, sogenannte Elemente, eines Dokuments
festgelegt. Diese Elemente bestehen aus Rohtext in einer bestimmten
Textcodierung, die zur Identifikation einen Namen erhalten. Es ist, in manchen
Systemen, auch möglich Restriktionen des Rohtexts meist nach Art von Datentypen
zu definieren, z.B. dass der Text ein bestimmtes Zahlen- oder Datenformat
einhalten muss.
Elemente können auch Attribute tragen, die wiederum
Zusatzinformationen angeben können, z.B. die Angabe der benutzten Währung bei
einer Preisangabe oder die gerade verwendete Fremdsprache eines Textausdrucks.
Inhaltsmodelle können Standartwerte von Attributen
festlegen, Datentypen und deren Vererbungsstrukturen definieren und vieles
mehr. Die Interpretation der Elemente eines Dokuments, aufgrund ihres Namens
und der Attribute, erfolgt außerhalb des Inhaltsmodells.
Erweiterbarkeit und Semantik
Markup Dokumente erhalten die jeweilige Anpassung an
ihren spezifischen Zweck einerseits durch das Inhaltsmodell (und der dort
stattfindenden Wahl der Namen möglicher Elemente und Attribute) und
andererseits durch die Art in der die verarbeitende Anwendung diese Elemente
behandelt.
Nun wurden Darstellungssprachen entwickelt um diese
spezifischen Details der Anwendungsbedeutung nicht wieder auf
unterschiedlichster Weise in die Programmlogik der Anwendung einprogrammieren
zu müssen. Diese Darstellungssprachen sind ebenfalls Markup-Sprachen mit
Elementen und Attributen, so z.B. HTML4.0 (Hypertext markup
language) eine Markup-Sprache für einfachere Bedienerschnittstellen,
beispielsweise Browser [wobei HTML, Inhalt und Darstellung im gleichen Zug
behandelt]; WML (Wireless markup language) und HDML (Handheld
device markup language) eine Markup-Sprache zur Steuerung
des Aussehens mobiler Kleingeräte und Handys; VoxML (Voice markup
language) welche Sprachausgabesysteme dirigiert und XSL:FO (Extensible
stylesheet language formatting objects) die eine
Seitenbeschreibungssprache ist, ähnlich wie Cascading Style Sheets (CSS), aber
viel mächtiger – auch da CSS nur an HTML gebunden ist. Sie wird als der
Nachfolger von XSLT gehandelt, aber leider war es bisher noch nicht möglich sie
vollständig zu implementieren. Es gibt zwar schon Prozessoren die im
Zusammenhang mit XSLT Umformungen vornehmen, aber reine XSL:FO
Browser-Prozessoren gibt es noch nicht. Somit kommen wir nun zum 2. Konzept des
Dokumenten-Markup, dem Transformationskonzept.
Transformationskonzept
Es existieren für die jeweiligen Zielmedien
Markupbasierte Darstellungssprachen und Darstellungsprogramme, die von den
Inhalten der darzustellenden Dokumente nichts wissen. Für die jeweiligen
Inhalte werden Markupbasierte Inhaltsmodelle verwendet, die wiederum von den
Zielmedien und Darstellungen nichts wissen.
Ein Stylesheet ist somit eine Beschreibung
wie die Markup-Sprache des Dokuments in die Markup-Sprache der Darstellung
umgewandelt wird.
Kritik
Wichtigster Kritikpunkt am
Markup-Ansatz ist die Tatsache, dass die Trennung von Inhalt und Darstellung
nicht immer gelingt. Z.B. Umformulierungen im Text, die ein Autor vornimmt,
damit die letzte Seite eines Kapitels nicht gerade nur aus 3 Wörtern besteht.
Oder z.B. die syntaktisch korrekte Trennung von „Anal-phabet“ würde
möglicherweise falsche Assoziationen wecken, wenn diese Trennung am Anfang
eines Satzes steht und der Trennstrich mit einem Seitenumbruch zusammenfällt,
somit würde die semantisch korrekte Einordnung des Teils „Anal-“ erst nach dem
Umblättern gelingen.
Dieser Kritik kann insoweit
entgegnet werden als dass das Resultat in der Darstel-lungssprache
nachbearbeitet werden kann, oder dass eine kleine Qualitätseinbuße bei der
Darstellung in Kauf genommen wird und somit die Bearbeitungskosten des
Dokuments gesenkt werden können.
Vorteile
Die Erstellung von Inhalt und
Darstellung kann voneinander getrennt werden. D.h. Autoren als
Inhaltsspezialisten produzieren Inhalt und Fachleute für Typographie, wie z.B.
Grafiker, widmen sich den Fragen des Layouts und der graphischen Darstellung.
Darüber hinaus können Inhalte und
Transformationsvorschriften unabhängig voneinander wiederverwendet werden. Also
derselbe Inhalt kann als gebundener Fahrplan, als Tabelle der Abfahrtszeiten
eines bestimmten Bahnhofs, also Information für einen Web-Browser oder für ein
Mobiltelefon formatiert werden. Ein Stylesheet kann z.B. als Formatvorlage für
alle Zeitschriftenartikel eines Verlags dienen.
Ebenso können Inhalt und
Darstellung getrennt voneinander gewartet werden, was in meinen Augen eine der
wichtigsten Vorzüge ist.
Spezifischer vs. Generischer Markup
Dokumenten Markup ist der Anfüge-Prozess bestimmter
Kodierungen zu einem Dokument, um dessen Struktur oder dessen Format
identifizierbar zu machen. Es ist eine Form der Kommunikation die schon seit
vielen Jahren existiert. Noch bevor die Computerisierung im Buchdruck Einzug
erhielt, haben Autoren „Markup“ schon benutzt und zwar dann, wenn sie ihren
Schriftsetzern bestimmte layouttechnische Vorgaben machten, die jene einhalten
sollten. Über die Zeit hat sich ein bestimmter Standard-Zeichensatz von
Symbolen heraus-kristallisiert, der von nun an benutzt wurde um mit
Schriftsetzern zu kommunizieren. Als nun die Computerisierung aufkam wurden
sogenannte Textformatierungs-Sprachen geschrieben. Somit musste von nun an ein
Schriftsetzer, das mitgelieferte Markup des Autors in das Markup des
vorhandenen Textformatierungs-Programms konvertieren um letzten Endes ein
fertiges Dokument zu erhalten. Als nun Computer Überall im Einsatz waren,
begannen die Autoren selbst schon Computer-Software zu nutzen um ihre Texte zu
schreiben. Da aber jedes Textformatierungs-Programm jeweils seine eigene
Markup-Methode besaß, begannen die Probleme. Manches Markup war dem Benutzer
sichtbar, anderes Widerrum versteckt, manches wurde von dem Benutzer selbst
erstellt und anderes Widerrum automatisch generiert, manchmal wurde ein
Dokument in Alphanumerischen-Code gespeichert und ein anderes Mal in
Binär-Code. Wie gut auch solche Textverarbeitenden Programme waren, es gab
immer ein Problem, wenn man von einem Programm zu einem anderen oder sogar zu
einer neueren Generation von Computer und Software wechseln wollte. Manchmal
übernahm das Update des jeweiligen Programms die Änderungen im Dokument um es
auf die neue Version anzupassen, aber manchmal war es sogar so, dass ein Autor
bzw. Benutzer das ganze Dokument wieder neu schreiben musste.
Somit entstanden zwei Kategorien von Dokumenten
Markup, der Spezifische Markup und der Generische Markup. Der Spezifische
Markup benutzt Befehle, die spezifisch zur gerade benutzten Software sind.
Somit ist eine Trennung von Struktur und Darstellung zwar da, aber die
Formatierung wird letztendlich an speziell diesem Text und diesem Programm
vorgenommen. Somit hat der Autor den Vorteil, dass er gleich sehen kann wie
sein Werk aussehen könnte, dadurch würden sich aber höchstwahrscheinlich
Probleme beim Verleger ergeben, wenn dieser den Text zu Konvertieren versucht.
Der Generische Markup hingegen, beschreibt die
Struktur eines Dokuments. Zum Beispiel würde der Spezifische Markup eine
Markierung beinhalten, die er als Überschrift definiert und als „zentriert“ und
„fett“ darstellt, wobei mit Hilfe des Generischen Markup eine Überschrift der
ersten Stufe, einfach mit „head1“ markiert werden würde. Es werden also
sogenannte Makros erstellt. Wenn der Verleger zum Beispiel die Schriftgröße
aller Kapitelüberschriften ändern möchte, reicht es das jeweilige Makro zu
verändern und nicht jede einzelne Kapitelüberschrift. Somit ist das Layout
eines Dokuments total unabhängig von dessen Inhalt und Struktur, genauso wie
bei Textverarbeitungsprogrammen die StyleSheets verwenden, da jene rein nur die
Darstellung eines Dokuments beschreiben.
![]()
GML
Im Jahre 1967 bei einem Treffen des „Canadian Government Printing Office“ verbreitete William Tunnicliffe den Vorschlag, die Separation von Informationsinhalten eines Dokuments und deren Format anzustreben. Ende der 60er Jahre forderte der New Yorker Buchdesigner, Stanley Rice, eine Sammlung von parametrisierten redaktionellen Strukturierungstags für Pressegestaltungen. Daraufhin unterstützte die GCA (Graphic Communications Association) Workshops, Seminare und Komitees um dieses Konzept auszuarbeiten. Aus diesen Bemühungen und Arbeiten entstand das GCA GenCode (Generic Coding) Committee, deren Markup Programmier-Ansatz ein Generisches Kodieren zugrunde lag. In 1969 als Charles Goldfarb ein IBM-Forschungs-Projekt betreute, erfand er zusammen mit Edward Mosher und Raymond Lorie die Generalized Markup Language (GML), die auf den Ideen von Tunnicliffe und Rice basierte. 1970 schlug Charles Goldfarb folgende Prämissen für die GML-Sprache vor: erstens sollte Markup vielmehr die Struktur eines Dokuments beschreiben als ihren physischen Charakter, und zweitens sollte Markup streng und rigoros sein, so dass es von einem Programm oder Menschen ohne Zweifel interpretiert werden kann.
1978 wurde eine ANSI-Arbeitsgruppe (American National
Standard Institute), vom GenCode Committee unterstützt und später von Charles
Goldfarb geleitet, beauftragt ein zweifelfreies und allgemeines Format für den
Austausch von Texten zu entwickeln, und darüber hinaus eine Markup Sprache zur
Verfügung zu stellen, die flexibel genug war mögliche Änderungen der Zukunft zu
verkraften. Ihre Arbeit basierte auf der schon vorhandenen Sprache GML. Eines
der Konzepte zu welchen sie sich entschieden haben ist zum Beispiel eine
Überschrift als <title> zu markieren, anstatt sie durch <fett> und
<mittig> zu kennzeichnen. Somit konnte die Suche in Datenbanken darauf
limitiert werden nur nach Überschriften zu suchen. Dadurch wird auch schon der
Generische Ansatz sichtbar. Das war der Beginn von SGML.
SGML
Im Jahre 1980 stellt das ANSI-Committee den ersten Entwurf
von SGML (Standard Generalized Markup Language) vor. Nur 3 Jahre später wurde
schon der 6-te Entwurf freigegeben, der mittlerweile schon vom
Verteidigungs-Ministerium der USA genutzt wird. 1984 wird die
SGML-Arbeitsgruppe reorganisiert wobei Goldfarb als Technischer Direktor
fungiert. Ein Jahr später wird ein Entwurf zum internationalen Standard
veröffentlicht und die Internationale SGML-Users´ Group wird in
Groß-Britannien, mit Joan Smith als erster Präsidentin, gegründet. Zusammen mit
der GCA in Nord Amerika spielt die SGML-Users´ Group eine entscheidende Rolle
in der Verbreitung der SGML-Sprache und dem Austausch zwischen Benutzern und
Entwicklern. Schließlich wird im Jahre 1986 SGML als ISO-International-Standard
8879 genehmigt. Ergebnis war nun der Gewinn einer vollständigen Hardware- und
Softwareunabhängigkeit, und darüber hinaus die Möglichkeit der Publikation von
Daten auf unterschiedlichen Medien.
Zwei wichtige Projekte, die mittels SGML zu dieser Zeit
betreut wurden, waren das „Electronic Manuscript Projekt“ und das
„Computer-Aided Acquisition and Logistic Support“ (CALS). Das erste Projekt
wurde, zwischen 1983 und 1987, vom AAP (Association Of American Publishers)
Committee entwickelt. Es war eine SGML-Anwendung um Bücher, Zeitschriften und
Artikel zu entwerfen. Durch diese Anwendung erhoffte man sich, dass Autoren und
Verleger besser und leichter miteinander kommunizieren könnten. Das
CALS-Projekt wurde im Februar 1987 initiiert und war eine Art Datenbank für das
US-Verteidigungsministerium, der SGML als Standard-Datenformat diente.
Somit bedeutet SGML für die Produktion elektronischer Texte
eine leichte Erfassung und Pflege von Dokumenten (z.B. Vorschriften). Weiterhin
ließen sich mittels SGML folgende Punkte (fast) mühelos realisieren: eine
datenbanktechnische Verwaltung komplexer Dokumentstrukturen, die Integration
von datenbankgestütztem Publizieren (Workgroup Computing), die Automation von
Arbeitsabläufen (Workflow), der Zugang zu einer zentralen
Datenbasis für alle Benutzer bzw. Mitarbeiter, die Suche nach Inhalten und
Strukturen komfortabler gestalten und flexiblere
Abfrage- und Auswertungsmöglichkeiten erreichen.
Zitat:
„SGML ist der Standard zur Beschreibung von Dokumenten festgelegt von der International Standardization Organization (ISO), der unter der Nummer ISO 8879, im Jahre 1986, veröffentlicht wurde. Das Ziel und die Idee dieses Standards ist es, die Struktur des Inhalts eines Dokuments von seiner layoutorientierten Erscheinungsform zu trennen. Damit wird der Schwerpunkt bei der Formatierung von Dokumenten weg vom typografischen Layout hin zu logischen und strukturellen Auszeichnung eines Dokuments verlegt. Wichtig daran zu bemerken ist, dass dies eine Sprache zur Beschreibung beliebiger Dokumente mit unterschiedlichsten Strukturen ist. Genauer gesagt ist SGML nicht eine Sprache zur Auszeichnung von Dokumenten sondern eine Meta-Sprache zur Beschreibung von Auszeichnungs- oder Markup-Sprachen für diese Dokumente. Der Gewinn dieser im Gegensatz zum Layouten unterschiedlicher Vorgehensweise ergibt zwei hauptsächliche Vorteile, einmal eine vollständige Hardeware- und Softwareunabhängigkeit und zweitens die Publikation von Daten auf unterschiedlichen Medien. Aufgrund ihres Meta-Charakters ist SGML also nicht nur einfach eine Sprache sondern eine Strategie.“
Dadurch hat SGML Bücher auf den Bildschirm
geholt, sogenannte Hypertexte. Die bekannteste Anwendung von SGML ist HTML.
Damit bildet SGML einen Grundpfeiler des World Wide Web (WWW).
HTML
Im März 1989 begann am europäischen
Großforschungszentrum CERN bei Genf eine kleine Gruppe von Programmierern die
ersten Ideen für das WWW konkret auszuarbeiten. Tim Berners-Lee stellte damals
in einem Vorschlag die wesentlichen Elemente für eine grafische Bedienung des
Internets vor. „Der Benutzer sollte sich selbst durch die Informationen hangeln
können, wobei er von Grafiken und Texten unterstützt werden sollte.“ Dieses
Prinzip wurde als „Hypertext“ bezeichnet. Sogleich wurde 1990 der erste
Browser, der aber erst mal nur auf NEXTStep-Rechnern von Steven Jobs lief,
programmiert. Am 17. Mai 1991 dann, wurde das WWW-System offiziell am CERN
eingeführt. Bisher waren nur die Großrechner am CERN miteinander verbunden, es
folgte jedoch eine explosionsartige Entwicklung. Weltweit schossen an Universitäten
Webserver aus dem Boden. Im Februar 1993 wurde der erste PC-Browser für PCs
vorgestellt. Sein Entwickler war Marc Andreesen und er nannte das kleine
Programm „Mosaic“. Seiner Zeit stellte Marc Andreesen den Mosaic-Browser frei
im Internet zur Verfügung, inklusive Sourcecode. Somit basieren heute alle
gebräuchlichen Browser auf dem Programmcode von Andreesen´s Mosaic. Gegen Ende
1993 wurde HTML (Hypertext Markup Language) 1.0 spezifiziert und es gab
weltweit schon 200 Webserver. Mosaic war mittlerweile für verschiedene
Computer-Plattformen verfügbar. 1994 war ein rasantes Entwicklungsjahr: 800
Programmierer nahmen an der ersten internationalen WWW-Konferenz am CERN teil,
Mitte des Jahres war die Anzahl der weltweiten Webserver schon auf 1500 gestiegen,
vom CERN und dem amerikanischen Forschungsinstitut MIT (Massachusetts Institute
Of Technology) wird die W3-Organisation gegründet. Im Juni wird HTML 2.0
spezifiziert und im Herbst erscheint die erste Fassung von Netscape Navigator -
dessen Code teilweise auf dem Mosaic-Programm basiert. Im Jahre 1995 wird HTML
3.0 Standard im WWW, somit ist HTML 2.0 schon veraltet. Ende 1995 erscheint
Netscape in der Version 2 und etwa 85% aller Internet-Surfer benutzen diesen
Browser. Zu dieser Zeit veröffentlich SUN-Microsystems erste Details zu einer
neuen Programmiersprache für das WWW: Java. Mit dieser neuen Sprache, die sich
sehr von HTML unterscheidet, sollen ganze Computerprogramme aus dem Internet
abrufbar sein. Mitte 1996 kommt es zu einer weiteren Revision von HTML, die
Version 3.2 wird veröffentlicht und im Frühjahr 1997 als Standard angenommen.
Mittlerweile wurde Tim Berners-Lee Direktor des W3-Konsoritums. Ein Jahr
später, 1998 erscheint eine neue, verbesserte Version von HTML in der Version
HTML 4.0 – hinzugekommen sind die Cascading Style Sheets (CSS). 1999 erscheint
der Internet Explorer 5.0, während Netscape Navigator immer noch in der Version
4.5 vorliegt. In Deutschland existieren 500.000 Domains mit der Endung „.de“
und nach Angaben der DENIC sollen allein in Deutschland über 1,6 Millionen
Rechner an das Internet angeschlossen sein, in ganz Europa über 8,7 Millionen.
![]()
10 Jahre nach der SGML Standard Genehmigung (1996) begann
das W3-Konsortium an der Extensible Markup Language (XML) zu arbeiten. Die
Absicht war nicht SGML zu ersetzen, sondern es zu erweitern bzw. es zu
vereinfachen. Im Herbst 1997 erscheint der Internet Explorer 4 und unterstützt
begrenzt XML; schon im Frühjahr 1998 wird XML 1.0 zum offiziellen Standard des
W3-Konsortiums, mit Tim Bray als Chefentwickler. Ein Jahr später, 1999,
erscheint Internet Explorer 5 und unterstützt voll das standardisierte XML.
Netscape hinkt leider noch hinterher, will aber ebenfalls mit der Version 5,
XML voll unterstützen. Eine Vorversion ist Netscape GECKO (also Netscape 6).
Zitat:
„SGML ist ein erster,
älterer Standard für Dokumenten-Markup, XML eine aktuellere und einfachere
Variante davon. Das „X“ steht für „extended“, also für
erweiterbar, und macht deutlich, dass XML eine Markup-Sprache ist.“
XML ist ein Anwendungsprofil, eine Auszeichnungssprache,
eine eingeschränkte Form bzw. eine Variante von SGML. SGML ist einfach zu
komplex, die Idee war XML einfacher und überschaulicher als SGML zu machen und
somit SGML weiter zu entwickeln.
XML ist ähnlich zu HTML, nur mit dem Unterschied, dass XML eine Meta-Auszeichnungs-sprache ist; d.h. benötigte Tags können nach Bedarf frei definiert werden. Somit wird HTML zu einem Derivat von XML. XML beschreibt jedoch nur Struktur und Semantik, keine Formatierung im Gegensatz zu HTML. Die Formatierung kann von einem Dokument in einem Stylesheet beigefügt werden (XSLT, XSL:FO, usw.). XML hat baumartig strukturierte Daten, was einen effizienten Datenaustausch ermöglicht und mehr Übersicht mit sich bringt.
Zitat:
„Das Ziel von XML ist es, die
Akzeptanz und Nutzbarkeit der SGML-Idee zu verbessern und seine Anwendbarkeit
in der Form auf das Web zu übertragen, in der es jetzt mit HTML möglich ist.
Die erklärte Absicht war nicht, SGML zu ersetzen, aber es zu erweitern.
XML wurde entwickelt für eine
einfache Verwendung und Interoperabilität sowohl mit SGML als auch mit HTML.“ (Brian E.
Travis)
Da XML eine Untermenge von SGML ist erlaubt es somit die Definition von Dokumenttypen durch DTDs, weiterhin erlaubt es die Definition von Präsentationsregeln in der Extended Syle Sheet Language (XSL). Dadurch können sich XML-Dokumente auf vorgegebene, standardisierte DTDs beziehen, können eigene DTDs verwenden und können mit XSL anwendungsspezifische Regeln für die Darstellung definieren.
Elemente in XML
XML-Elemente beginnen mit einem sogenannten Start-Tag
und reichen bis zu dem zugehörigen End-Tag. Beide Tags bestehen
syntaktisch aus einer sich öffnenden Spitzklammer, einem Namen und einer sich
schließenden Spitzklammer. Das End-Tag zeichnet sich durch einen zusätzlichen
Schrägstrich vor dem Elementnamen aus. Zischen dem Start-Tag und dem End-Tag
können weitere Informationen stehen, die aus Text oder aus Elementen oder aus
beidem (sog. gemischter Inhalt) bestehen dürfen. Für leere Elemente, die also
keinen weiteren Inhalt haben, gibt es eine syntaktische Abkürzung, bei der
Start- und End-Tag zu einem leeren Tag zusammengefasst werden, bei dem ein
Schrägstrich hinter den Elementnamen gesetzt wird.
Attribute in XML
Elemente können Attribute tragen. Diese sind Paare
von Attributnamen und Attributwerten, die in der Form Name=“Wert“ hinter dem Namen in den
Start-Tags bzw. den leeren Tags geschrieben werden. Die Anführungszeichen beim
Wert sind erforderlich. Jedes Element darf zu einem Attributnamen höchstens
einen Wert aufweisen, mehrwertige Attribute sind also nicht gestattet.
Dokumentenmodelle in XML
XML selber besitzt keinen Mechanismus zur Spezifikation
von Dokumentmodellen. Als erste XML-Erweiterung mit diesem Ziel wurde DTD
(Document template definition) entwickelt. Es gestattet die Definition von
Elementtypen. Die vielen Nachteile von DTD (Syntax folgt nicht der XML-Syntax,
keine Definitionen von Datentypen, daher auch keine Vererbung, usw.) und die
hohe Bedeutung von Inhaltsmodellen haben zur Entwicklung etlicher
Spezifikationssprachen in XML-Syntax geführt. Die bekanntesten davon sind DCD
(Document content description), XDR (XML data reduced) und XSD (XML schema
definition). XML-Schema (XSD) gilt als der bedeutendste Ansatz und dürfte sich
schließlich durchsetzen. Bei der Beurteilung allerdings sollte man generell die
Jugend von XML beachten, da die meisten Standards zur Zeit noch in Bearbeitung
sind.
![]()
·
XML kann zur Darstellung und Strukturierung von
Informationen eingesetzt werden.
·
XML kann als plattformunabhängiges Austauschformat zwischen
Anwendungen und Systemkomponenten eingesetzt werden.
·
XML kann als generische syntaktische Struktur mit
einheitlicher Parse-Technologie und als generische Dokumentensprache eingesetzt
werden.
·
XML ist eine neue Form on Web-Sprachen
Fazit:
Da XML derzeit als
aktuelles „Buzzword“ der Informatik gilt, ist der Markt der entstehenden
Anwendungstypen nur sehr schwer zu überblicken. Fest steht aber, dass XML etwas
Ordnung in den Wildwuchs von Formaten bringen wird.
![]()
XML – Das
Einsteigerseminar von
Michael Seeboerger-Weichselbaum
XML –
fürs World Wide Web von
Elizabeth Castro
Die Bibel
XML Bibel von
Elliotte Rusty Harold
Java XML
Programmierung professionell von Alexander
Nakhimovsky und Tom Myers
Java an
XML von
Brett McLaughlin
Die
Geschichte des Internet von
Katie Hafner & Matthew Lyon
Client
Server Computing (Ausgabe
NR.2/2001)
Im
Internet folgende URLs: