Prog Tratamientos de documentos XML
Introducción
- XML viene de Extensible Markup Language.
- Podéis consultar la historia y uso del XML en este enlace.
- Uno de los usos del lenguaje XML es el intercambio de información entre sistemas heterogéneos.
- La información se transmite en formato texto (normalmente unicode) con una estructura en forma de etiquetas muy parecida a la conocida por todos, HTML.
- Veamos un ejemplo de fichero XML:
<?xml version="1.0" encoding="UTF-8" ?> <pedidos num_pedidos="1"> <pedido> <id>1</id> <productos> <producto> <codigo>221</codigo> <cantidad>10</cantidad> </producto> <producto> <codigo>231</codigo> <cantidad>10</cantidad> </producto> </productos> </pedido> </pedidos>
- Para que un documento cumpla el estándar XML tiene que cumplir las siguientes reglas:
- Debe de tener una cabecera donde se especifica la versión de XML que cumple el documento. También suele aparecer tipo de codificación, normalmente UTF-8 o ISO-8859-1.
- El documento debe estar estructurado en forma de etiquetas de apertura <etiqueta> y cierre </etiqueta>.
- Un documento debe de tener al menos una etiqueta de apertura y otra de cierre.
- Se pueden poner etiquetas que abran y cierren la etiqueta al mismo tiempo de la forma: <etiqueta />. Por ejemplo: <representante nombre="Angel" />
- El orden de las etiquetas es importante. Se deben cerrar en el orden inverso a como fueron abiertas.
- Se distingue mayúsculas y minúsculas en la apertura y cierre de etiquetas.
- Una etiqueta puede llevar uno o más atributos. Por ejemplo: <pedidos num_pedidos="10" fecha_pedido="10/01/2012">
- No puede haber atributos con el mismo nombre en la misma etiqueta.
- Todos los atributos deben ir entre comillas dobles.
- Se pueden añadir comentarios de la forma:
- Los nombres de las etiquetas y atributos no pueden tener espacios en blanco.
- Podéis validar cualquier documento/página XML en el siguiente enlace.
- En Java, cuando manejamos un documento XML o bien creamos uno nuevo, vamos a tener que recorrer / crear la estructura anterior.
- En Java cada elemento de esa estructura recibe un nombre. Así:
- Las etiquetas de apertura y cierre junto con su contenido se denomina Elements. En element puede tener otros 'element' en su contenido.
- Los atributos se denominan Attr y sólo pueden existir dentro de element, en la etiqueta de apertura.
- La información (el texto) que va entre las etiquetas de apertura y cierre se denomina Text.
- Los comentarios pueden ir en cualquier lugar del documento y se denominan Comment.
Java: Procesando archivos XML
-- Ángel D. Fernández González -- (2017).