HTML parsen

VitaminB · Apr 25, 2006

(Das ganze soll auf Java 1.4.2 funktionieren)

Hallo,

ich habe ein Problem ein HTML Dokument zu parsen. Leider finde ich
meinen Fehler nicht.
Ich möchte in beliebigen Seiten alle URL's einer Frameset suchen und
jeweils in einen String legen um diese dann später einzeln aufzurufen.
Leider erhalte ich (hier: bei der Ausgabe der ersten URL) eine
NullPointer Exception.

Vielen Dank für jede Hilfe!

Gruß,
Marcus

##################
Java Code:
##################

URL urlobj = new URL(str);

HttpURLConnection uc = null;
uc = (HttpURLConnection)urlobj.openConnection();
uc.setUseCaches(false);
DataInputStream is = new DataInputStream(uc.getInputStream());

HTMLEditorKit hKit = new HTMLEditorKit();
HTMLDocument hDoc = new HTMLDocument();
hKit.read(is, hDoc, 0);
HTMLDocument.Iterator it = hDoc.getIterator(HTML.Tag.FRAME);

AttributeSet attSet = it.getAttributes();
String s = (String)attSet.getAttribute(HTML.Attribute.SRC);
System.out.println(s);

##################
Beispiel HTML-Seite:
##################

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Frameset//EN">
<html>
<head>

<script language="JavaScript" type="text/javascript">

</script>
</head>

<frameset cols="45%,55%">

<frame
src="/Test/HET/PerformanceTestDB.nsf/ContentDeliveryMeasurement?OpenForm">

<frameset rows="1*,1*">

<frame src="/Test/HET/PerformanceTestDB.nsf/DocsInserted?OpenView">

<frame name="docPreviewFrame"
src="/Test/HET/PerformanceTestDB.nsf/select?OpenForm">
</frameset>
</frameset>
</html>

Timo Stamm · Apr 25, 2006

VitaminB said:
Hallo,

Try *de*.comp.lang.java. Or better yet, google for "spider" and "java",
there are plenty solutions.

Timo

NullPointer Exception - getAttribute	1	Apr 26, 2006
Notes/Domino HTML parsen	3	Apr 26, 2006
parse HTML	4	Apr 25, 2006
XLS in HTML	0	Jan 15, 2004

HTML parsen

VitaminB

Timo Stamm

Ask a Question

Similar Threads

Members online

Forum statistics

Latest Threads