Re: Merkwürdige HTML-Ausgabe

From: Jürgen E. Fischer <fischer_at_linux-buechse.de>
Date: Mon, 27 Sep 2010 21:54:31 +0200

Moin Christian,

On Mon, Sep 27, 2010 at 14:59:00 +0200, Christian Weerts wrote:
> ich habe hier eine HTML-Datei welche von einem prop. Programm erzeugt
> wurde. Der Code sieht äußerst merkwürdig aus - für mich kein HTML:
>
> <^@P^@ ^@a^@l^@i^@g^@n^@=^@c^@e^@n^@t^@e^@r^@>^@<^@S^@T^@R^@O^@N^@G^@>

Das sieht nach UTF-16 aus: <P align=center><STRONG>

> Öffne ich die Datei im VI erhalte ich das obige Bild. Mit gedit wird mir
> korrektes HTML angezeigt. Allerdings sind die Tags dort in Uppercase.

Interessant: mein vim macht das nun so auf - 7.3 aus unstable - und
erkennt fileencoding=utf-16le.

Das letzte Mal mußte ich sowas noch durch iconv jagen (iconv -f utf-16
-t latin1).

> Ich möchte die "HTML-Dateien" von allem unnützen befreien und nur reinen
> Text erhalten. Auf der Kommandozeile habe ich mir für reinen HTML-Code
> den folgenden kleinen Einzeiler zur Nutze gemacht:
 
> perl -p -i.bak -e 's/\<.+>//gi' 1.html

Hm, da sehe ich nun gar keinen Zusammenhang mit dem Problem. ;)

> Doch leider funktioniert es nicht mit dem obigen "Code". Auch wenn ich
> versuche nur die ^@ mit folgender Zeile zu löschen, klappt es nicht:
 
> perl -p -i.bak -e 's/\^@//gi' 1.html

perl -pe 's/\0//g' 1.html

tut's hier.

> Kann mir einer erklären, warum der Einzeiler das ^@ nicht löscht?

Mit (blauen) ^@ zeigt(e) vim Nullbytes an - ^@ ist da also gar nicht
drin...

Jürgen

 

-- 
"Yeah, Windows is great... I used it to download Linux."
  -- seen on /.
Received on Mon Sep 27 2010 - 21:54:31 CEST

This archive was generated by hypermail 2.2.0 : Mon Sep 27 2010 - 21:54:34 CEST