Moin Christian,
On Mon, Sep 27, 2010 at 14:59:00 +0200, Christian Weerts wrote:
> ich habe hier eine HTML-Datei welche von einem prop. Programm erzeugt
> wurde. Der Code sieht äußerst merkwürdig aus - für mich kein HTML:
>
> <^@P^@ ^@a^@l^@i^@g^@n^@=^@c^@e^@n^@t^@e^@r^@>^@<^@S^@T^@R^@O^@N^@G^@>
Das sieht nach UTF-16 aus: <P align=center><STRONG>
> Öffne ich die Datei im VI erhalte ich das obige Bild. Mit gedit wird mir
> korrektes HTML angezeigt. Allerdings sind die Tags dort in Uppercase.
Interessant: mein vim macht das nun so auf - 7.3 aus unstable - und
erkennt fileencoding=utf-16le.
Das letzte Mal mußte ich sowas noch durch iconv jagen (iconv -f utf-16
-t latin1).
> Ich möchte die "HTML-Dateien" von allem unnützen befreien und nur reinen
> Text erhalten. Auf der Kommandozeile habe ich mir für reinen HTML-Code
> den folgenden kleinen Einzeiler zur Nutze gemacht:
> perl -p -i.bak -e 's/\<.+>//gi' 1.html
Hm, da sehe ich nun gar keinen Zusammenhang mit dem Problem. ;)
> Doch leider funktioniert es nicht mit dem obigen "Code". Auch wenn ich
> versuche nur die ^@ mit folgender Zeile zu löschen, klappt es nicht:
> perl -p -i.bak -e 's/\^@//gi' 1.html
perl -pe 's/\0//g' 1.html
tut's hier.
> Kann mir einer erklären, warum der Einzeiler das ^@ nicht löscht?
Mit (blauen) ^@ zeigt(e) vim Nullbytes an - ^@ ist da also gar nicht
drin...
Jürgen
-- "Yeah, Windows is great... I used it to download Linux." -- seen on /.Received on Mon Sep 27 2010 - 21:54:31 CEST
This archive was generated by hypermail 2.2.0 : Mon Sep 27 2010 - 21:54:34 CEST