Duell der Datenbanken: In einem Shootout messen sich MySQL und PostgreSQL. Der Schwerpunkt vom ADMIN 06/2011 überprüft, wer schneller ist und gibt einen ... (mehr)

Webverarbeitung

Um mit Webseiten umzugehen, bringt Python einige nützliche Module mit. So sind dank der »urllib« nur wenige Zeilen nötig, um eine Webseite oder eine im Web gespeicherte Datei herunterzuladen.

import urllib
url = "http://www.spiegel.de"
u = urllib.urlopen(url)
data = u.read()

Die Methode »urlretrieve()« speichert Webseiten als Datei. Um beispielsweise den User-Agent-String selbst zu setzen, leitet man die eigene Klasse vom »FancyURLopener« ab und setzt in ihr die Klassenvariable »version« auf den gewünschten Wert. Wer ein großes Webmining-Projekt plant, sollte daran denken, den Inhalt der Datei »robots.txt« zu respektieren und ein gewisses Maß an Vernunft walten zu lassen. Einen relativ robusten Parser für das oft nicht korrekte HTML findet man in Beautiful Soup [5] .

Ausblick

Eine Vorstellung der praktischen Python-Module lässt sich noch endlos fortsetzen, eine Liste findet sich unter [6] . Gerade zur Systemverwaltung gibt es schon eine Reihe Pakete, die bereits auf Linux-Distributionen installiert sind, etwa »python-fstab« , »python-cups« oder »python-xdg« . Wer daran interessiert ist, sollte einfach mal die Liste der installierten Pakete durchsehen. Das ADMIN-Magazin wird nützliche Module im Rahmen dieser Python-Reihe regelmäßig vorstellen, etwa für LDAP, Logdateien, Virtualisierung und vieles mehr. (ofr)

Ähnliche Artikel

comments powered by Disqus
Mehr zum Thema

Python 3.2 wird zukunftssicher

Die neue Python-Version 3.2 bringt einige neue Features, fixt Problem mit String-Encoding und konzentriert sich sonst auf Stabilität.

Einmal pro Woche aktuelle News, kostenlose Artikel und nützliche ADMIN-Tipps.
Ich habe die Datenschutzerklärung gelesen und bin einverstanden.

Konfigurationsmanagement

Ich konfiguriere meine Server

  • von Hand
  • mit eigenen Skripts
  • mit Puppet
  • mit Ansible
  • mit Saltstack
  • mit Chef
  • mit CFengine
  • mit dem Nix-System
  • mit Containern
  • mit anderer Konfigurationsmanagement-Software

Ausgabe /2023