Archiwa tagu: java

JSoup mini-tutorial – parsowanie HTML w środowisku java

Wstęp

Biblioteka JSoup pozwala w sposób szybki i przyjemny przeparsować dokument HTML i wyciągnąć z niego interesujące nas dane. Używając gotowego parsera (zamiast na przykład wyrażeń regularnych) oszczędzimy sporo czasu i nerwów, a przede wszystkim umożliwimy samym sobie stworzenie czytelniejszego rozwiązania.

JSoup umożliwia zarówno klasyczne przechodzenie po drzewie (children <> parent), jak i wyszukiwanie węzłów po:

  • html’owym id
  • dowolnych atrybutach
  • html’owym class
  • html’owym tagu (czyli nazwie znacznika)
  • selektorze css (tak, jak w arkuszu styli / jQuery)

Czytaj dalej