Оцініть цю публікацію!

[Усього: 1 Середнє значення: 5]

Звідси і далі я розгляну приклад простого парсера на Python для виділення заголовків (h1, h2, h3) та тексту з HTML-коду. Для цього ми використаємо бібліотеку BeautifulSoup, яка дозволяє легко парсити HTML.

Встановлення бібліотеки BeautifulSoup:Відкрийте термінал і виконайте команду:

pip install beautifulsoup4

Приклад коду парсера:

Створіть файл з ім’ям html_parser.py та введіть наступний код:

from bs4 import BeautifulSoup

def parse_html(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')

    # Знаходимо всі заголовки h1, h2, h3 та текст побільше
    headers_and_text = []
    for header_tag in soup.find_all(['h1', 'h2', 'h3']):
        header_text = header_tag.text.strip()
        next_element = header_tag.find_next()
        text = ""
        while next_element and next_element.name not in ['h1', 'h2', 'h3']:
            text += str(next_element).strip()
            next_element = next_element.find_next()
        headers_and_text.append({'header': header_text, 'text': text})

    return headers_and_text

if __name__ == "__main__":
    # Приклад використання:
    html_content = """
    <html>
        <body>
            <h1>Заголовок 1</h1>
            <p>Текст для заголовка 1</p>
            <h2>Заголовок 2</h2>
            <p>Текст для заголовка 2</p>
            <h3>Заголовок 3</h3>
            <p>Текст для заголовка 3</p>
        </body>
    </html>
    """

    parsed_data = parse_html(html_content)
    for item in parsed_data:
        print(f"Заголовок: {item['header']}")
        print(f"Текст: {item['text']}")
        print("-" * 30)

Пояснення коду:
- Ми використовуємо BeautifulSoup для створення об’єкта soup, який представляє оброблений HTML-документ.
- У цьому прикладі ми шукаємо всі теги h1, h2 та h3, а потім знаходимо тексти та наступні за ними елементи.
- Результат зберігається у форматі словника, де ключ – це заголовок, а значення – це текст, що йому відповідає.
Виконання скрипта:В терміналі використайте команду:

python html_parser.py

Ви отримаєте вивід, який покаже вам пари заголовок-текст для кожного знайденого елемента у вашому HTML.

Простий парсер на Python

Схоже з цієї категорії:

Python Cron: Як Уникнути Падінь Скриптів Автоматиз...

Стабільний Python Парсер: Обхід Лімітів та Безпечн...

Selenium vs Playwright: Вибір для Автоматизації Бр...

Валідація даних у FastAPI: уникнення типових помил...

⚡️ Фільми прямо з термінала

Валідація даних у FastAPI: Уникаємо типових пасток...

Selenium vs Playwright: Автоматизація Браузера в P...

Запуск декількох програм відповідно до часу на Pyt...

Прогноз погоди на Python

Автоматизація звітів через Python API: Практичний ...

FastAPI Background Tasks: Забудьте про Celery, якщ...

Масове додавання даних в XLSX за допомогою Python

Залишити відповідь Скасувати коментар

Корисні теги

Коментарі

Корисні теги

Коментарі