Перейти до вмісту
    Python / Простий парсер на Python

    Простий парсер на Python

    Оцініть цю публікацію!
    [Усього: 1 Середнє значення: 5]

    Звідси і далі я розгляну приклад простого парсера на Python для виділення заголовків (h1, h2, h3) та тексту з HTML-коду. Для цього ми використаємо бібліотеку BeautifulSoup, яка дозволяє легко парсити HTML.

    1. Встановлення бібліотеки BeautifulSoup:Відкрийте термінал і виконайте команду:

    Приклад коду парсера:

    Створіть файл з ім’ям html_parser.py та введіть наступний код:

    from bs4 import BeautifulSoup
    
    def parse_html(html_content):
        soup = BeautifulSoup(html_content, 'html.parser')
    
        # Знаходимо всі заголовки h1, h2, h3 та текст побільше
        headers_and_text = []
        for header_tag in soup.find_all(['h1', 'h2', 'h3']):
            header_text = header_tag.text.strip()
            next_element = header_tag.find_next()
            text = ""
            while next_element and next_element.name not in ['h1', 'h2', 'h3']:
                text += str(next_element).strip()
                next_element = next_element.find_next()
            headers_and_text.append({'header': header_text, 'text': text})
    
        return headers_and_text
    
    if __name__ == "__main__":
        # Приклад використання:
        html_content = """
        <html>
            <body>
                <h1>Заголовок 1</h1>
                <p>Текст для заголовка 1</p>
                <h2>Заголовок 2</h2>
                <p>Текст для заголовка 2</p>
                <h3>Заголовок 3</h3>
                <p>Текст для заголовка 3</p>
            </body>
        </html>
        """
    
        parsed_data = parse_html(html_content)
        for item in parsed_data:
            print(f"Заголовок: {item['header']}")
            print(f"Текст: {item['text']}")
            print("-" * 30)
    
    1. Пояснення коду:
      • Ми використовуємо BeautifulSoup для створення об’єкта soup, який представляє оброблений HTML-документ.
      • У цьому прикладі ми шукаємо всі теги h1, h2 та h3, а потім знаходимо тексти та наступні за ними елементи.
      • Результат зберігається у форматі словника, де ключ – це заголовок, а значення – це текст, що йому відповідає.
    2. Виконання скрипта:В терміналі використайте команду:

    Ви отримаєте вивід, який покаже вам пари заголовок-текст для кожного знайденого елемента у вашому HTML.

    Позначки:

    Залишити відповідь

    Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *