Оцініть цю публікацію!
[Усього: 1 Середнє значення: 5]
Звідси і далі я розгляну приклад простого парсера на Python для виділення заголовків (h1, h2, h3) та тексту з HTML-коду. Для цього ми використаємо бібліотеку BeautifulSoup, яка дозволяє легко парсити HTML.
- Встановлення бібліотеки BeautifulSoup:Відкрийте термінал і виконайте команду:
pip install beautifulsoup4
Приклад коду парсера:
Створіть файл з ім’ям html_parser.py
та введіть наступний код:
from bs4 import BeautifulSoup def parse_html(html_content): soup = BeautifulSoup(html_content, 'html.parser') # Знаходимо всі заголовки h1, h2, h3 та текст побільше headers_and_text = [] for header_tag in soup.find_all(['h1', 'h2', 'h3']): header_text = header_tag.text.strip() next_element = header_tag.find_next() text = "" while next_element and next_element.name not in ['h1', 'h2', 'h3']: text += str(next_element).strip() next_element = next_element.find_next() headers_and_text.append({'header': header_text, 'text': text}) return headers_and_text if __name__ == "__main__": # Приклад використання: html_content = """ <html> <body> <h1>Заголовок 1</h1> <p>Текст для заголовка 1</p> <h2>Заголовок 2</h2> <p>Текст для заголовка 2</p> <h3>Заголовок 3</h3> <p>Текст для заголовка 3</p> </body> </html> """ parsed_data = parse_html(html_content) for item in parsed_data: print(f"Заголовок: {item['header']}") print(f"Текст: {item['text']}") print("-" * 30)
- Пояснення коду:
- Ми використовуємо
BeautifulSoup
для створення об’єктаsoup
, який представляє оброблений HTML-документ. - У цьому прикладі ми шукаємо всі теги h1, h2 та h3, а потім знаходимо тексти та наступні за ними елементи.
- Результат зберігається у форматі словника, де ключ – це заголовок, а значення – це текст, що йому відповідає.
- Ми використовуємо
- Виконання скрипта:В терміналі використайте команду:
python html_parser.py
Ви отримаєте вивід, який покаже вам пари заголовок-текст для кожного знайденого елемента у вашому HTML.
Схоже з цієї категорії:
Python скрипт перевірки існування теки
Нейронна мере для класифікації рукописних цифр
Генератор паролю на Python
Простий музичний плеєр на мові Python
Бот Телеграм на Python
Прогноз погоди на Python
Підключення до БД і виведення інформації з неї через Python
Використання ChatGPT через API використовуючи Python
Пінгування веб-сторінок на Python
Запуск декількох програм відповідно до часу на Python
Масове додавання даних в XLSX за допомогою Python