Оцініть цю публікацію!
[Усього: 1 Середнє значення: 5]
Звідси і далі я розгляну приклад простого парсера на Python для виділення заголовків (h1, h2, h3) та тексту з HTML-коду. Для цього ми використаємо бібліотеку BeautifulSoup, яка дозволяє легко парсити HTML.
- Встановлення бібліотеки BeautifulSoup:Відкрийте термінал і виконайте команду:
pip install beautifulsoup4
Приклад коду парсера:
Створіть файл з ім’ям html_parser.py
та введіть наступний код:
from bs4 import BeautifulSoup def parse_html(html_content): soup = BeautifulSoup(html_content, 'html.parser') # Знаходимо всі заголовки h1, h2, h3 та текст побільше headers_and_text = [] for header_tag in soup.find_all(['h1', 'h2', 'h3']): header_text = header_tag.text.strip() next_element = header_tag.find_next() text = "" while next_element and next_element.name not in ['h1', 'h2', 'h3']: text += str(next_element).strip() next_element = next_element.find_next() headers_and_text.append({'header': header_text, 'text': text}) return headers_and_text if __name__ == "__main__": # Приклад використання: html_content = """ <html> <body> <h1>Заголовок 1</h1> <p>Текст для заголовка 1</p> <h2>Заголовок 2</h2> <p>Текст для заголовка 2</p> <h3>Заголовок 3</h3> <p>Текст для заголовка 3</p> </body> </html> """ parsed_data = parse_html(html_content) for item in parsed_data: print(f"Заголовок: {item['header']}") print(f"Текст: {item['text']}") print("-" * 30)
- Пояснення коду:
- Ми використовуємо
BeautifulSoup
для створення об’єктаsoup
, який представляє оброблений HTML-документ. - У цьому прикладі ми шукаємо всі теги h1, h2 та h3, а потім знаходимо тексти та наступні за ними елементи.
- Результат зберігається у форматі словника, де ключ – це заголовок, а значення – це текст, що йому відповідає.
- Ми використовуємо
- Виконання скрипта:В терміналі використайте команду:
python html_parser.py
Ви отримаєте вивід, який покаже вам пари заголовок-текст для кожного знайденого елемента у вашому HTML.
Схоже з цієї категорії:
Python скрипт перевірки існування теки
Масове додавання даних в XLSX за допомогою Python
Нейронна мере для класифікації рукописних цифр
Підключення до БД і виведення інформації з неї через Python
Прогноз погоди на Python
Запуск декількох програм відповідно до часу на Python
Бот Телеграм на Python
Простий музичний плеєр на мові Python
Пінгування веб-сторінок на Python
Генератор паролю на Python
Використання ChatGPT через API використовуючи Python