Оцініть цю публікацію!
[Усього: 1 Середнє значення: 5]
Звідси і далі я розгляну приклад простого парсера на Python для виділення заголовків (h1, h2, h3) та тексту з HTML-коду. Для цього ми використаємо бібліотеку BeautifulSoup, яка дозволяє легко парсити HTML.
- Встановлення бібліотеки BeautifulSoup:Відкрийте термінал і виконайте команду:
pip install beautifulsoup4
Приклад коду парсера:
Створіть файл з ім’ям html_parser.py та введіть наступний код:
from bs4 import BeautifulSoup
def parse_html(html_content):
soup = BeautifulSoup(html_content, 'html.parser')
# Знаходимо всі заголовки h1, h2, h3 та текст побільше
headers_and_text = []
for header_tag in soup.find_all(['h1', 'h2', 'h3']):
header_text = header_tag.text.strip()
next_element = header_tag.find_next()
text = ""
while next_element and next_element.name not in ['h1', 'h2', 'h3']:
text += str(next_element).strip()
next_element = next_element.find_next()
headers_and_text.append({'header': header_text, 'text': text})
return headers_and_text
if __name__ == "__main__":
# Приклад використання:
html_content = """
<html>
<body>
<h1>Заголовок 1</h1>
<p>Текст для заголовка 1</p>
<h2>Заголовок 2</h2>
<p>Текст для заголовка 2</p>
<h3>Заголовок 3</h3>
<p>Текст для заголовка 3</p>
</body>
</html>
"""
parsed_data = parse_html(html_content)
for item in parsed_data:
print(f"Заголовок: {item['header']}")
print(f"Текст: {item['text']}")
print("-" * 30)
- Пояснення коду:
- Ми використовуємо
BeautifulSoupдля створення об’єктаsoup, який представляє оброблений HTML-документ. - У цьому прикладі ми шукаємо всі теги h1, h2 та h3, а потім знаходимо тексти та наступні за ними елементи.
- Результат зберігається у форматі словника, де ключ – це заголовок, а значення – це текст, що йому відповідає.
- Ми використовуємо
- Виконання скрипта:В терміналі використайте команду:
python html_parser.py
Ви отримаєте вивід, який покаже вам пари заголовок-текст для кожного знайденого елемента у вашому HTML.
Схоже з цієї категорії:
Python скрипт перевірки існування теки
Генератор паролю на Python
Простий музичний плеєр на мові Python
Підключення до БД і виведення інформації з неї через Python
Бот Телеграм на Python
Нейронна мере для класифікації рукописних цифр
Запуск декількох програм відповідно до часу на Python
Пінгування веб-сторінок на Python
Використання ChatGPT через API використовуючи Python
Масове додавання даних в XLSX за допомогою Python
Прогноз погоди на Python