красивий проект Суп Python HTML / XML аналізатор призначений для швидкого обороту проектів, таких як екран-вискоблювання. Три особливості роблять його потужним:
Beautiful Soup і не вдавитися, якщо ви даєте йому поганий розмітки. Це дає дерево розбору, що робить приблизно стільки ж сенсу, як оригінал документа. Це, як правило, досить гарні, щоб зібрати необхідні дані і втекти.
Beautiful Soup надає кілька простих методів і віщий ідіоми для навігації, пошуку та модифікації дерева синтаксичного розбору: набір інструментів для розтину документ та вилучення, що вам потрібно. Ви не повинні створити користувальницький аналізатор для кожної програми.
Beautiful Soup автоматично конвертує вхідні документи Unicode і вихідних документів в кодуванні UTF-8. Ви не повинні думати про кодування, якщо документ не й вказати кодування і Beautiful Soup не може автоматично визначити один. Тоді вам просто необхідно вказати вихідної кодування.
Beautiful Soup розбирає все, що ви даєте йому, і робить обхід дерева матеріал для вас. Ви можете сказати, що це "Шукати всі посилання", або "Знайти всі посилання класу externalLink", або "Знайти всі посилання, чиї URL-адреси збігаються" foo.com ", або" Знайти таблиці заголовок, отримав жирний текст, а потім дати мені, що текст ".
Цінні дані, які були колись замкнули в мало розроблених веб-сайтів тепер в межах вашої досяжності. . Проекти, які б не годинник займають лічені хвилини з Beautiful Soup
Вимоги
- Python
Коментар не знайдено