Apache Спарк була розроблена для поліпшення швидкості обробки для програм аналізу та маніпулювання даними.
Вона була написана на Java і Scala, і надає можливості, яких немає в інших системах, в основному тому, що вони не мейнстрим ні того, що корисно для додатків обробки без даних.
Спарк вперше була створена в UC Berkeley AMP Lab, а потім передані в Apache Software Foundation
Що нового в цьому випуску :.
- Єдина система управління пам'яттю -. Спільна пам'ять для виконання і кешування замість виняткового поділу регіонів
- Паркет Продуктивність - Підвищення продуктивності сканування при використанні паркету плоскі схеми .
- Покращено планувальник запитів для запитів, що мають різні агрегування -. Плани запиту різних агрегатах є більш надійними, коли окремі стовпці мають високу потужність
- Адаптивне виконання запитів -. Початкова підтримка для автоматичного вибору кількості прохідників для з'єднання і агрегатах
- Як уникнути подвійних фільтрів в Source Data API -. При реалізації джерела даних з фільтром магазинного, розробники тепер можуть сказати Спарк SQL, щоб уникнути подвійного оцінки методом штовхання вниз фільтр
- В-пам'яті стовпчастий Cache Performance - Значне (до 14х) прискорити, коли кешування даних, що містять складні типи в DataFrames або SQL .
- Виконання SQL Використання Off-динамічної пам'яті - Підтримка для настройки виконання запитів відбувається за допомогою поза купи пам'яті, щоб уникнути накладних витрат GC
<Літій> Швидкий нуль-безпечно приєднується - приєднується за допомогою нуль-безпечне рівність (& # x3c; = & # x3e;) тепер буде виконуватися з використанням SortMergeJoin замість обчислення cartisian продукту .
Що нового у версії 1.5.2:
- Ядро API тепер підтримує агрегування дерева багаторівневі щоб допомогти прискорити дорого скоротити операції.
- Поліпшення звітів про помилки була додана для деяких Гоча операцій.
- іскри з тепер в тіні, щоб уникнути конфліктів з одними програмами.
- Спарк тепер підтримує шифрування SSL для деяких кінцевих точок зв'язку.
- метрики в реальному часі ГХ і записи відліків, які були додані в призначений для користувача інтерфейс.
Причал залежність
Що нового у версії 1.4.0:
- Ядро API тепер підтримує агрегування дерева багаторівневі щоб допомогти прискорити дорого скоротити операції.
- Поліпшення звітів про помилки була додана для деяких Гоча операцій.
- іскри з тепер в тіні, щоб уникнути конфліктів з одними програмами.
- Спарк тепер підтримує шифрування SSL для деяких кінцевих точок зв'язку.
- метрики в реальному часі ГХ і записи відліків, які були додані в призначений для користувача інтерфейс.
Причал залежність
Що нового у версії 1.2.0:
- оператор сортування PySpark тепер підтримує зовнішні пробудження для великих наборів даних .
- PySpark тепер підтримує широкомовні змінні розміром більше 2 ГБ і виконує зовнішній розлив під час пологів.
- Спарк додає сторінку завдання рівня прогресу в іскрі UI, стабільний API для звітів про хід роботи, а також динамічне оновлення вихідних метрик як робота завершена.
- Спарк тепер має підтримку читання довічних файлів для зображень і інших довічних форматів.
Що нового у версії 1.0.0:
- Цей реліз розширює стандартні бібліотеки іскру, в введенні нового SQL пакет (Спарк SQL), який дозволяє користувачам інтегрувати SQL запити в існуючі робочі процеси Спарк.
- MLlib, бібліотека машинного навчання іскри з, розширюється з розрідженим вектором підтримки і кілька нових алгоритмів.
Що нового у версії 0.9.1:
- Виправлена помилка хеш зіткнень в зовнішньому проливання
- Виправлена конфлікт з log4j Спарк для користувачів, які покладаються на інших лісозаготівельних бекенда
- Виправлена Graphx відсутня Спарк збірки баночці в Maven збірки
- Фіксовані мовчазні відмови через відображення стану виходу перевищення розміру кадру Akka
- непотрібними пряма залежність Прибрана іскри з КМЗ
- Вилучені метрики-ганглії з збірки за замовчуванням через конфлікт LGPL ліцензії
- Виправлена помилка в розподільній тарболла, яка не містить іскри в зборі баночка
Що нового у версії 0.8.0:
- Розвиток переїхав в Apache Foundation Софт як інкубатор проекту.
Що нового у версії 0.7.3:
- Python Робочі характеристики: Механізм для іскри з нерестового Python віртуальних машин має була поліпшена, щоб зробити це швидше, коли віртуальна машина має великий розмір купи, прискорюючи Python API.
- Mesos виправляє: JAR-файли, додані в вашу роботу тепер буде на шляху до класів при десеріалізациі результати виконання завдань в Mesos .
- Повідомлення про помилки :. Поліпшення звітів про помилки для несеріалізуемих винятків і надмірно великих результатів завдання
- Приклади :. долучення приклад потокової обробки потоку з updateStateByKey
- Додавання :. Спарк Streaming більше не залежить від Twitter4J репо, яка повинна дозволити їй побудувати в Китаї
- Виправлені помилки в foldByKey, потокове лічильник, методи статистики, документації, а також веб-інтерфейс.
Що нового у версії 0.7.2 :.
- Scala версія оновлена до 2.9.3
- Кілька удосконалень Бублик, включаючи виправлення для поліпшення продуктивності і настроюється рівень зберігання даних.
- Нові методи API :. SubtractByKey, foldByKey, КартаЧто, filterWith, foreachPartition і інші
- Новий інтерфейс звітів метрики, SparkListener, щоб зібрати інформацію про кожен етап обчислення :. Довжини завдання, байти в випадковому порядку, і т.д.
- Кілька нових прикладів використання API Java, в тому числі K-середніх і обчислювальної пі.
Що нового у версії 0.7.0:
- Спарк 0.7 додає Python API під назвою PySpark <. / li>
- робочих місць Спарк в даний час запуску веб-панель для моніторингу використання пам'яті кожного розподіленого набору даних (РДД) в програмі.
- Спарк тепер може бути побудований з використанням Maven на додаток до SBT.
Що нового у версії 0.6.1:
- Виправлена помилка надмірно агресивним повідомлення таймаута, що може привести до працівників відключитися від кластера.
- Виправлена помилка в режимі автономного розгортання, які не виставлялися імен хостів в планувальник, зачіпаючи HDFS розташування.
- Покращена повторне підключення у випадковому порядку, який може значно прискорити невеликі перетасовки.
- Виправлені деякі потенційні тупики в менеджері блоків.
- Виправлена помилка при отриманні ідентифікаторів невдалих хостів з Mesos.
- Кілька поліпшень EC2 сценарій, як кращої обробки точкових примірників.
- Зроблено локальний IP-адресу, який зв'язується з Спарк настроюється.
- Підтримка Hadoop 2 розподілів.
- Підтримка для пошуку Scala дистрибутивах Debian.
Що нового у версії 0.6.0 :.
- Simpler розгортання
- документація іскри з була розширена з новим Короткий керівництво, додаткові інструкції з розгортання, керівництва по конфігурації, Посібник з налаштування і поліпшеною документації Scaladoc API.
- Новий комунікаційний менеджер, використовуючи асинхронний Java NIO дозволяє перетасувати операції виконуються швидше, особливо при передачі великих обсягів даних або коли робочі місця мають багато завдань.
- Новий менеджер зберігання підтримує набір даних за настройки рівня зберігання (наприклад, чи слід зберегти набір даних в пам'яті, десеріалізована, на диску, і т.д., або навіть реплицируются по вузлах).
- Покращена налагодження.
Коментар не знайдено