Оператор фискальных данных (NDA)

Проект: Классификация фискальных данных

Проблема: Клиент — основной игрок на рынке фискальных данных, который строго регулируется Федеральной Налоговой Службой. У клиента есть решение, обрабатывающее ~100 млн денежных поступлений ежедневно в режиме реального времени. Система способна хранить несколько петабайтов исходных данных. Клиент не мог оказывать дополнительные услуги, так как наименование одного и того же товара могло не совпадать с наименованием, указанным в чеках (например, «пиво XYZ», «пиво XYZ 0.5»). Таким образом, клиенту требовалось создавать уникальный артикул похожим товарам и вносить их в справочник системы.

Решение: Мы получили тестируемый набор данных (данные, взятые из нескольких миллионов чеков) и создали в начале систему кластеризации (=основные данные, уникальные имена). Затем мы сделали фильтр, который по заданным параметрам соединяет первоначальное наименование с представленным. Было разработано решение на основе машинного обучения применительно к вычисляемому потоку поступающих данных (=режим реального времени, высокая нагрузка). Результаты были представлены клиенту в течение нескольких демо-сессий.

Результат: Клиент получил доказательство того, что проблема классификации наименований товаров решаема. Интеграция такого модуля в текущий программный комплекс позволит клиенту оказывать новые услуги, основанные на этих нормализованных данных.

Технологии: Python 3.6, Bootstrap, Django.

У вас похожий проект?