Приложение HuggingSnap — лучший инструмент ИИ от Apple с удобным дополнением

HuggingSnap распознает содержимое на столе.

Платформа машинного обучения Hugging Face выпустила приложение для iOS, которое поможет вам лучше ориентироваться в окружающем мире с помощью камеры вашего iPhone. Просто наведите камеру на сцену или сделайте снимок, и приложение активирует ИИ, который опишет это, определит объекты, выполнит перевод или извлечет текстовую информацию.

Приложение под названием HuggingSnap применяет многомодальный подход для анализа окружающей обстановки и теперь доступно бесплатно в App Store. Оно основано на модели SmolVLM2, открытой ИИ-модели, способной обрабатывать текст, изображения и видео.

Основная цель приложения — помочь пользователям узнать больше об объектах и пейзажах вокруг них, включая распознавание растений и животных. Хотя концепция во многом похожа на функцию Визуального Интеллекта на iPhone, HuggingSnap имеет значительное преимущество перед аналогами от Apple.

Работа без интернета

Для работы достаточно иметь iPhone с iOS 18, и вы готовы. Интерфейс HuggingSnap во многом схож с тем, что предлагает Визуальный Интеллект. Однако есть важные различия.

Apple использует ChatGPT для работы Визуального Интеллекта. Это связано с тем, что Siri в настоящее время не может функционировать как генеративный ИИ, подобно ChatGPT или Google Gemini, которые имеют собственные базы знаний. Вместо этого Siri перенаправляет все запросы пользователей на ChatGPT.

Это требует подключения к интернету, так как ChatGPT не может работать в офлайн-режиме. HuggingSnap, напротив, прекрасно функционирует автономно. Более того, его офлайн-режим гарантирует, что никакие пользовательские данные не покидают ваш телефон, что всегда радует с точки зрения конфиденциальности. 

Что можно делать с HuggingSnap?

HuggingSnap определяет флакон духов.

HuggingSnap основано на модели SmolVLM2, разработанной Hugging Face. Так, что же может эта модель, управляя приложением? Достаточно много. Она не только отвечает на вопросы, основанные на изображениях, которые видит камера iPhone, но и может обрабатывать фотографии из галереи вашего телефона.

Например, покажите ей снимок исторического памятника и попросите дать советы по путешествию. Она сможет извлечь информацию из графиков или разобраться с фотографией счета за электроэнергию и ответить на вопросы, основанные на данных, которые она извлекла из документа.

У этого приложения простая архитектура, и оно особенно хорошо подходит для использования ИИ на мобильных устройствах. По результатам тестов оно демонстрирует лучшие результаты по сравнению с конкурентом Google — открытой моделью PaliGemma (3B) и соперничает с моделью Qwen AI от Alibaba, обладающей функциями зрения.

Использование приложения HuggingSnap на iPhone.

Ключевое преимущество заключается в том, что для работы требуется меньше системных ресурсов, что особенно важно для смартфонов. Интересно, что популярный медиаплеер VLC также использует ту же модель SmolVLM2 для предоставления описаний видео, позволяя пользователям искать по видео с помощью обычных языковых запросов.

Кроме того, приложение может умно извлекать наиболее важные моменты из видео.«Разработанное для эффективности, SmolVLM может отвечать на вопросы о изображениях, описывать визуальное содержание, создавать истории на основе нескольких изображений или функционировать как чистая языковая модель без визуальных входных данных», — говорится в репозитории приложения на GitHub.

Если вам понравилась эта статья, подпишитесь, чтобы не пропустить еще много полезных статей!

Вы также можете читать наши материалы в:

Алекс Бежбакин
Оцените автора
Добавить комментарий