Али Кужугет: Программисты помогут сохранить самобытную культуру и языки народов России
05.07.24, Пт, 15:25, Мск,
Программист из Тывы создаёт приложения для изучения и сохранения тувинского языка и предлагает коллегам использовать свои разработки для сохранения и популяризации других малоресурсных языков.
Исследования в области IT и объединения живого мозга с компьютером вышли на новый уровень. Искусственный интеллект уже во многом превосходит способности людей, решает сложнейшие научные задачи, успешно занимается творчеством, а главное, быстро развивается, рассказал Али Кужугет, инженер года в области ИИ, старший член профессиональной ассоциации инженеров «Институт инженеров электротехники и электроники» (IEEE), программист, разработчик более 100 мобильных приложений и ресурса на основе искусственного интеллекта. Но остаётся ещё целый ряд сложных задач, которые под силу решить только человеку — сохранение исчезающих языков малочисленных народов.
С начала 20 века в мире утрачено более 330 языков, только в России сейчас в зоне риска или на грани полного исчезновения или в статусе уязвимые находятся более 100 языков.[1] И помочь в их сохранении могут инженеры искусственного интеллекта, уверен Али Кужугет. С помощью своих проектов он стремится сохранить языковое разнообразие планеты и самобытную культуру малочисленных народов.
- Али, в IT-сообществе вас знают как человека, поставившего технологии на службу сохранения национальных языков. Как возникла идея использовать для этого искусственный интеллект?
- Я родом из Республики Тыва и мне совершенно очевидно, что мой родной язык, как и многие другие, находится в опасности. Престиж нашего языка падал, поскольку общение в Интернете велось с игнорированием тех тувинских букв, которых нет в русском. Во многих детских садах тувинскому тоже не учат, как следствие — дети не понимают старших родственников, не могут понять свои сказки и предания, связь поколений прерывается. Наш язык отставал в цифровизации, не было клавиатуры для устройств на iOS и Android с тувинскими буквами ӨҢҮ. Когда занялся программированием, стало понятно, что тувинский язык технически не оснащен: нет электронных словарей, клавиатуры с буквами тувинского алфавита, распознавателя голоса и переводчика. Поэтому в меру своих возможностей стал это исправлять. Так появился русско-тувинский переводчик с искусственным интеллектом. Сайт www.tyvan.ru полноценно работает с 2016 года, ИИ-переводчик в ней появился в прошлом году, у ресурса есть обратимый тувинско-русский словарь, база параллельных переводов и прием корпуса свободных переводов.TAdviser выпустил Гид по российским операционным системам
- Как Вы ранее поделились, этот онлайн-переводчик стал первым подобным в мире, а разработка – одной из лучших по версии Национальной бизнес-премии. А в чём особенности программы с технической точки зрения?
- Мы запрограммировали специальный уникальный код, который сработал для русско-тувинской языковой пары даже на малом объёме переводов. Придумали легковесную модель корпуса параллельных переводов, с которой сейчас работают лингвисты, журналисты и писатели. Мы в процессе сбора миллиона свободных параллельных переводов и совсем скоро достигнем 50% прогресса.
- Планируете как-то масштабировать проект?
- Вообще моя цель – улучшив код и расширив базу корпуса параллельных переводов, получить эффективную технологию, на основе которой будут созданы переводчики для других исчезающих национальных языков.
- И цель, и та работа, которую вы уже проделали, на рынке стоят дорого. Почему вы предлагаете свои эксклюзивные наработки абсолютно бесплатно?
- Проект изначально задумывался как социальный. Я стремлюсь сохранить свой родной тувинский язык и хочу помочь другим малочисленным народностям. Поэтому с самого начала сайт спроектирован так, что все переводы в корпусе должны быть под свободной лицензией, а версии их датасетов доступны для всех желающих. Надеюсь, привлеку, таким образом специалистов машинного обучения, которые сделают то же самое для других языков.
- За год у вашего сайта 146 тысяч уникальных пользователей, это больше на 17%, чем год назад. Сложно было собрать команду, которая обеспечит бесперебойную и качественную работу ресурса?
- Нет, у меня своя команда единомышленников. Я вообще открытый и общительный человек, легко схожусь с людьми. ВКонтакте у меня больше 6 тысяч друзей, многие из них мои коллеги, а есть и те, кто пришёл в IT после знакомства со мной. За техническими мощностями помогают следить мои коллеги, что касается контента, то с нами работают волонтёры – почти 100 филологов и переводчиков, они следят за качеством продукта. С прошлого года наши лингвисты активно изучают и переводят различные структурированные массивы данных, включая Яндекс.
- В 2020 году с вашей помощью `Яндекс.Алиса` начала понимать тувинский язык – это тоже часть большой работы по сохранению языков России?
- Да, конечно. Теперь Алиса принимает текст на тувинском языке, а потом озвучивает перевод на русском. Она развеяла миф, что для малоресурсных языков такие технологии недоступны. Я считаю, это очень важно для сохранения и изучения языка. К тому же, вижу перспективы. Представляете, как будет чудесно, когда виртуальные помощники будут говорить с детьми на родном языке, например, рассказывать сказки и легенды, петь песни. С их помощью мы без труда сможем учить языки, вполне возможно, через несколько лет наши дети будут полиглотами!
- На днях вышел релиз Гугл-переводчика с 110 новыми языками.[2] И тувинский язык появился благодаря тому, что я связался с инженером по переводчику Гугла (Isaac Caswell, Senior Software Engineer, Google Translate), он попросил залить наши переводы в их систему. Я залил 100 000 русско-тувинских обратимых переводов в ноябре 2023 года, и, как он обещал, вот летом выпустили. В соцсетях мне столько людей слова благодарности писали! Ощущался эффект исполнения большой мечты – люди много лет ждали тувинского языка в переводчике Гугла! Я и Айра Монгуш уже провели прямой эфир на эту тему, поблагодарил всех наших переводчиков, волонтеров и болельщиков.
- Представительство Республики Тыва в г. Москве в своем официальном блоге написали про нас.[3]
- Сейчас инженеры Гугла попросили перевести небольшую базу переводов, которые сильно улучшат качество переводов – и мы сразу же приступили к переводам. Я рассказал про возможность улучшить переводы в соцсетях, и к нам уже обратились представители Бурятии. А представители Калмыкии и Горного Алтая, чьих языков в Гугл-переводчике еще нет, связались с нами, и мы придумали эффективный план по сбору переводов и подаче их в Гугл-переводчик. Уже распределил им минимальную базу переводов от Гугла.
- К этому лету мы на tyvan.ru собрали еще 100 000 проверенных редакторами переводов, суммарно уже 200 000 переводов в Яндекс мы уже подали, готовим еще 200 000 проверенных переводов к осени.[4] В следующей итерации обучения ИИ от Яндекса ожидаем наш язык в их переводчике с базой от 400 000 переводов, и в конце этого или в начале следующего года мы получим неплохой тувинский переводчик от Яндекса.
- Вы автор редких клавиатур для тувинского и алтайского языков, а также кроссвордов на тувинском, кроме того, на тувинский перевели интерфейс ВКонтакте. Эта работа помогла в создании электронного словаря?
- Да, мне помогло то, что я больше 10 лет пишу на тувинском языке энциклопедические статьи в Википедии, в которой раздел на тувинском языке тоже создал сам. Удалось собрать образцовые тексты на самые разные темы. Конечно, наборов данных ещё недостаточно, и это сейчас главная проблема, но мы её решаем. Все эти тексты и переводы были использованы на этапе обучения искусственного интеллекта.
- В Википедии благодаря вам появились не просто статьи, а выделенный раздел на тувинском. Как это вышло?
- В 2011 году я написал письмо основателю Википедии Джимми Уэльсу с просьбой создать электронную тувинскую энциклопедию. Мне предложили создать её самому, указав на инкубаторную версию. За полтора года мы с друзьями написали почти 600 статей, и на Вики-конференции в Гонконге мне предложили направить официальный запрос, помогли оформить документы и через несколько дней появился официальный адрес Тыва-Википедии — tyv.wikipedia.org.
- Скажите, насколько IT-среда вообще готова решать подобные задачи для поддержания культуры и языков малочисленных народов?
- Про недостаточное количество датасетов я уже сказал. Кроме этого, сегодня у Apple, например, довольно ограниченный функционал для естественных малоресурсных языков. Также часто сталкиваюсь с тем, что большие IT-компании не понимают культуры многих народов. Например, ChatGPT очень плохо рисует картинки на тему сибирских народов, лица их совсем не похожи. Но всё это временные трудности, со временем мы и это исправим.
- Вы сделали много для сохранения и популяризации родного языка: энциклопедия, онлайн-переводчик, кроссворды и даже музыкальное приложение. Проекты на тувинском не рассчитаны на массового потребителя в глобальном смысле, но, по Вашим оценкам, имеют большой потенциал как основа для поддержания и развития других языков. Видите ли вы этот запрос в обществе?
- Конечно. В 2014 году, когда я сделал музыкальное мобильное приложение с тувинскими песнями, у него очень быстро появились аналоги. Кстати, тувинская музыка популярна за рубежом больше, чем в России. Когда сделал тувинский кроссворд, появился запрос на его аналог на калмыцком. После создания тувинской клавиатуры ко мне обратились алтайцы и удмурты, помог и им. То же самое и с Википедией – энциклопедические статьи в ней являются дата-сетами со свободной лицензией. Сейчас уже появились разделы на языках других народов России. Меня это только радует. Я с удовольствием делюсь технологиями и идеями, всегда предлагаю коллегам помощь. Мне кажется, в современном мире технологий одна из социальных миссий ИТ-индустрии и ИТ-сообщества – сохранять самобытную культуру и язык народов не только нашей большой страны, но мира. Любой язык – достояние и сокровище человечества, и это понимание должно быть у любого современного человека. Исчезающие языки – действительно глобальная проблема.
- Али, в сфере IT вы известны еще и как автор более 100 коммерческих проектов. У Вас – большой опыт работы с крупнейшими брендами мира): Abbott, Bayer, L`Oreal, Hennesse другие. Какие компетенции для этого нужны?
- Для такой работы нужен, прежде всего, большой опыт и знания. Я работал в компании Customertimes Montenegro старшим разработчиком. Был в команде программистов самым опытным, отлично разбирался как на Swift, так и на Obj-C (поддержка легаси кода). Мне удалось внедрить технологию CI/CD и улучшить скорость доставки проектов на 50%. За счет этого программисты стали больше фокусироваться на коде и работать быстрее. Эти изменения позволили быстро разработать и улучшить более 20 проектов перечисленных вами брендов. Также реализовали новый способ доставки приложений до заказчиков методом Unlisted App, позволяющим скачивать приложения из App Store напрямую по ссылке.
- Еще один ваш плодотворный проект – приложение по управлению городскими камерами г. Москвы, который, как Вы упомянули, заинтересовал другие регионы. Он получил развитие?
- Да. Это мобильное приложение по управлению городскими камерами и контролю дорожных происшествий я разработал в команде `Мегаполис ИТ`. Приложение в реальном времени мониторит транспортную ситуацию, состояние транспорта и инфраструктуры. Подобные приложения сейчас очень востребованы, поэтому мое удачное решение сразу стало востребованным.
- Сегодня вы – состоявшийся успешный и востребованный программист с огромным опытом работы. Какие у вас планы на ближайшее будущее?
- Я продолжу изучать технологии искусственного интеллекта и развиваться в сфере разработки мобильных приложений. На самом деле, у меня много планов и идей – реализация стартапов, обучение молодых коллег, но я не люблю говорить о планах. Лучше расскажу обо всех задумках, когда они станут реальностью.
Автор: Анатолий Сычев