Как я использовал n8n для создания ИИ-партнеров для изучения китайского языка: лексика, аудирование и коррекция произношения.
Делиться

Никто не учит язык, пассивно перелистывая страницы учебника.
Настоящий прогресс достигается тогда, когда язык начинает отвечать вам.

Когда вы видите изображения, слышите реальные предложения, пытаетесь говорить и получаете обратную связь, в конце концов, все встает на свои места.
Раньше для получения подобной обратной связи вам постоянно нужен был учитель рядом.
Сегодня генеративный ИИ может выполнять эту роль на вашем телефоне или компьютере, подобно ИИ-репетитору языков, которым вы можете пользоваться в любое время.

Когда я десять лет назад начал изучать китайский язык, я видел, как многие иностранцы с трудом понимали местных жителей в повседневных разговорах из-за плохого произношения.
Это убедило меня в том, что без хорошего произношения богатый словарный запас бесполезен.

Я до сих пор помню, как сидел в своей квартире в Шанхае и снова и снова повторял одну и ту же фразу, и никто меня не поправлял.
Спустя годы, когда я открыл для себя генеративный искусственный интеллект, я вспомнил инженера из Китая, который испытывал трудности с грамматикой и тонами.

Я хотел создать инструменты, которые могли бы мне помочь в прошлом.
Как основатель стартапа, я не располагаю большим количеством свободного времени, поэтому мне нужен был способ быстро создавать и тестировать новые инструменты.
Именно поэтому я обратился к n8n, чтобы создать помощников, которые значительно упростили бы мне практику китайского языка.

В этой статье я покажу, как я использую n8n и мультимодальный ИИ для создания «партнеров по изучению» языков, которые:
- Исправьте мое произношение с помощью функции преобразования текста в речь.
- Создайте упражнения для изучения списков лексики.
- Создавайте изображения для иллюстрации слов или контекстов для практики в формате карточек.
Вместе они демонстрируют, как искусственный интеллект и платформы с низким уровнем кодирования, такие как n8n, могут помочь любому, кто изучает сложный язык программирования.
Даже при ежедневном использовании все это вместе обходится менее чем в 1 евро в месяц.
Искусственный интеллект для произношения и понимания устной речи
Меня зовут Самир, я специалист по управлению цепочками поставок, и за шесть лет пребывания в Китае у меня возникли трудности с изучением китайского языка.
Позвольте представить вам Инь, разработанного мной на прошлой неделе интеллектуального тренера по языку.

Это веб-приложение, которое я разработал, чтобы поддержать свой процесс изучения китайского языка после более чем пяти лет без практики.
Он включает в себя три функции:
- Упражнения на произношение
- Вопросы с множественным выбором (MCQ)
- Флэш-карты
Я буду использовать каждую из этих функций, чтобы продемонстрировать, как я применяю мультимодальный ИИ для улучшения понимания прочитанного, аудирования и произношения на китайском языке.
Почему произношение в китайском языке так важно?
Позвольте мне рассказать реальную историю из Китая, чтобы подчеркнуть важность использования правильного тона в китайском языке.
Однажды меня пригласили на собеседование в крупнейшую китайскую компанию экспресс-доставки, рыночная капитализация которой исчисляется миллиардами.
Весь разговор велся на китайском языке.
Я тщательно подготовил свои предложения, подчеркнув, как я использую науку о данных для улучшения работы склада.

В какой-то момент мне захотелось сказать: «Я использую науку о данных для повышения производительности комплектации заказов на складе».
Глагол «picking» означает извлечение товаров с полок или стеллажей на складе.

В китайском языке мои коллеги использовали глагол拣货 (jiǎn huò) для описания этого процесса.
Но вместо того, чтобы сказать jiǎn huò , я сказал jiàn huò .

Это совершенно другое слово, которое вам точно не следует использовать на собеседовании.
Чтобы не нарушать приличий, давайте скажем, что jiàn huò — это грубое слово.
Менеджер расхохотался.
Я не понимала почему, пока позже не обсудила ситуацию с хедхантером и не повторила ей эту фразу.
Тот момент научил меня тому, что произношение в китайском языке — это не только естественное звучание.
Можно знать тысячи слов, но если тон голоса неправильный, люди тебя не поймут.
Именно поэтому первой функцией моего приложения является искусственный интеллект для проверки произношения .
Использование распознавания речи в текст для практики
Используя технологию преобразования речи в текст и логический анализ, приложение прослушивает мою речь, сравнивает её с целевым предложением и выдаёт обратную связь о том, какие интонации или слоги были искажены.

Здесь основное внимание уделяется улучшению моего произношения терминов, связанных с логистикой и цепочками поставок (моя область специализации).
Для каждого слова мы имеем:
- Слово в упрощенном китайском языке: 合同
- Предложение, которое я использовал для тренировки произношения: 我们需要在发货前签署这份运输合同。
- Перевод на английский: Нам необходимо подписать этот договор на перевозку до отправки товара.
Для начинающих мы можем даже добавить фонетическое обозначение (китайский пиньинь) с помощью переключателя.
Как тренировать произношение?
Мне достаточно нажать кнопку микрофона внизу, чтобы записать свою фразу.

Запись автоматически отправляется на серверную часть для анализа, в ходе которого мое произношение сравнивается с правильным.
Через несколько секунд я получил ответ.
Обратная связь довольно подробная; в ней основное внимание уделяется словам, которые вы произнесли неправильно.

Это почти как иметь личного учителя, который исправляет мои ошибки в режиме реального времени, только этот учитель никогда не устает.
Конечно, это не заменит отличного преподавателя на индивидуальных занятиях, но может помочь вам попрактиковаться после уроков.
Когда я начал изучать китайский язык, я проводил вечера (после работы) в одиночестве, повторяя простые предложения, чтобы ознакомиться с нюансами тонов.
В то время у меня не было системы обратной связи; этот инструмент был бы очень полезен.
Как это работает?
Возможности преобразования текста в речь и логического мышления GenAI
Бэкенд представляет собой простой рабочий процесс n8n, подключенный к фронтенду через веб-хук.

Функции преобразования текста в речь используются для транскрипции аудиофайла, отправленного с пользовательского интерфейса, в фонетический формат (пиньин).

Выходные данные этого узла транскрипции аудио Gemini включают фонетический перевод:
[ { «content»: { «parts»: [ { «text»: «zuò pǐn huò zǒnggòng fàng zài èrshí ge tuōpán shàng.n» } ], «role»: «model» }, «finishReason»: «STOP», «avgLogprobs»: -0,16858814502584524 } ]
Затем эта пиньинь отправляется в узел искусственного интеллекта «Анализ произношения» вместе с целевым произношением.

В этом примере я неправильно произнес предпоследнее слово.

Именно это и упомянул агент в своем отзыве.
Это демонстрирует, как мы можем использовать возможности преобразования текста в речь в сочетании с рассуждениями моделей генеративного искусственного интеллекта для улучшения нашего произношения.
Это можно адаптировать под любой язык.
А как насчет генерации изображений и преобразования речи в текст?
Генеративный ИИ для создания контента
Если вы посмотрите на пользовательский интерфейс приложения, то заметите, что каждое слово имеет следующие особенности:
- Иллюстративное изображение
- Предложение, соответствующее контексту.
- Расшифровка аудиозаписи доступна через значки микрофона.

Этот контент создан с использованием моделей искусственного интеллекта для предоставления разнообразных учебных материалов по второй функции: карточкам для запоминания.
Решения для преобразования текста в речь
Отличный способ попрактиковаться в произношении — это слушать и повторять.
Поэтому, прежде чем записывать предложение, я могу научиться правильно произносить это слово, используя первую функцию преобразования речи в текст.

Для этого я использую API преобразования текста в речь от Google, поскольку он довольно удобен и бесплатен.
from gtts import gTTS def generate_speech(text: str, lang: str): filename = f»{uuid4().hex}.mp3″ filepath = f»./data/gtts/{filename}» tts = gTTS(text=text, lang=lang) tts.save(filepath)
С помощью нескольких строк кода вы можете сгенерировать озвучку любого слова, используя соответствующий языковой код.
Именно это я использовал в инструменте для создания карточек, который я представил на конференции Towards Data Science три года назад.

В тот момент идея заключалась в том, чтобы улучшить понимание на слух, добавив аудиосопровождение к ответам на карточках.
А как насчет длинных предложений?
Проблема с функцией преобразования текста в речь от Google заключается в роботизированном голосе.
К счастью, у нас одиннадцать лабораторий.

Описанный выше рабочий процесс связан с приложением через веб-перехватчик.
Узел Eleven Labs, который принимает выходные данные от функции «Сгенерировать пример» ИИ-агента для генерации аудиоверсии предложения.
Теперь пользователь может прослушать, как носитель языка произносит это предложение.
Что осталось? Вопросы и иллюстрации…
Создание учебных материалов
Как объяснялось в предыдущем разделе, предложения также генерируются с помощью искусственного интеллекта.
Узел AI Agent, работающий на платформе Gemini, принимает слово «to study» в качестве входных данных и использует приведенную ниже системную подсказку для генерации предложения.
Вы — репетитор китайского языка для профессионалов. Получив китайское слово, вы ДОЛЖНЫ вернуть JSON-объект, содержащий ТОЧНО следующие ключи: — «sentence»: короткое китайское предложение, использующее это слово в деловом или повседневном контексте; — «pinyin»: пиньин полного предложения; — «english»: английский перевод предложения. Возвращайте ТОЛЬКО корректный JSON. Без пояснений, обратных кавычек и лишнего текста. Пример: { «sentence»: «我去仓库检查货物。», «pinyin»: «Wǒ qù cāngkù jiǎnchá huòwù.», «english»: «I go to the warehouse to inspect the goods.» }
Это обеспечивает практически бесконечное разнообразие упражнений.
А вишенкой на торте является изображение, созданное с помощью Gemini Nano Banana, которое помогает нам связать слово с его контекстом.

Изучив тысячи китайских иероглифов, я заметил, что изображения помогают запоминать новые слова.
Именно это я и использую в функции карточек для запоминания.

Бэкенд n8n предоставляет фронтенду следующие возможности:
- Китайское слово, которое вы хотите выучить, с пиньином и английским переводом.
- Пример предложения и его перевод, сгенерированный GPT.
- Иллюстративное изображение, созданное Gemini.
Затем интерфейс пользователя управляет механизмом переворачивания карт.
Если вы хотите воспроизвести это решение, адаптированное под ваши нужды, я поделился аналогичным рабочим процессом на своем GitHub.
Вам нравятся вопросы с несколькими вариантами ответа? Генерированный искусственный интеллект может помочь!
Создайте упражнения на основе списка слов.
В качестве последней функции мы генерируем вопросы с несколькими вариантами ответа, чтобы изучить тот же список слов.

Мы просим Gemini генерировать вопросы из списка лексики, используя варианты с несколькими вариантами ответа, из которых только один является правильным.
[ { «output»: { «question»: «Что из следующего является правильным китайским переводом слова «переменное ценообразование»? Пожалуйста, ответьте A, B, C или D.», «options»: { «A»: «仓库», «B»: «可变定价», «C»: «卡车司机», «D»: «投标» }, «correct»: «B», «right_feedback»: «Отличная работа! 可变定价 (kě biàn dìng jià) означает переменное ценообразование.», «wrong_feedback»: «Упс! Правильный ответ — B: 可变定价 (kě biàn dìng jià), что означает переменное ценообразование.» } } ]
Фронтенд использует эти данные для предоставления вопросам адаптированной обратной связи.

В основе этой функции лежит рабочий процесс n8n, которым я также поделился на своем GitHub: AI-Powered Language Teacher using GPT.
Заключение
Я разработал это приложение, чтобы поэкспериментировать с тем, как искусственный интеллект может улучшить мои способности к обучению.
После почти пяти лет незнания китайского языка этот мультимодальный ИИ-помощник оказался очень полезным.
Вся серверная часть построена на n8n для быстрого прототипирования и бесшовной интеграции.
Вы не знакомы с n8n и хотите изучить его?
На моем канале YouTube есть подробное руководство для начинающих, которое проведет вас от создания экземпляра до настройки учетных данных.
После прохождения этого урока вы сможете использовать любые рабочие процессы, представленные в моем репозитории.

Поскольку у меня нет времени на очные занятия по китайскому языку, я могу нанять ассистента, который будет подстраиваться под мой график.
Мы можем сделать лучше?
В «плане» этого небольшого побочного проекта у меня есть:
- Добавление сложных грамматических упражнений, которые можно выполнять устно (сочетая понимание прочитанного, грамматику и произношение).
- Разработка модуля для исправления почерка с помощью обработки изображений.
В зависимости от моей доступности, я планирую отправить его к первому кварталу 2026 года.
Обо мне
Давайте свяжемся в LinkedIn и Twitter; я инженер по управлению цепочками поставок, использующий анализ данных для улучшения логистических операций и снижения затрат.
Для консультаций или получения рекомендаций по аналитике и устойчивой трансформации цепочек поставок, пожалуйста, свяжитесь со мной через Logigreen Consulting.
Источник: towardsdatascience.com























