05.02.2021 | 07:22

Иннокентий Иванов: «Саха тылын тылбаасчыта Google, Яндекс платформалартан ордук буолуоҕа»

Ааптар: Киин Куорат
Бөлөххө киир

Төһөнөн олохпут сайдар да, кыра-хара норуот эстии суолугар үктэнэр курдук. Ким билиэ баарай, баҕар, аҕыйах сылынан омуктуу эрэ саҥарар буолуохпут. Саха тыла сүтэр кутталлааҕа барыбытын долгутар.

Иннокентий Иванов – олоҕун номнуо науканы кытта ситимнээбит эдэр чинчийээччи. Кини аан дойду бары норуотун хабар сахалыы тылбаасчыты оҥорон таһаарар былааннаах үлэлии сылдьар. Бырайыагын ситиһиилээхтик  көмүскээтэҕинэ, баара-суоҕа 26 сааһыгар наука учуонайын аатын сүгүө.

— Мин М.К. Аммосов аатынан ХИФУ математика уонна информатика институтугар аспирантураҕа үөрэнэбин. Научнай салайааччым – Александр Олегович Васильев. Кини – “математическай моделирование уонна компьютернай ааҕыылар”  аан дойдутааҕы научнай-чинчийэр лаборатория научнай үлэһитэ, физико-математическай наука кандидата.

Үөрэҕим таһынан “Алмаасэргиэнбаан” АУо-ҕа программиһынан үлэлии сылдьабын.

Науканан хаһааҥҥыттан дьарыктанаҕын?

— 2014 с. саҕаламмыта (мин оччолорго бакалавр устудьуона этим). Науканан дьарыктанар бастыҥ ыччаты кытта Өлүөнэ өрүс устун үс күннээх туурга айаннаабытым. Онтон ыла наука миэнэ буоларын өйдөөбүтүм. Араас деятеллэр кэпсээннэрин, кинилэр өйдөрүн-санааларын, уһулуччулаах дириҥ дьулуурдарын сэргии истибитим. Үрдүк үөрэххэ үөрэнэр интэриэһим үрдээн барбыта, наукаттан кынаттанан үөрэхпэр мотивацияламмытым уонна научнай үлэнэн дьарыктанарга бэлэм этим.

Соторутааҕыта Арассыыйа  фундаментальнай чинчийиитин пуондатыттан  грант сүүйбүтүҥ туһунан кэпсээ эрэ.

— Саха тылын чөлүгэр түһэрэн үөрэтии  өр сыллаах чинчийиим уонна тус үөрэтиим түмүгэ буолар. Биир түгэҥҥэ оннооҕор чинчийиим тиэмэтин уларытарга күһэллибитим. Онно боппуруос маннык этэ: улахан дааннайдары үөрэтии (Big Data) биитэр нейроннай сибээһи уонна ньиэрбэни  чиҥэтэн саха тылын үөрэтии. Ханныгын да иһин, сахам тыла быдан чугас этэ, онон чинчийиим тиэмэтэ «Изучение методов токенизации текстов на якутском языке на основе рекуррентных и сверточных нейронных сетей для подготовки набора данных для машинного обучения» диэн буолбута.

Уустук ааттаах-суоллаах үлэ бэрт судургу истээх диэххэ сөп: биһиги саха тылын тиэкистэригэр олоҕуран нейроннай ситими үөрэтэбит уонна онно математическай алгоритм ылабыт. Бу алгоритмҥа цифровой сервис нөҥүө Сахабыт сиригэр туһааннаах интеллектуальнай бородууктаны таһаарабыт.

Кытаанах сүүмэрдээһин кэнниттэн 1 200 000 суумма үбүлээһини ылбыппыт. Бу туһунан  научнай салайааччыбын кытта бэс ыйыгар билбиппит.  Грант 2020 сыл балаҕан ыйыттан саҕалаан икки сылга суоттаммыт.

Саха тылын  онлайн-тылбааһын олохтуур бырайыагы олоххо киллэрэр былааннааххын?

— Оннук!Биһиги моделларбытын туһаныы хааччахтаммат: ол араас манипуляцияларга көстүөн сөп. Холобура,  тиэкистээх сервис буолуон сөп, көннөрү генерацияттан субтитрдары айыыга тиийэ оҥоһуллара былааннанар.

Уопсайынан, тоҕо маннык тылбаасчыт оҥоруохха наада диэн санаа үөскээтэ?

— Мин Дьокуускай куоракка тоҕус сыл олордум, оскуолабын нуучча сэлиэнньэтигэр бүтэрбитим. Оскуолаҕа саха тылын үөрэппитим эрээри, билигин даҕаны сахалыы кэпсэтэрбин ыарырҕатабын. Тылы билэбин эрээри, олуттаҕастык саҥарабын. Саха буолан баран төрөөбүт тылбынан ыраастык, чаҕылхайдык саҥарбаппыттан кыбыстабын.

Аны туран, билигин ийэ тылы харыстааһыҥҥа хас биирдии норуот күүскэ ылсан эрэр. Тылбытын харыстыыр уонна сүтэрбэт биир бастыҥ ньымабыт – бу биһиги цифровой куйаарбыт. Цифровой таһым баар буоллаҕына, хас биирдии биллиилээх сервис сахалыы тылынан өҥөнү көрдөрүөҕэ уонна контент биэриэҕэ. Бу биһиги чинчийэр сүрүн сорукпут буолар.

Яндекс платформа сахалыы тылбаасчыттаах дии. Эһиэнэ туох уратылаах буолуой?

— Нейро-сибээс моделын оҥорууга анал  лицензия анныгар аһыллыаҕа, ханнык баҕарар оҥорон таһаарааччы биһиги үлэбитин туһаныан уонна саха ырыынагар сөп түбэһиннэрэн бэйэтин сервиһин арыйыан сөптөөх буолуо.  Яндекс киэнигэр сервис барыта сабыылаах турар, боростуой программист төһө да өйдөөх буоллар, хайдах оҥоһуллубутун билэр кыаҕа суох. Судургутук эттэххэ, барыта кистэлэҥ.

Тылбаасчыт хайдах үлэлиэҕэй?

— Онлайн-тылбаасчыт классическай хабааннаахтык үлэлиэҕэ. Ис моһуона Google, Microsoft, Яндекс бородууксуйаларыттан туох да итэҕэһэ суох. Уратыта диэн кини төһөнөн үлэлиир да, соччонон үрдүк таһымнаах дааннайдары ылар уонна түргэнник үөрэнэр, ол аата тылбааһы хаачыстыбалаахтык толорор буолар.

Бу бырайыак үлэтин хаһан саҕалаабытай? Билигин ханнык түһүмэххэ сылдьарый?

— Ситимнээх үлэ быйыл тохсунньуттан саҕаланна. Сахалыы тиэкистэри бары базалартан биир кэлим хомуурунньукка түмэр уһун үлэ барыахтаах. Ону dataset диэн ааттаах биир кэлим сервискэ угуллар. Бу үлэ бырайыак 80 % бириэмэтин ылар. Ордубут 20 % нейрон ньиэрбэтин үөрэтиигэ бырассыаһын уонна кини моделын оҥорууга барар. 

Болдьоҕо билигин ырыынакка компьютернай комплектар сыаналарыттан тутулуктанар. Грант усулуобуйатынан диссертациябын 2022 с. сааһыгар көмүскүөхтээхпин, онтон сыыйа-баайа үлэ түмүктэниэҕэ уонна  ырыынакка тахсара былааннаныа.

2022 сыл балаҕан ыйыгар 1.0 диэн версия тахсыаҕа, ол эбэтэр киэҥ араҥаҕа,  ырыынакка тахсыбыт курдук ааҕыахха сөп буолуо.

Тылбаасчыты оҥорууга өссө ким кыттарый?

— Бу салааҕа чинчийиилэри уонна маннык саҕалааһыннарга араас өйөбүлү оҥорор научнай салайааччыбын өссө төгүл бэлиэтиибин.  Уопсайынан, интэриниэккэ литература, тус сыаллаах лаборатория суох. Күүстээх көмпүүтэр, тулуур уонна үлэни олоххо киллэрэр бириэмэ эрэйиллэр.

Тылбаасчыт инникитин хайдах туһаныллыай?

— Кини үөрэниэҕэ, ол аата хаачыстыбалаах тылбааһы сатыыр буолуоҕа. Ону тэҥэ МФЦ уонна университет социальнай сервистэрин киллэрии былааннанар, сахалыы тылынан өҥөнү оҥорорго көмөлөһүө. Маны таһынан сахалыы контент барыта киирэр кыахтаныа.

Уруулуу омуктарбыт тыллара биһиэхэ майгынныыр, маны хайдах хааччахтыыгын?

— Тюркология салаатын тылларыгар нейрон ситимин моделларын булуу диэн суох. Биһиэхэ тыл ньиэрбэтэ наада. Ньиэрбэ уонна мэйии бииргэ үлэлиэхтээхтэр. Турция учуонайдарыттан хас да модель баар, ол эрээри тылбыт алпаабыта уратылаах (кинилэргэ – латиница, биһиэхэ – кириллица). Биһиги тиэкистэрбитигэр толору тургутан көрөр кыахпыт суох.

Түмүккэ, билиҥҥи ыччат төрөөбүт тылын билбэтин туох дии саныыгын?

— Төрөөбүт тылы таһынан, ыччат английскай уонна  нуучча тылын үөрэтэр, саҥарар. Бу улахан кыһалҕа буолбатах.

СӨ норуоттарын култууратын  үөрэтии дисциплиналара баарын үрдүнэн, нууччалыы уонна английскайдыы тылынан үөрэтэллэр. Бу кэннэ ыччат сахалыы саҥарбата чуолкай. Онон бу быһыы-майгы төрүт уларыйбат кэмигэр, биһиги  сахалыы сатаан саҥарбат дьону кытта элбэхтик көрсүһүөхпүт, кэпсэтиэхпит. Кистээбэккэ эттэххэ, төрөөбүт тылларын билбэт дьон, ыччат култуурунай өйдөбүллэринэн атын омук курдук тэйэллэр.

Күндү бар дьонум! Ийэ тылбыт уус-уран күүһүн, кэрэтин, илбиһин, хомуһунун эппититтэн-хааммытыттан, өйбүтүттэн-санаабытыттан араарымыах, кини уратытын сайыннарыах диэн баҕа санаабын “Киин куорат” хаһыат ааҕааччыларыгар тиэрдэбин.

Ити курдук, бэрт сытыы өйдөөх, тобуллаҕас толкуйдаах, аныгы технологияны туһанан, ураты, сонун көрүүнү киллэрэр уонна аҕыйах кэминэн  саха тылын үрдүк кэрдиискэ таһаарар сыаллаах эдэр учуонайдыын кэпсэтиим түмүктэнэр.

Сонуннар

Ордук ааҕаллар

Медик: «Бааһырбыт байыаспын дөйүтэн баран соһорум»
Дьон | 20.12.2024 | 12:00
Медик: «Бааһырбыт байыаспын дөйүтэн баран соһорум»
Олус ыарахан кэпсэтии буолла. Ааҕааччыга тиэрдэр гына суруйуохха наада. Дьоруойум сөбүлэҥин ылыахпын наада. Тоҕо диэтэххэ кини анал байыаннай дьайыыга сылдьыбыт кэрэ аҥаар,  ийэ, медик. Кэпсии олорон ытаатаҕына, сырҕан бааһын таарыйаммын диэн кэмсинэн ылабын, онтон эмиэ чочумча буолан баран салгыыбыт.   Кини позывнойун кистиир, ханна баарын, билигин ханна олорорун эмиэ эппэппит. Сөбүлэһэн...
Хотой кырыыhа
Сынньалаңңа | 21.12.2024 | 12:00
Хотой кырыыhа
Аан Ийэ дойдуга алдьархайдаах сэрии уота сатыылаан, киhи-сүөhү, кыыл-сүөл, көтөр-сүүрэр барыта уйулҕата хамсаан, олоҕун укулаата ыhыллан, тыыннаах хаалар кыhалҕатыгар кыпчыттаран, олохсуйбут сириттэн тэлэhийэн, үрүң тыыннарын өрүhүнэр түбүгэр түстүлэр.     Оргуйа турар сэрии кутаатыттан тэскилээн, суттан-кураантан күрэнэн, төрөөбүт дойдутун хаалларан, көтөр кынаттаах бииhин ууhун көрдөhүүлэринэн, чуумпу-уйгу олоҕу көрдөөн, Хотой кыыл хоту диэки...
Ульяна Корякина:  «Сахам тылын саамай сүмэтин олоҥхоҕо көрөбүн»
Дьон | 20.12.2024 | 10:00
Ульяна Корякина: «Сахам тылын саамай сүмэтин олоҥхоҕо көрөбүн»
Емельян Ярославскай аатынан Дьокуускайдааҕы кыраайы үөрэтэр түмэл алгыс балаҕаныгар Прокопий Прокопьевич Ядрихинскай-Бэдьээлэ “Дьырыбына Дьырылыатта Кыыс Бухатыыр” олоҥхотун оллоонноон олорон толорон истээччилэри мунньар эдэркээн кыыс кимий?   – Ульяна, «Киин куорат» ааҕааччыларыгар бэйэҥ тускунан билиһиннэр эрэ. – Мин Чурапчы улууһугар Хоптоҕоҕо күн сирин көрбүтүм, улааппытым. Билигин Дьокуускайдааҕы М.Н. Жирков аатынан музыка коллеһын...
2025 сыл – Саха Өрөспүүбүлүкэтигэр Ийэ дойдуну көмүскээччи сыла
Сонуннар | 20.12.2024 | 18:51
2025 сыл – Саха Өрөспүүбүлүкэтигэр Ийэ дойдуну көмүскээччи сыла
Ахсынньы 19 күнүгэр Ил Дархан Айсен Николаев Ил Түмэҥҥэ туһулааһыныгар кэлэр 2025 сылы Саха Өрөспүүбүлүкэтигэр Ийэ дойдуну көмүскээччи сылынан биллэрдэ. Айсен Николаев бэлиэтээбитинэн, Саха сиригэр бүгүҥҥү күҥҥэ Аҕа дойду Улуу сэриитин 9 бэтэрээнэ олорор. «Бу саалаҕа анал байыаннай дьайыы кыттыылаахтара – Арассыыйа дьоруойдара, «Эр санаа» уордьанын, «Хорсунун иһин», «Бойобуой үтүөлэрин...