05.02.2021 | 07:22

Иннокентий Иванов: «Саха тылын тылбаасчыта Google, Яндекс платформалартан ордук буолуоҕа»

Ааптар: Киин Куорат
Бөлөххө киир

Төһөнөн олохпут сайдар да, кыра-хара норуот эстии суолугар үктэнэр курдук. Ким билиэ баарай, баҕар, аҕыйах сылынан омуктуу эрэ саҥарар буолуохпут. Саха тыла сүтэр кутталлааҕа барыбытын долгутар.

Иннокентий Иванов – олоҕун номнуо науканы кытта ситимнээбит эдэр чинчийээччи. Кини аан дойду бары норуотун хабар сахалыы тылбаасчыты оҥорон таһаарар былааннаах үлэлии сылдьар. Бырайыагын ситиһиилээхтик  көмүскээтэҕинэ, баара-суоҕа 26 сааһыгар наука учуонайын аатын сүгүө.

— Мин М.К. Аммосов аатынан ХИФУ математика уонна информатика институтугар аспирантураҕа үөрэнэбин. Научнай салайааччым – Александр Олегович Васильев. Кини – “математическай моделирование уонна компьютернай ааҕыылар”  аан дойдутааҕы научнай-чинчийэр лаборатория научнай үлэһитэ, физико-математическай наука кандидата.

Үөрэҕим таһынан “Алмаасэргиэнбаан” АУо-ҕа программиһынан үлэлии сылдьабын.

Науканан хаһааҥҥыттан дьарыктанаҕын?

— 2014 с. саҕаламмыта (мин оччолорго бакалавр устудьуона этим). Науканан дьарыктанар бастыҥ ыччаты кытта Өлүөнэ өрүс устун үс күннээх туурга айаннаабытым. Онтон ыла наука миэнэ буоларын өйдөөбүтүм. Араас деятеллэр кэпсээннэрин, кинилэр өйдөрүн-санааларын, уһулуччулаах дириҥ дьулуурдарын сэргии истибитим. Үрдүк үөрэххэ үөрэнэр интэриэһим үрдээн барбыта, наукаттан кынаттанан үөрэхпэр мотивацияламмытым уонна научнай үлэнэн дьарыктанарга бэлэм этим.

Соторутааҕыта Арассыыйа  фундаментальнай чинчийиитин пуондатыттан  грант сүүйбүтүҥ туһунан кэпсээ эрэ.

— Саха тылын чөлүгэр түһэрэн үөрэтии  өр сыллаах чинчийиим уонна тус үөрэтиим түмүгэ буолар. Биир түгэҥҥэ оннооҕор чинчийиим тиэмэтин уларытарга күһэллибитим. Онно боппуруос маннык этэ: улахан дааннайдары үөрэтии (Big Data) биитэр нейроннай сибээһи уонна ньиэрбэни  чиҥэтэн саха тылын үөрэтии. Ханныгын да иһин, сахам тыла быдан чугас этэ, онон чинчийиим тиэмэтэ «Изучение методов токенизации текстов на якутском языке на основе рекуррентных и сверточных нейронных сетей для подготовки набора данных для машинного обучения» диэн буолбута.

Уустук ааттаах-суоллаах үлэ бэрт судургу истээх диэххэ сөп: биһиги саха тылын тиэкистэригэр олоҕуран нейроннай ситими үөрэтэбит уонна онно математическай алгоритм ылабыт. Бу алгоритмҥа цифровой сервис нөҥүө Сахабыт сиригэр туһааннаах интеллектуальнай бородууктаны таһаарабыт.

Кытаанах сүүмэрдээһин кэнниттэн 1 200 000 суумма үбүлээһини ылбыппыт. Бу туһунан  научнай салайааччыбын кытта бэс ыйыгар билбиппит.  Грант 2020 сыл балаҕан ыйыттан саҕалаан икки сылга суоттаммыт.

Саха тылын  онлайн-тылбааһын олохтуур бырайыагы олоххо киллэрэр былааннааххын?

— Оннук!Биһиги моделларбытын туһаныы хааччахтаммат: ол араас манипуляцияларга көстүөн сөп. Холобура,  тиэкистээх сервис буолуон сөп, көннөрү генерацияттан субтитрдары айыыга тиийэ оҥоһуллара былааннанар.

Уопсайынан, тоҕо маннык тылбаасчыт оҥоруохха наада диэн санаа үөскээтэ?

— Мин Дьокуускай куоракка тоҕус сыл олордум, оскуолабын нуучча сэлиэнньэтигэр бүтэрбитим. Оскуолаҕа саха тылын үөрэппитим эрээри, билигин даҕаны сахалыы кэпсэтэрбин ыарырҕатабын. Тылы билэбин эрээри, олуттаҕастык саҥарабын. Саха буолан баран төрөөбүт тылбынан ыраастык, чаҕылхайдык саҥарбаппыттан кыбыстабын.

Аны туран, билигин ийэ тылы харыстааһыҥҥа хас биирдии норуот күүскэ ылсан эрэр. Тылбытын харыстыыр уонна сүтэрбэт биир бастыҥ ньымабыт – бу биһиги цифровой куйаарбыт. Цифровой таһым баар буоллаҕына, хас биирдии биллиилээх сервис сахалыы тылынан өҥөнү көрдөрүөҕэ уонна контент биэриэҕэ. Бу биһиги чинчийэр сүрүн сорукпут буолар.

Яндекс платформа сахалыы тылбаасчыттаах дии. Эһиэнэ туох уратылаах буолуой?

— Нейро-сибээс моделын оҥорууга анал  лицензия анныгар аһыллыаҕа, ханнык баҕарар оҥорон таһаарааччы биһиги үлэбитин туһаныан уонна саха ырыынагар сөп түбэһиннэрэн бэйэтин сервиһин арыйыан сөптөөх буолуо.  Яндекс киэнигэр сервис барыта сабыылаах турар, боростуой программист төһө да өйдөөх буоллар, хайдах оҥоһуллубутун билэр кыаҕа суох. Судургутук эттэххэ, барыта кистэлэҥ.

Тылбаасчыт хайдах үлэлиэҕэй?

— Онлайн-тылбаасчыт классическай хабааннаахтык үлэлиэҕэ. Ис моһуона Google, Microsoft, Яндекс бородууксуйаларыттан туох да итэҕэһэ суох. Уратыта диэн кини төһөнөн үлэлиир да, соччонон үрдүк таһымнаах дааннайдары ылар уонна түргэнник үөрэнэр, ол аата тылбааһы хаачыстыбалаахтык толорор буолар.

Бу бырайыак үлэтин хаһан саҕалаабытай? Билигин ханнык түһүмэххэ сылдьарый?

— Ситимнээх үлэ быйыл тохсунньуттан саҕаланна. Сахалыы тиэкистэри бары базалартан биир кэлим хомуурунньукка түмэр уһун үлэ барыахтаах. Ону dataset диэн ааттаах биир кэлим сервискэ угуллар. Бу үлэ бырайыак 80 % бириэмэтин ылар. Ордубут 20 % нейрон ньиэрбэтин үөрэтиигэ бырассыаһын уонна кини моделын оҥорууга барар. 

Болдьоҕо билигин ырыынакка компьютернай комплектар сыаналарыттан тутулуктанар. Грант усулуобуйатынан диссертациябын 2022 с. сааһыгар көмүскүөхтээхпин, онтон сыыйа-баайа үлэ түмүктэниэҕэ уонна  ырыынакка тахсара былааннаныа.

2022 сыл балаҕан ыйыгар 1.0 диэн версия тахсыаҕа, ол эбэтэр киэҥ араҥаҕа,  ырыынакка тахсыбыт курдук ааҕыахха сөп буолуо.

Тылбаасчыты оҥорууга өссө ким кыттарый?

— Бу салааҕа чинчийиилэри уонна маннык саҕалааһыннарга араас өйөбүлү оҥорор научнай салайааччыбын өссө төгүл бэлиэтиибин.  Уопсайынан, интэриниэккэ литература, тус сыаллаах лаборатория суох. Күүстээх көмпүүтэр, тулуур уонна үлэни олоххо киллэрэр бириэмэ эрэйиллэр.

Тылбаасчыт инникитин хайдах туһаныллыай?

— Кини үөрэниэҕэ, ол аата хаачыстыбалаах тылбааһы сатыыр буолуоҕа. Ону тэҥэ МФЦ уонна университет социальнай сервистэрин киллэрии былааннанар, сахалыы тылынан өҥөнү оҥорорго көмөлөһүө. Маны таһынан сахалыы контент барыта киирэр кыахтаныа.

Уруулуу омуктарбыт тыллара биһиэхэ майгынныыр, маны хайдах хааччахтыыгын?

— Тюркология салаатын тылларыгар нейрон ситимин моделларын булуу диэн суох. Биһиэхэ тыл ньиэрбэтэ наада. Ньиэрбэ уонна мэйии бииргэ үлэлиэхтээхтэр. Турция учуонайдарыттан хас да модель баар, ол эрээри тылбыт алпаабыта уратылаах (кинилэргэ – латиница, биһиэхэ – кириллица). Биһиги тиэкистэрбитигэр толору тургутан көрөр кыахпыт суох.

Түмүккэ, билиҥҥи ыччат төрөөбүт тылын билбэтин туох дии саныыгын?

— Төрөөбүт тылы таһынан, ыччат английскай уонна  нуучча тылын үөрэтэр, саҥарар. Бу улахан кыһалҕа буолбатах.

СӨ норуоттарын култууратын  үөрэтии дисциплиналара баарын үрдүнэн, нууччалыы уонна английскайдыы тылынан үөрэтэллэр. Бу кэннэ ыччат сахалыы саҥарбата чуолкай. Онон бу быһыы-майгы төрүт уларыйбат кэмигэр, биһиги  сахалыы сатаан саҥарбат дьону кытта элбэхтик көрсүһүөхпүт, кэпсэтиэхпит. Кистээбэккэ эттэххэ, төрөөбүт тылларын билбэт дьон, ыччат култуурунай өйдөбүллэринэн атын омук курдук тэйэллэр.

Күндү бар дьонум! Ийэ тылбыт уус-уран күүһүн, кэрэтин, илбиһин, хомуһунун эппититтэн-хааммытыттан, өйбүтүттэн-санаабытыттан араарымыах, кини уратытын сайыннарыах диэн баҕа санаабын “Киин куорат” хаһыат ааҕааччыларыгар тиэрдэбин.

Ити курдук, бэрт сытыы өйдөөх, тобуллаҕас толкуйдаах, аныгы технологияны туһанан, ураты, сонун көрүүнү киллэрэр уонна аҕыйах кэминэн  саха тылын үрдүк кэрдиискэ таһаарар сыаллаах эдэр учуонайдыын кэпсэтиим түмүктэнэр.

Сонуннар

Ордук ааҕаллар

Аҕаа, бырастыы
Сынньалаңңа | 27.11.2024 | 10:00
Аҕаа, бырастыы
Уйбаан нэһиилэ сэттис этээскэ сынньана-сынньана кирилиэһинэн тахсан, кыыһа олорор ааныгар кэлэн, оргууй соҕус тоҥсуйда. Баҕардар дьиэҕэ ким да суоҕа дуу дии санаан, кулгааҕын ааҥҥа даҕайан иһиллээн тура түстэ. Киһи атаҕын тыаһа хааман кэлэн, сиэнэ уол куолаһа нууччалыы: «Кто там?» – диэн ыйыппытыгар: – Мин. Тоойуом, мин кэллим, ааҥҥын арый, –...
Кымыс Байбал ыра санаата туолуо дуо?
Сытыы муннук | 28.11.2024 | 14:00
Кымыс Байбал ыра санаата туолуо дуо?
Үөһээ Бүлүү улууһун Маҥаас нэһилиэгин 9 оҕолоох ыалын улахан уола Байбал Васильев оҕо эрдэҕиттэн эппиэтинэскэ үөрэммитэ, хайдахтаах да уустуктан чаҕыйбат, кыраларга холобур буола улааппыта күн бүгүнүгэр  диэри биллэр. Ытык киһибит быйыл 75-с хаарын санныгар түһэрдэ, сааһырда. Ол эрээри олоххо киллэрбит кыһыннары кымыстыыр дьарыгын тохтотуон, өбүгэ кымыстыыр үгэһин үйэтитэр баҕатыттан аккаастаныан...
Туох да мээнэҕэ буолбат
Сынньалаңңа | 25.11.2024 | 23:17
Туох да мээнэҕэ буолбат
Сардаана куруук да холку-наҕыл бэйэтэ, мэктиэтигэр хараҕын уута биллэ-көстө ыгыллан тахсыар диэри абатыйда. Кыһыйбытын омунугар „үөрүүлээх“ сонуну тиэрдибит суотабайын дьыбааҥҥа элиттэ. Хаарыан былаан!! Күүтүүлээх көрсүһүү хаалла!! Бүгүн үлэтигэр бардаҕына табыллар буолбут!   Саатар, бэҕэһээ биллибитэ буоллар. Түүҥҥү дьуһуурустубатын кэнниттэн сынньаммакка, түүннэри былаачыйа тиктэн „быччайан“ олоруо суох этэ! Кыргыттара төһө эрэ хомойоллор....
Күндү күтүөт, көмүс күтүөт, көйгө күтүөт...
Сонуннар | 01.12.2024 | 12:00
Күндү күтүөт, көмүс күтүөт, көйгө күтүөт...
«Теща» туһунан атын омуктарга олус элбэх анекдот, көр-күлүү баар. Оттон биһиги, сахалар, күтүөт уолбутун хайдах ылынабыт, сыһыаммыт хайдаҕый, төһө тапсабытый? Өйдөспөт түгэн таҕыстаҕына, кыыскын көмүскүүгүн дуу, күтүөт диэки буолаҕын дуу? Онон бүгүн күтүөттэр туһунан кэпсэтиэххэйиҥ.   Светлана Петровна: — Мин ыал буолбутум оруобуна 40 сыл буолла. Ол эбэтэр 1984 сылга дьонум...