AIEd: искусственный интеллект в образовании на примере алгоритма кластеризации K-средних

Статья опубликована в рамках: Международной научно-практической интернет-конференции «Актуальные проблемы методики обучения информатике в современной школе» (Россия, г.Москва, МПГУ, 24-26 апреля 2018г.)

AIEd: искусственный интеллект в образовании на примере алгоритма кластеризации K-средних

Салахова Алена Антоновна
магистрант ФГБОУ ВО «МПГУ»
Россия, г.Москва
e-mail: aa.salakhova@yandex.ru

Руководитель: Самылкина Н.Н.
кандидат педагогических наук, доцент
 

В современном технологичном мире неоценима роль искусственного интеллекта и интеллектуальной обработки больших массивов данных.  Вручную человек уже не способен справляться с постоянно растущим количеством поступающей информации. Кроме того, скорость обработки данных и получения новых зависимостей человеком значительно уступает возможностям искусственного интеллекта. Стоит отметить, что искусственный интеллект в некоторых областях давно превосходит человека (например, нейронные сети с 2015 года в распознавании образов). Также существует тенденция математизации образования, влекущая применение новых инструментов и средств в образовательном процессе и его сопровождении, и многие подходы и технологии получили свои образовательные аналоги. Например, методология гибкой разработки из ИТ-сектора перешла в образование с некоторым изменением (адаптацией) положений манифеста как EduAgile (и как конкретная методология eduScrum).

Искусственный интеллект в образовании (AIEd) можно разбить на две больших категории по сфере и принципу его применения:

  1. сопровождение учебного процесса и досуговой деятельности:
    • оценивание результатов тестирования, составление эмоциональных карт обучающихся, прогнозирование результатов, и прочее, относящееся к внешнему контролю со стороны преподавателей и психологов (на всех ступенях);
    • интеллектуальные помощники и тьюторы при дистанционном обучении, интеллектуальные компаньоны (в основном, чатботы) для имитации групповой деятельности, напрямую взаимодействующие с обучающимися (начиная с НОО и на ООО).
  2. изучение основ искусственного интеллекта (на ступени СОО):
    • введение в науку об искусственном интеллекте:
      • изучениезадач искусственного интеллекта[2],
      • рассмотрение основных подходов и школ;
    • робототехника: переход от систем автоматизации к настоящей робототехнике (как одной из задач искусственного интеллекта), включающей применение алгоритмов компьютерного зрения и обработки больших массивов данных[5];
    • изучение интеллектуальных алгоритмов, применяемых в экономике, социологии и других областях, введение TextMining и DataMining:
      • применение готовых решений (пакетов и библиотек) с графическим интерфейсом;
      • изучение с составлением алгоритмов на языках Python, C++ и других (углублённый уровень курса информатики на ступени СОО);
    • экспертные системы:
      • применение экспертных систем, создание онтологий;
      • написание собственных систем (углублённый уровень курса информатики);
    • нейронные сети:
      • изучение принципа работы нейронных сетей с применением готовых решений (например, CNTKили MicrosoftAzure);
      • написание простых реализаций персептрона, многослойной сети (например, на Pythonс применением библиотеки keras[3]).

Для изучения возможно использование так называемых классических алгоритмов, решающих различные задачи DataMining (интеллектуального (глубинного) анализа данных).Стоит отметить, что классические алгоритмы занимают лидирующие позиции в топах применяемых алгоритмов [14] как раз из-за возможности их достаточно простого объяснения и реализации. Кроме того, их широкое распространение обеспечивает наличие готовых модулей, библиотек или даже решений с графическим интерфейсом, что делает алгоритмы доступными для понимания обучающимися с любым уровнем подготовки (и составление индивидуальных траекторий изучения темы с акцентированием внимания на различные стороны применения алгоритма).

Рассмотрим в качестве примера задачу кластеризации. Кластерный анализ (кластеризация, англ. DataClustering или ClusterAnalysis) — это задача разбиения заданной выборки объектов, обладающих свойствами, на кластеры [10]. Алгоритмы кластеризации применяются в самых передовых областях развития техники и технологий (в том числе когнитивные сервисы и робототехника). Самый распространённый неиерархический алгоритм кластеризации  – это метод K-Means (K-средних, метод динамических ядер). Также он является вторым по популярности алгоритмом DataMining[14]. Идея алгоритма динамических ядер заключается в разбиении конечного (дискретного) множества 

кластеров таким образом, чтобы элементы одного кластера были максимально похожи (минимизация изменчивости внутри кластеров), а различных – максимально отличались (максимизация изменчивости между кластерами), причём кластеры не пересекаются и не совпадают[10]. Задача алгоритма заключается в минимизации сумм квадратов расстояний от каждой точки кластера до его центра (центра масс кластера), то есть может быть представлена как решение следующей задачи оптимизации, где d– функция расстояния (чаще – Евклидово расстояние, однако более рациональным является выбор расстояния Махаланобиса [12], учитывающее корреляцию между признаками):

 где c – обновляемый центр кластера С, x – вектор-объект из множества всех объектов X [6].

Особое внимание следует уделить стандартизации данных (приведению данных к одному типу) и их нормализации(приведению их к одинаковому масштабу) [1] и, если это требуется, изменению размерности для наглядности [4]. В качестве входных данных чаще всего выступает признаковое описание объектов, где под признаком понимается характеристика объекта (его конкретное свойство) в виде непрерывных значений (например, количественные числовые значения) или дискретных значений (ранговые или номинальные признаки).Состав кортежа описаний влияет на выбор метрики. Для визуализации результатов и дальнейшей демонстрации принципа кластеризации обучающимся желательно приведение данных к двумерному виду для дальнейшего отображения на плоскости в виде цветных точек.

Для демонстрации возможно использование следующих готовых решений и компонентов, которые обучающимся предлагается объединить (например, в ходе лабораторной работы на уроке информатики): модуль K-MeansClustering для MicrosoftAzureMLStudio[11], пакеты cluster и factoextra для R-Studio (доступен в CoCalc), библиотекиScikit-learn [13], nymby [9] и pandas [8]для Python (например, в облачной среде CoCalc). Все перечисленные варианты доступны для любого преподавателя и ребёнка, поскольку облачные решения не требуют установки и доступны с любого гаджета средствами браузера. Продукт от Microsoftпредусматривает использование образовательной лицензии, предоставляющей бесплатный доступ к виртуальной лаборатории машинного обучения. Кроме того, для стандартизации данных и предварительной работы по их подготовке возможно использование СУБД MySQL и языка SQL соответственно, что позволяет интегрировать тему с модулем, посвящённым базам данных.

Модификации алгоритма могут быть продемонстрированы с помощью пакетов или готовых решений, написанных на языке Python. Многие из них можно найти в свободном доступе в репозиториях на GitHub, SouseForgeили в обсуждениях наStackOverflow.

Искусственный интеллект в школе сегодня – это междисциплинарный инструмент, а не только тема. Изучаемые алгоритмы для закрепления понимания могут быть использованы в качестве инструментов для обработки данных в ходе проектной или операционной деятельности на различных предметах. Например, на уроке обществознания или при подготовке исследования по лингвистическим особенностям литературных источников –MN итеративный алгоритм K-медиан (одна из модификаций K-Means) был изначально разработан для анализа частоты встречаемости определённых сочетаний букв в текстах [7]. При предварительной обработке текстовых данных также появляется возможность продемонстрировать математизацию этой гуманитарной сферы путём применения специальных редакторских расстояний (например, метрики Хэмминга или расстоянийДжаро-Винклераили Дамерау-Левенштейна).

Данный алгоритм и его модификации могут быть использованы также для сопровождения учебного процесса, а именно для:

  • анализа предпочтений и успеваемости для деления на подгруппы приреализации проектной деятельности обучающихся;
  • деления на максимально продуктивные группы (в том числе в урочнойдеятельности);
  • анализа абитуриентов по городам, округам и баллам;
  • выделения групп, близких по важным критериям и адресам длявзаимодействия;
  • анализа карт интересов и академической успеваемости обучающихся;
  • анализа эмоционального климата школы, выделения признаков особыхгрупп обучающихся, требующих дополнительного внимания.

Искусственный интеллект в образовании (AIEd), обладая рядом примечательных особенностей, является новой, но перспективной технологией в современной школе, поскольку он способен удовлетворить большое количество потребностей, возникающих у педагогов и обучающихся в образовательном процессе.

ЛИТЕРАТУРА:

  1. Воронцов К.В.Лекции по алгоритмам кластеризации и многомерного шкалирования [Электронный ресурс]. – Режим доступа : http://www.cs.ru/voron/download/Clustering.pdf, свободный. – Загл. с экрана.
  2. Калинин И.А., Самылкина Н.Н. Информатика. Углублённый уровень: учебник для 11 класса. М.: БИНОМ, 2013. — 4 Гл.
  3. Морозова А.Н. «Использование библиотеки Keras дляизучения нейронных сетей в углублённом курсе информатики.» Материалы научной сессии студентов МПГУ 2018.
  4. Павел Нестеров. Визуализация двумерного гауссиана на плоскости [Электронный ресурс]. – Режим доступа : https://habrahabr.ru/post/199060/, свободный. – Загл. с экрана.
  5. Самылкина Н.Н. Материалы выступления на Всероссийском Педагогическом Марафоне предметов, День Информатики, 9.04.2018.
  6. Шибзухов, З. М. Кластеризация на основе поиска центров и усредняющие агрегирующие функции / З. М. Шибзухов. // Вестник КРАУНЦ. Физ.-мат. науки. – 2017. – № 3(19). – С. 70-77.
  7. Benjamin, J. Anderson. Adapting K-Medians to Generate Normalized Cluster Centers / J. Anderson. Benjamin. идр. // Proceedings of the Sixth SIAM International Conference on Data Mining. – 2006. – [Электронныйресурс]. – Режимдоступа :http://www.siam.org/meetings/sdm06/proceedings/015andersonb.pdf
  8. Data Science — Visualizing Data And Exploring Models (Alison Courses) [Электронныйресурс]. – Режимдоступа : https://alison.com/course/data-science-visualizing-data-and-exploring-models, свободный. – Загл. сэкрана.
  9. Implementing the k-means algorithm with numpy [Электронныйресурс]. – Режимдоступа : https://flothesof.github.io/k-means-numpy.html, свободный. – Загл. сэкрана.
  10. , MacQueen. Some Methods for Classification and Analysis of Multivariate Observations / MacQueen. J. // Proc. Fifth Berkeley Symp. Math. Stat. and Probab. – 1967. – Vol. 1. – pp. 281-297.
  11. K-Means Clustering. Azure Machine Learning Studio Module Reference [Электронныйресурс]. – Режимдоступа : https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/k-means-clustering, свободный. – Загл. сэкрана.
  12. Mahalanobis, PrasantaChandra. On the generalised distance in statistics / PrasantaChandra. Mahalanobis. // Proceedings of the National Institute of Sciences of India. – 1936. – 2(1). [Электронныйресурс]. – Режим доступа:http://bayes.acs.unt.edu:8083/BayesContent/class/Jon/MiscDocs/1936_Mahalanobis.pdf
  13. scikit-learn. K-meansClustering [Электронный ресурс]. – Режим доступа : http://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_iris.html#sphx-glr-auto-examples-cluster-plot-cluster-iris-py, свободный. – Загл. с экрана.
  14. TopAlgorithmsandMethodsUsedbyDataScientists [Электронный ресурс]. – Режим доступа : https://www.kdnuggets.com/2016/09/poll-algorithms-used-data-scientists.html, свободный. – Загл. с экрана.

Отправить ответ

Уведомить о
avatar
Sort by:   newest | oldest | most voted
А.С. Путина

Алена Антоновна, подскажите, пожалуйста, Вы пробовали давать этот материал в Лицее на уроках?

wpDiscuz