ВВЕДЕНИЕ В БОЛЬШИЕ ДАННЫЕ ДЛЯ ШКОЛЬНИКОВ

Статья опубликована в рамках: Международной научно-практической интернет-конференции «Актуальные проблемы методики обучения информатике в современной школе» (Россия, г.Москва, МПГУ, 24-26 апреля 2018г.)

ВВЕДЕНИЕ В БОЛЬШИЕ ДАННЫЕ ДЛЯ ШКОЛЬНИКОВ

Лапшева Елена Евгеньевна
кандидат педагогических наук, доцент

ФГБОУ ВО «Саратовский национальный исследовательский государственный университет имени Н.Г. Чернышевского»
Россия, г.Саратов
e-mail: lapsheva@yandex.ru

Огнева Марина Валентиновна
кандидат физико-математических наук

ФГБОУ ВО «Саратовский национальный исследовательский государственный университет имени Н.Г. Чернышевского»
Россия, г.Саратов
e-mail: ognevamv@gmail.com

В современном информационном обществе основной ценностью и предметом потребления становится информация. С появлением и развитием цифровых технологий, компьютерных сетей, онлайн-сервисов и социальных сетей объем данных стал возрастать экспоненциально. Ежедневно происходит обмен электронными письмами, фотографиями, видео, сообщениями и обсуждениями, публикация различных данных, совершаются онлайн-покупки. Естественно возникает потребность извлекать из этих данных полезную информацию, обрабатывать и анализировать ее.

Наука о данных (data science) – это совокупность методов и технологий, которые позволяют извлекать знания из данных, для работы в этой области необходим междисциплинарный набор знаний и навыков, необходимых для извлечения знаний (data mining) [1, 5].

Порог входа в data science высокий и различных методов для обработки данных, основанных в том числе, на знаниях высшей математики, много, поэтому чем раньше начнется формирование базовых навыков, необходимых для работы в этой области, тем более успешным будет дальнейшее обучение и профессиональная карьера.

Основы программирования на языке, который наиболее приспособлен для анализа данных, например, Python можно изучать уже в 8 – 9 классах (в рамках элективного курса или кружка), а в 10 и 11 классах делать упор на прикладное применение полученных знаний, а именно – на анализ данных с его помощью. Стоит отметить, что сейчас инициатива по преподаванию основ языка Python уже реализуется, например, компанией «Яндекс», которая в 2016 году открыла «Яндекс.Лицей» в четырех городах России [6]. В 2017 году это проект охватил 19 городов России и два города Казахстана. Саратов стал одной из стартовых площадок этого проекта. И ребята, заканчивающие в этом году программу Яндекс.Лицея, своими работами показывают, что освоение языка программирования Python на достаточно высоком уровне под силу школьникам 8-10 классов.

Лучшим инструментом для охвата большой аудитории школьников и ознакомления их с новыми тенденциями в сфере информационных технологий являются научно-популярные лекции. Преподаватели факультета компьютерных наук и информационных технологий Саратовского национального исследовательского государственного университета имени Н.Г. Чернышевского (КНиИТ СГУ) регулярно рассказывают о новшествах в сфере IT школьникам Саратова. Эти лекции проходят в рамках проектов «Школьная академия» (Физико-технический лицей №1) или «Просто о сложном» (Лицей математики и информатики).

Приведем небольшой пример содержания одной такой лекции о больших данных. При работе над ней встал вопрос о том, как показать школьникам: что такое Big Data? Почему они «большие»? Этот термин был введен редактором журнала Nature Клиффордом Линчем в 2008 году. Хорошим наглядным примером демонстрации и визуализации этого термина может явиться сравнение одного байта данных с рисовым зерном (0,03 г). Тогда один килобайт – это чашка риса (30 г), один мегабайт – мешок (30 кг), один гигабайт – это грузовик с прицепом (30 тонн), один терабайт – семь грузовых железнодорожных составов (30000 тонн), один петабайт – сто морских сухогрузов (30 млн. тонн). Разговор о «больших данных» начинается с данных объемом в десятки и сотни петабайт.

Откуда берутся большие данные? В этой части лекции самое главное донести до школьников, что большие данные во многом производим мы сами, когда совершаем покупки, говорим по телефону, общаемся в мессенжерах, играем в онлайн-игры, слушаем музыку или читаем электронную книгу. Даже наше перемещение по городу с мобильным устройством в кармане и фитнес-браслетом на запястье генерирует некоторый объем данных, передаваемый на серверы.

В этом месте очень важно поговорить о безопасности данных и нашей личной безопасности. Жизнь новых поколений значительно изменится благодаря «революции данных». И эти изменения могут иметь как положительный, так и отрицательный оттенок [2]. Использование интернета для организации международных программ общения и обучения школьников, расширяет возможности детей. Но персональные данные детей, которые попадают в сеть, могут использоваться третьими лицами для неизвестных целей. Приведем один лишь пример. В 2015 году фирма Mattel выпустила «smart» Барби, которая через смартфон, подключается к интернету и может быть использована как голосовой помощник ребенка, аналогично Apple Siri или Алисы в Яндекс. Фирма, разработавшая эту куклу, не скрывает того, что детские голоса собираются на серверах и могут быть переданы третьим лицам.[3].  

Важной частью обсуждения является рассказ о специалисте в области обработки больших данных. Каким он должен быть? Что знать? Где учиться?

Для участия в научно-популярных лекциях для школьников можно подключать студентов профильных направлений. На факультете КНиИТ СГУ в рамках дисциплины «Введение в специальность» первокурсники выполняют научно-популярные проекты, связанные с разными областями IT-сферы, в том числе, и с машинным обучением. По итогам защиты отбираются лучшие проекты, которые затем представляются в школах города и на дне открытых дверей факультета.

Следующим направлением работы является подготовка школьников к участию в научно-практических конференциях. Тема больших данных и машинного обучения является достаточно сложной для такого вида взаимодействия со школьниками, но вместе с тем очень интересной и современной, имеющей огромное прикладное значение. Конечно, такая работа не ведется «с нуля» и подготовку к конференции нужно начинать заранее. Логично, если первым этапом будет прослушивание научно-популярных лекций и/или посещение элективного курса. Вместе с тем, все больше и больше школьников, которые начинают самостоятельно проявлять интерес к данной теме, получив информацию из сети Интернет, СМИ и т.д., поучаствовав в открытых интернет-уроках (https://ai.proektoria.online/). Например, в 2017-2018 году ученики Физико-технического лицея города Саратова выполнили и представили на конкурс научно-популярные проекты по темам «Нейронные сети», «Компьютерное зрение», «Искусственный интеллект», а в 2018 году в Лицее математики и информатике десятиклассник создал программу для распознавания букв.

В настоящий момент сотрудники факультета КНиИТ СГУ разрабатывают программу и содержание элективного курса для создаваемого предуниверситария «Основы искусственного интеллекта». Занятия по данной теме будут проводиться как в теоретической, так и в практической форме. На теоретических занятиях будут даваться основные понятия, связанные с машинным обучением, анализом больших данных, распознаванием и т.д. На простых примерах будет показано, что такое нейронная сеть, дерево решений, рекомендательная система. На практических занятиях планируется использование Python с упором на библиотеки numpy, pandas, matplotlib [4]. Элементы этого курса были опробованы в текущем 2017-18 учебном году на спецкурсе для 11-классников в Лицее математики и информатики г. Саратова.

Преподаватели факультета КНиИТ СГУ, работающие не только со студентами, но и с детьми, видят перспективу в ознакомлении школьников 8 – 11 классов с основами машинного обучения и работы с большими данными. Используя большие данные, мы можем показать, что выявлять закономерности и работать с ними может и школьник. А в итоге мы можем продемонстрировать детям, что учиться интересно.

ЛИТЕРАТУРА:

  1. Aggarwal, C. C. Data clustering. Algorithms and applications / Charu C. Aggarwal, Chandan K. Reddy. N.-Y.: Chapman and Hall/CRC, 2014.
  2. Berman, G, Albright, K.. Children and the Data Cycle: Rights and Ethics in a Big Data World. // Gabrielle Berman; Kerry Albright. UNICEF 2017
  3. Байназаров, Н. Умная Барби может угрожать безопасности ребенка. / Наиль Байназаров. [Электронный ресурс] : [сайт]. URL: https://rb.ru/story/hello-barbie/ 4.12.2015
  4. Вандер, П. Дж. Python для сложных задач: наука о данных и машинное обучение. / Плас Дж. Вандер. – СПб.: Питер, 2018.
  5. Мюллер, А., Гвидо, С. Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными. / Андреас Мюллер, Сара Гвидо. – СПб.: Питер, 2018.
  6. Яндекс.Лицей. [Электронный ресурс] : [сайт]. URL: https://yandexlyceum.ru/#about
Подписаться
Уведомить о
guest
6 комментариев
oldest
newest
Inline Feedbacks
View all comments
Марина Горюнова
Марина Горюнова
3 лет назад

Уважаемые коллеги! С удовольствием сама прочитала статью и порекомендую ее своим коллегам в регионе как для построения перспективных планов работы с заинтересованными учениками в школе, так и при организации летних математических школ. Представленный реальный опыт в этом направлении очень полезен и актуален. Спасибо!

Е.Е. Лапшева
Е.Е. Лапшева
Reply to  Марина Горюнова
3 лет назад

Большое спасибо за отзыв! Мы сейчас постоянно думаем, как заинтересовать школьников программированием и сложной информатикой. При настоящем развитии технологий решением задачек на паскале из школьного учебника трудно кого-то заинтересовать.
Вот здесь и получается, что через примеры работы с большими данными, через «быстрое программирование» на python удается завлечь детей в большую и сложную науку информатику.

Т.А. Кувалдина
3 лет назад

Здравствуйте, дорогие коллеги!
Присоединяюсь к Вашим мнениям — замечательная публикация, отлично делается и представлена здесь ваша работа со школьниками.
Особенно отрадно увидеть и узнать о т.н. предуниверситарии и о разрабатываемом вами элективном курсе «Основы искусственного интеллекта».
Есть учебные пособия Л.Н. Ясницкого как для студентов, так и для школьников — единственный автор, кто сделал это для педагогических университетов. Это Пермский регион — очень давно и серьёзно там занимаются информатизацией образования.
Правда, в пособиях сделан акцент на нейронные сети.
Используете ли вы эти материалы?

Е.Е. Лапшева
Е.Е. Лапшева
Reply to  Т.А. Кувалдина
3 лет назад

Мы пока решили делать упор на библиотеки работы с большими данными, которые есть в Python. Это NumPy (работа с массивами), Pandas (хранение и работа с разнотипными данными) и Scikit-Learn (машинное обучение). Мы используем специальную литературу, например, Введение в научный Python (https://github.com/jakevdp/PythonDataScienceHandbook)
Спасибо за подсказку — мы теперь и материалы Ясницкого обязательно посмотрим и будем использовать.

Анастасия Николаевна
Анастасия Николаевна
3 лет назад

Здравствуйте, спасибо большую за статью. Скажите пожалуйста, потребуются ли обучающимся углублённые знания по математике, для того, чтобы начать изучать данный курс?

Е.Е. Лапшева
Е.Е. Лапшева
Reply to  Анастасия Николаевна
3 лет назад

Математика, конечно,нужна. И Физико-технический лицей Саратова и Лицей математики и информатики математику дают углубленную. Но изучение Python на серьезном уровне можно и с обычной математикой. Яндекс.Лицей прекрасно это доказывает.