ВВЕДЕНИЕ В БОЛЬШИЕ ДАННЫЕ ДЛЯ ШКОЛЬНИКОВ

Статья опубликована в рамках: Международной научно-практической интернет-конференции «Актуальные проблемы методики обучения информатике в современной школе» (Россия, г.Москва, МПГУ, 24-26 апреля 2018г.)

ВВЕДЕНИЕ В БОЛЬШИЕ ДАННЫЕ ДЛЯ ШКОЛЬНИКОВ

Лапшева Елена Евгеньевна
кандидат педагогических наук, доцент

ФГБОУ ВО «Саратовский национальный исследовательский государственный университет имени Н.Г. Чернышевского»
Россия, г.Саратов
e-mail: lapsheva@yandex.ru

Огнева Марина Валентиновна
кандидат физико-математических наук

ФГБОУ ВО «Саратовский национальный исследовательский государственный университет имени Н.Г. Чернышевского»
Россия, г.Саратов
e-mail: ognevamv@gmail.com

В современном информационном обществе основной ценностью и предметом потребления становится информация. С появлением и развитием цифровых технологий, компьютерных сетей, онлайн-сервисов и социальных сетей объем данных стал возрастать экспоненциально. Ежедневно происходит обмен электронными письмами, фотографиями, видео, сообщениями и обсуждениями, публикация различных данных, совершаются онлайн-покупки. Естественно возникает потребность извлекать из этих данных полезную информацию, обрабатывать и анализировать ее.

Наука о данных (data science) – это совокупность методов и технологий, которые позволяют извлекать знания из данных, для работы в этой области необходим междисциплинарный набор знаний и навыков, необходимых для извлечения знаний (data mining) [1, 5].

Порог входа в data science высокий и различных методов для обработки данных, основанных в том числе, на знаниях высшей математики, много, поэтому чем раньше начнется формирование базовых навыков, необходимых для работы в этой области, тем более успешным будет дальнейшее обучение и профессиональная карьера.

Основы программирования на языке, который наиболее приспособлен для анализа данных, например, Python можно изучать уже в 8 – 9 классах (в рамках элективного курса или кружка), а в 10 и 11 классах делать упор на прикладное применение полученных знаний, а именно – на анализ данных с его помощью. Стоит отметить, что сейчас инициатива по преподаванию основ языка Python уже реализуется, например, компанией «Яндекс», которая в 2016 году открыла «Яндекс.Лицей» в четырех городах России [6]. В 2017 году это проект охватил 19 городов России и два города Казахстана. Саратов стал одной из стартовых площадок этого проекта. И ребята, заканчивающие в этом году программу Яндекс.Лицея, своими работами показывают, что освоение языка программирования Python на достаточно высоком уровне под силу школьникам 8-10 классов.

Лучшим инструментом для охвата большой аудитории школьников и ознакомления их с новыми тенденциями в сфере информационных технологий являются научно-популярные лекции. Преподаватели факультета компьютерных наук и информационных технологий Саратовского национального исследовательского государственного университета имени Н.Г. Чернышевского (КНиИТ СГУ) регулярно рассказывают о новшествах в сфере IT школьникам Саратова. Эти лекции проходят в рамках проектов «Школьная академия» (Физико-технический лицей №1) или «Просто о сложном» (Лицей математики и информатики).

Приведем небольшой пример содержания одной такой лекции о больших данных. При работе над ней встал вопрос о том, как показать школьникам: что такое Big Data? Почему они «большие»? Этот термин был введен редактором журнала Nature Клиффордом Линчем в 2008 году. Хорошим наглядным примером демонстрации и визуализации этого термина может явиться сравнение одного байта данных с рисовым зерном (0,03 г). Тогда один килобайт – это чашка риса (30 г), один мегабайт – мешок (30 кг), один гигабайт – это грузовик с прицепом (30 тонн), один терабайт – семь грузовых железнодорожных составов (30000 тонн), один петабайт – сто морских сухогрузов (30 млн. тонн). Разговор о «больших данных» начинается с данных объемом в десятки и сотни петабайт.

Откуда берутся большие данные? В этой части лекции самое главное донести до школьников, что большие данные во многом производим мы сами, когда совершаем покупки, говорим по телефону, общаемся в мессенжерах, играем в онлайн-игры, слушаем музыку или читаем электронную книгу. Даже наше перемещение по городу с мобильным устройством в кармане и фитнес-браслетом на запястье генерирует некоторый объем данных, передаваемый на серверы.

В этом месте очень важно поговорить о безопасности данных и нашей личной безопасности. Жизнь новых поколений значительно изменится благодаря «революции данных». И эти изменения могут иметь как положительный, так и отрицательный оттенок [2]. Использование интернета для организации международных программ общения и обучения школьников, расширяет возможности детей. Но персональные данные детей, которые попадают в сеть, могут использоваться третьими лицами для неизвестных целей. Приведем один лишь пример. В 2015 году фирма Mattel выпустила «smart» Барби, которая через смартфон, подключается к интернету и может быть использована как голосовой помощник ребенка, аналогично Apple Siri или Алисы в Яндекс. Фирма, разработавшая эту куклу, не скрывает того, что детские голоса собираются на серверах и могут быть переданы третьим лицам.[3].  

Важной частью обсуждения является рассказ о специалисте в области обработки больших данных. Каким он должен быть? Что знать? Где учиться?

Для участия в научно-популярных лекциях для школьников можно подключать студентов профильных направлений. На факультете КНиИТ СГУ в рамках дисциплины «Введение в специальность» первокурсники выполняют научно-популярные проекты, связанные с разными областями IT-сферы, в том числе, и с машинным обучением. По итогам защиты отбираются лучшие проекты, которые затем представляются в школах города и на дне открытых дверей факультета.

Следующим направлением работы является подготовка школьников к участию в научно-практических конференциях. Тема больших данных и машинного обучения является достаточно сложной для такого вида взаимодействия со школьниками, но вместе с тем очень интересной и современной, имеющей огромное прикладное значение. Конечно, такая работа не ведется «с нуля» и подготовку к конференции нужно начинать заранее. Логично, если первым этапом будет прослушивание научно-популярных лекций и/или посещение элективного курса. Вместе с тем, все больше и больше школьников, которые начинают самостоятельно проявлять интерес к данной теме, получив информацию из сети Интернет, СМИ и т.д., поучаствовав в открытых интернет-уроках (https://ai.proektoria.online/). Например, в 2017-2018 году ученики Физико-технического лицея города Саратова выполнили и представили на конкурс научно-популярные проекты по темам «Нейронные сети», «Компьютерное зрение», «Искусственный интеллект», а в 2018 году в Лицее математики и информатике десятиклассник создал программу для распознавания букв.

В настоящий момент сотрудники факультета КНиИТ СГУ разрабатывают программу и содержание элективного курса для создаваемого предуниверситария «Основы искусственного интеллекта». Занятия по данной теме будут проводиться как в теоретической, так и в практической форме. На теоретических занятиях будут даваться основные понятия, связанные с машинным обучением, анализом больших данных, распознаванием и т.д. На простых примерах будет показано, что такое нейронная сеть, дерево решений, рекомендательная система. На практических занятиях планируется использование Python с упором на библиотеки numpy, pandas, matplotlib [4]. Элементы этого курса были опробованы в текущем 2017-18 учебном году на спецкурсе для 11-классников в Лицее математики и информатики г. Саратова.

Преподаватели факультета КНиИТ СГУ, работающие не только со студентами, но и с детьми, видят перспективу в ознакомлении школьников 8 – 11 классов с основами машинного обучения и работы с большими данными. Используя большие данные, мы можем показать, что выявлять закономерности и работать с ними может и школьник. А в итоге мы можем продемонстрировать детям, что учиться интересно.

ЛИТЕРАТУРА:

  1. Aggarwal, C. C. Data clustering. Algorithms and applications / Charu C. Aggarwal, Chandan K. Reddy. N.-Y.: Chapman and Hall/CRC, 2014.
  2. Berman, G, Albright, K.. Children and the Data Cycle: Rights and Ethics in a Big Data World. // Gabrielle Berman; Kerry Albright. UNICEF 2017
  3. Байназаров, Н. Умная Барби может угрожать безопасности ребенка. / Наиль Байназаров. [Электронный ресурс] : [сайт]. URL: https://rb.ru/story/hello-barbie/ 4.12.2015
  4. Вандер, П. Дж. Python для сложных задач: наука о данных и машинное обучение. / Плас Дж. Вандер. – СПб.: Питер, 2018.
  5. Мюллер, А., Гвидо, С. Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными. / Андреас Мюллер, Сара Гвидо. – СПб.: Питер, 2018.
  6. Яндекс.Лицей. [Электронный ресурс] : [сайт]. URL: https://yandexlyceum.ru/#about

Отправить ответ

Уведомить о
avatar
Sort by:   newest | oldest | most voted
Марина Горюнова

Уважаемые коллеги! С удовольствием сама прочитала статью и порекомендую ее своим коллегам в регионе как для построения перспективных планов работы с заинтересованными учениками в школе, так и при организации летних математических школ. Представленный реальный опыт в этом направлении очень полезен и актуален. Спасибо!

Е.Е. Лапшева

Большое спасибо за отзыв! Мы сейчас постоянно думаем, как заинтересовать школьников программированием и сложной информатикой. При настоящем развитии технологий решением задачек на паскале из школьного учебника трудно кого-то заинтересовать.
Вот здесь и получается, что через примеры работы с большими данными, через «быстрое программирование» на python удается завлечь детей в большую и сложную науку информатику.

Т.А. Кувалдина

Здравствуйте, дорогие коллеги!
Присоединяюсь к Вашим мнениям — замечательная публикация, отлично делается и представлена здесь ваша работа со школьниками.
Особенно отрадно увидеть и узнать о т.н. предуниверситарии и о разрабатываемом вами элективном курсе «Основы искусственного интеллекта».
Есть учебные пособия Л.Н. Ясницкого как для студентов, так и для школьников — единственный автор, кто сделал это для педагогических университетов. Это Пермский регион — очень давно и серьёзно там занимаются информатизацией образования.
Правда, в пособиях сделан акцент на нейронные сети.
Используете ли вы эти материалы?

Е.Е. Лапшева

Мы пока решили делать упор на библиотеки работы с большими данными, которые есть в Python. Это NumPy (работа с массивами), Pandas (хранение и работа с разнотипными данными) и Scikit-Learn (машинное обучение). Мы используем специальную литературу, например, Введение в научный Python (https://github.com/jakevdp/PythonDataScienceHandbook)
Спасибо за подсказку — мы теперь и материалы Ясницкого обязательно посмотрим и будем использовать.

Анастасия Николаевна

Здравствуйте, спасибо большую за статью. Скажите пожалуйста, потребуются ли обучающимся углублённые знания по математике, для того, чтобы начать изучать данный курс?

Е.Е. Лапшева

Математика, конечно,нужна. И Физико-технический лицей Саратова и Лицей математики и информатики математику дают углубленную. Но изучение Python на серьезном уровне можно и с обычной математикой. Яндекс.Лицей прекрасно это доказывает.

wpDiscuz