Уважаемые гости Форума, его обитатели не против того, чтобы Вы заимствовали имеющуюся на Форуме информацию, но мы убедительно просим, выкладывая её на других ресурсах, обязательно указывать, что Вы получили её у НАС!!!

Общая методика обработки официальных протоколов

Ответить
Rabbit
Администратор
Сообщения: 957
Зарегистрирован: 11 июл 2010, 03:42
Откуда: Иркутск
Контактная информация:

Общая методика обработки официальных протоколов

Сообщение Rabbit » 06 сен 2012, 23:28

Вот пример официального протокола середины 2000-х. На сколько я понимаю, такая форма существует с 80-х годов (если у кого есть примеры других вариантов протокола - выкладывайте!)
protocol_sample.jpg
protocol_sample.jpg (338.33 КБ) 10880 просмотров
Высказываем свои мысли о том, как правильнее оценивать данные подобных протоколов.
Впоследствии, предлагаю переносить обсужденные и не вызывающие сомнений положения выносить сюда - в первую тему.

bezil
Сообщения: 293
Зарегистрирован: 14 июл 2011, 08:44

Re: Общая методика обработки официальных протоколов

Сообщение bezil » 28 ноя 2012, 06:29

Уважаемый Виктор Андреевич! Вы уж меня извините что я не так часто посылаю материал на форум.Я сейчас сижу во французском футболе.От одного хоккея можно сойти с ума.Я давал несколько вариантов "РАМ" куда втискиваются все протоколы матчей,допустим команды за сезон.Это очень лёгкая и доступная форма обработки информации,я ей пользуюсь много лет и считаю что это и есть СТАТИСТИКА.А всё остальное ерунда.Я счастлив что 340 или 370 человек посмотрели РАМы.(90/91-динамо москва),На основании их каждый может заниматься хоккейной статистикой,и проверить допустим Фролова или Уварова.Мы все делаем ошибки.И ещё .Простите старого ворчуна.Я очень не люблю когда пишут "статистика Акселя Варданяна","таблицы Павла",статистика она общая а таблицы-шахматки они из Сов.Спорта.Ничего нового выдумать там нельзя.Или я не о том.Ещё раз извините.С уважением bezil/

Red_front
Сообщения: 164
Зарегистрирован: 28 окт 2011, 05:47

Re: Общая методика обработки официальных протоколов

Сообщение Red_front » 29 окт 2015, 15:45

Коллеги!

Я сейчас на пробу за 3 дня сделал таблицу геймлогов по сезону 1966-67 (264 матча), содержащую практически все сведения из числа опубликованных в теме "Протоколы". Как мне представляется, метод достаточно скоростной, при этом данные практически готовы к окончательной чистовой обработке (по ряду моментов не определился с вариантом, как лучше дальше производить разбивку данных).

В связи с этим вопрос: насколько актуальна тема приведения к виду "база данных" выложенных на форуме протоколов Высшей лиги СССР? Может, я занимаюсь формированием того, что у всех уже есть?

Red_front
Сообщения: 164
Зарегистрирован: 28 окт 2011, 05:47

Re: Общая методика обработки официальных протоколов

Сообщение Red_front » 31 окт 2015, 10:29

Выкладываю получившийся на основании выложенных на форуме протоколов геймлог по сезону 1966-1967.

Сразу предупреждаю, что я слегка протупил и забыл при копировании данных отметить штрафные минуты по командам, поэтому этих данных пока нет, позже мне придётся потратить минут 30, чтобы ввести их вручную.

Создание геймлога заняло порядка 3 дней (в среднем по 4 часа в день) на копирование данных и около 2 часов на их чистовую обработку средствами Microsoft Excel.

Обработка полей с составами команд и голами носит не окончательный характер, так как я пока не решил, как в дальнейшем наилучшим образом организовать хранение и работу с данными по участию в матчах, голам и штрафам.
Вложения
66-67_2.xlsx
(67.67 КБ) 181 скачивание

kotas
Сообщения: 1461
Зарегистрирован: 24 окт 2010, 15:03

Re: Общая методика обработки официальных протоколов

Сообщение kotas » 31 окт 2015, 14:16

А можно по подробнее узнать о механизме формирования, а главное о механизме подсчета.

Если я правильно понимаю, то информация вводится путем копирования текста с форума? Если это так, то как будет выглядеть информация по сезонам, где авторы голов идут вместе с ассистентами, а главное как будет производится подсчет в этом случае?

А вообще очень любопытно. Спасибо.

Red_front
Сообщения: 164
Зарегистрирован: 28 окт 2011, 05:47

Re: Общая методика обработки официальных протоколов

Сообщение Red_front » 02 ноя 2015, 06:53

Коллеги!

На данный момент это не есть итоговая форма вывода данных. Это - весьма предварительный вариант того, во что можно превратить выложенные на форуме протоколы. Основной плюс - превратить достаточно быстро. По крайней мере с данными в этом виде уже можно будет работать.

Данные этого сезона я почистил от мусора и привёл к более-менее чистовому виду исключительно для того, чтобы показать, что можно сделать с имеющимся на форуме материалом и узнать, нужна ли такая работа. Разумеется, нет смысла тратить по 2 часа на чистку данных по каждому из 25-26 сезонов, по которым имеются полные газетные отчёты, в отдельности, когда можно сделать черновой вариант за все 25 лет и за те же 2-3 часа почистить всё пакетно.
poldisonp писал(а):Предлагаю еще сортировку по игроку.
К сожалению в непротокольных сезонах номера игроков можно взять только из немногих программок, но все же это даст возможность дополнительной сортировки.
Закрепить за каждым игроком команды определенный номер на весь сезон(пусть иной раз не полностью верный) и получим еще 20-22 колонки в которых можно разносить фамилии!
Вот и примитивный поиск по игроку!
По игрокам я вообще ещё не решил, как лучше организовать данные. По идее, если создавать базу данных с возможностью поиска и создания сводных данных, то такая сплошная таблица скорее всего не пойдёт - поиск будет занимать чересчур много времени. Так что, игроков нужно будет выносить в отдельную таблицу, а к матчу привязывать уникальный ID игрока.

В любом случае, игровой номер - это побочная статистика, которую придётся вводить вручную, и которой будет имеет смысл заняться лишь после того, как будет создана база по основным данным.
Можно предложить еще сортировку по тройкам и парам защитников. Если помните Винценцо как то такой анализ делал в сезонах 70-х?
В черновом варианте можно оставить символы (дефисы) указывающие на связи игроков в тройки, но лично я в такой статистике особого смысла не вижу. Да и как потом эти связи организовать в чистовом варианте базы, из которого всё будет считаться - это несколько выше моих навыков по созданию БД.
Для читабельности таблицы(чтобы в поле экрана попало больше нужной информации) предлагаю приложить максимальные усилия для уменьшения ширины столбца :
1 - отделить от фамилий судей город и вынести его в столбец отдельно
2 - отделить от названий команд город и вынести его в столбец отдельно

Много ценного места занимает название стадиона - унифицировать!
Могу лишь повторить, что пока это не таблица, а набросок базы, в которой будут храниться данные. По-хорошему, стадионы и судей нужно тоже выносить в отдельные справочники, а к матчу привязывать лишь их ID.

А форму вывода под эти данные потом можно написать любую. И чем атомарнее будет разбиение данных, тем больше вариантов можно будет придумать. Поэтому, города, которые представляют судьи, действительно имеет смысл выделить в отдельный столбец. Кстати, пользуясь случаем, хочу спросить: бывали ли случаи, когда у судьи менялся город, который он представляет?
poldisonp писал(а):Тут нужно подумать - однозначно нужно разнести голы и передачи и вероятно привязать их к минутам(в отдельном столбце)
Т.е = при сортировке по минуте гола тут же вываливаются автор и ассистенты

Но есть и но. На одной минуте могут быть забиты несколько голов. Вот тут еще один фильтр нужен будет.
Тут я вижу нечто, имеющее вид вроде: 1/min/ID/ID2/ID3, где 1(2,3,...) - гол по порядку, min - минута, на которой забит гол, ID - ID игрока, забившего шайбу, ID2/ID3 - ID ассистентов. Будет ли это одно поле, или несколько - нужно думать. Я, к сожалению, не программист, поэтому оптимальный вариант нужно будет обговаривать со знающим человеком.
Вообще это громоздкая и плохо читаемая таблица невероятной длинны получится
Но большой плюс в простоте и главное в быстроте создания
Ну и компьютерный подсчет - с ним не поспоришь ! Лишний раз убирается человеческий фактор
Который остается лишь на этапе ввода информации
Это лишь пока громоздкая таблица. Её можно (и, скорее всего, нужно) будет преобразовать в распределённую базу данных. Да и конечный пользователь в итоге будет видеть не её, а формы вывода, которые можно сделать любыми.

Вопрос в том - нужна ли такая база данных. Как я понимаю, Высшая лига СССР для большинства здесь присутствующих находится далеко не в приоритете. Для этого и опубликована демо-версия того, что можно сделать с выложенными на форуме протоколами (газетными отчётами).

Red_front
Сообщения: 164
Зарегистрирован: 28 окт 2011, 05:47

Re: Общая методика обработки официальных протоколов

Сообщение Red_front » 02 ноя 2015, 06:59

kotas писал(а):А можно по подробнее узнать о механизме формирования, а главное о механизме подсчета.
Пока ничего не подсчитывается. На данный момент это голая база данных, для вывода данных и сводных подсчётов нужно писать программу по её обработке и пользовательский интерфейс.
Если я правильно понимаю, то информация вводится путем копирования текста с форума?
Да. Каждый протокол (газетный отчёт) имеет одинаковую структуру (номер матча, пара команд, счёт, город, стадион, дата, зрители, судьи, состав, состав, большинство, голы. Нужные куски копипастятся, вставляются в новый документ, затем преобразуются в таблицу, которая обрабатывается штатными средствами Microsoft Excel. Сейчас по следующему сезону прорабатываю более эргономичный способ, возможно, удастся пропустить этап копипасты нужных кусков и сразу загонять данные в Excel, где уже всё спокойно чистить.
Если это так, то как будет выглядеть информация по сезонам, где авторы голов идут вместе с ассистентами, а главное как будет производится подсчет в этом случае?
Пока не знаю. Поле с голами обработано лишь предварительно (убран явный мусор, записи стандартизированы). Как эти записи в дальнейшем разделить - ещё не думал.

Vincenzo
Сообщения: 242
Зарегистрирован: 07 сен 2010, 06:36
Откуда: д. Последний путь Ильича

Re: Общая методика обработки официальных протоколов

Сообщение Vincenzo » 02 ноя 2015, 08:22

2 Red_Front

Интересный файлик. Первые впечатления (15 мин., одна команда - КрСов).
Позволяет оч много - например, определить хозяева-гости.
КрСов 3 раза хозяева в матчах с ДинМ.

Главное - определить цель данного файла.
ИМХО - электронная версия протокола СС.
Поэтому особо ничего менять не нужно. Иначе это будет один из вариантов РАМ, которые должны существовать параллельно данному файлику.

Итого, как бы я его использовал.
Иногда нужно посмотреть одну команду (составы).
Можно отобрать матчи Крылья дома, Крылья на выезде, скопировать в другой файл, при этом перенести состав КрСов в один столбец, обрезать лишнее.
Оставить даты матчей, соперника, счет и состав Крыльев (с сортировкой по дате матча).
Получается идеальный файл для вычитки состава команды на предмет количества матчей (за 2-3 мин. манипуляций).
Причем, если делать замену (например, заменяя Петров на ППП, Дмитриев на ДДД, Расько на РРР и т.д.) Excel сам скажет, сколько замен сделал (т.е. сколько матчей игрок сыграл).
Т.о. можно за полчаса выверить команду на предмет количества игр по СС.

И сразу кидаются в глаза ошибки, например матч 167 - Пашков;Зарубин,Орлов,Рагулин,Рыжов,?,Орлов,Гущин,Тюрин, ...
Явно что-то не совсем правильно.

В принципе, голы можно проверять примерно так же (если не указаны передачи).
Если же есть передачи - можно просто печатать укороченный вариант дата, соперники, счет, голы и дедовским способом, вычеркивая подсчитывать. Это гораздо удобнее, чем мотание по длинному документу (и безопаснее с точки зрения ошибок).

Единственное замечание, которое позволю себе - не совсем удобно когда игроки через запятую.
Я бы все-таки оставил классическую интерпретацию состава, а именно
Пашков (Рагулин); Рыжов - Зарубин, Орлов – Тюрин, Гущин; Расько – Грошев – Савин (Чертов), Васильев - Булатов - Дмитриев, Городецкий - Петров – Марков.
а не
Пашков(Рагулин);Рыжов,Зарубин,Орлов,Тюрин,Гущин, Расько,Грошев,Савин(Чертов),Васильев,Булатов,Дмитриев,Городецкий,Петров,Марков.

Это не сильно длиннее, зато в разы читабельнее. Плюс, некоторым любителям хоккея расстановка тоже важна. Да и смысл терять информацию, содержащуюся в печатном издании?
ИМХО, данная форма должна как раз вбирать максимум, а не терять.
Я бы даже сказал так - данная форма должна содержать все огрехи первоисточника, а при их нахождении (например, явно ошибка в Фамилии, необходимо менять местами хозяев и гостей) и необходимости исправления делать примечание. А какие-то вещи (не ключевые) оставлять без изменения (явно некорректно расставлены игроки по амплуа, например корректно Касатонов-Фетисов, а указано Фетисов-Касатонов. Такие косяки встречаются часто, не все корреспонденты педантичны в этом вопросе).

Как-то так. Самое сложное - синхронизация данного файла с первоисточником. Изменение протокола на форуме должно сопровождаться изменением файла...

Red_front
Сообщения: 164
Зарегистрирован: 28 окт 2011, 05:47

Re: Общая методика обработки официальных протоколов

Сообщение Red_front » 02 ноя 2015, 13:55

Vincenzo писал(а):2 Red_Front
КрСов 3 раза хозяева в матчах с ДинМ.
Проблема по парам московских команд характерная для протоколов 60-х годов.
Поэтому особо ничего менять не нужно. Иначе это будет один из вариантов РАМ, которые должны существовать параллельно данному файлику.
Уже в личку паре уважаемых коллег писал и всё никак не могу точно выяснить, что же такое РАМ. Может Вы, наконец, проясните мне этот момент? :)
Главное - определить цель данного файла.
ИМХО - электронная версия протокола СС.
Итого, как бы я его использовал.
Иногда нужно посмотреть одну команду (составы).
Можно...
Мелко мыслите.
Под эту базу понимающий человек может написать оболочку, которая будёт всё это считать сама.
Единственное замечание, которое позволю себе - не совсем удобно когда игроки через запятую.
Я бы все-таки оставил классическую интерпретацию состава

Плюс, некоторым любителям хоккея расстановка тоже важна. Да и смысл терять информацию, содержащуюся в печатном издании?
ИМХО, данная форма должна как раз вбирать максимум, а не терять.
Соглашусь. Учту при обработке файлов будущих сезонов.
Это не сильно длиннее, зато в разы читабельнее.
Я бы всё таки воспринимал данную таблицу, как рабочее содержимое базы, а не как выводимые на экран сведения.
явно некорректно расставлены игроки по амплуа, например корректно Касатонов-Фетисов, а указано Фетисов-Касатонов.
Эээ... а что тут некорректного, тем более - явно?

Red_front
Сообщения: 164
Зарегистрирован: 28 окт 2011, 05:47

Re: Общая методика обработки официальных протоколов

Сообщение Red_front » 02 ноя 2015, 14:24

poldisonp писал(а):Подобный файл позволит найти ( и очень быстро!) ошибки, неточности и явные ляпы при компиляции и привести информацию на форуме в порядок!
Иными словами, такая база нужна?
О том что хотелось бы надеяться на упрощение структуры этой таблицы( как прообраза базы) при максимальном сохранении объема информации даже говорить не буду!
Что понимается под упрощением структуры?
Пришло время перейти от первого этапа(наполнение базы) ко второму - проверке и уточнению. Этап третий в моем понимании - это выкладка проверенной информации в удобном для обработки виде.
При всём уважении, но с позиций современных информационных технологий базы на данный момент не существует. Есть лишь текстовая информация (да, уникальная), которую можно преобразовать в базу.
Базой же эта информация станет только тогда, когда будет систематизирована и упорядочена. И лишь после этого можно будет приступать к её обработке и сверке вариантов.
Причем я допускаю что на форуме могут нормально ужиться и несколько вариантов выкладки по стилистике! Главное чтобы итоговые цифры совпадали и их происхождение можно было легко перепроверить.
Абсолютно уверен в обратном. Должна быть современная, единая, стандартизированная, наполненная данными база, как основа любых дискуссий, и должны быть проработанные алгоритмы внесения в неё изменений, либо учёта альтернативных данных. Частные "песочницы" же лишь запутывают ситуацию, поскольку каждый будет до последнего держаться за свою "песочницу", что блестяще показала недавняя дискуссия вокруг статистики ЧМ, когда общая картина утонула в бесконечных спорах вокруг того, кому и как записать на счёт отдельно взятую передачу. И всем было плевать на статистику в целом (настолько плевать, что чуть ли не до матов дошло), как будто вся история мирового хоккея изменится от того, на чей счёт будет записана эта отдельно взятая передача.

Коллеги, нам категорически нужна единая база данных. Хороший пример - это бейсбольная база данных по истории MLB http://retrosheet.org
Все сезоны с 1871 (!!!) года!!! Каждый матч минимум с датой проведения, счётом и раскладом хозяева/гости! И это по самым ранним сезонам, а так имеется подробная поматчевая статистика с 1914 (!!!) года! И это при базе в более чем 200 000 матчей! Да, имеются лакуны, имеются спорные моменты, но их обсуждение и заполнение ведётся в рамках единой базы.

И что у нас? В Высшей лиге при базе менее чем из 10 000 матчей неизвестны не то, что составы и индивидуальная статистика, но даже даты многих матчей! При том, что это вторая половина 20 века. На данный момент целое десятилетие (50-е) вообще практически выпало, по нему известны только счета матчей! Про низшие лиги я вообще молчу... А мы тут до хрипоты спорим на чей счёт отдельно взятую передачу записать...

Ответить

Вернуться в «Общие вопросы хоккейной статистики»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость