Запись запросов в ClickHouse с использованием данных GitHub

Этот набор данных содержит все коммиты и изменения для репозитория ClickHouse. Его можно сгенерировать с помощью встроенного инструмента git-import, распространяемого с ClickHouse.

Сгенерированные данные предоставляют файл tsv для каждой из следующих таблиц:

commits - коммиты со статистикой.
file_changes - файлы, измененные в каждом коммите с информацией об изменении и статистикой.
line_changes - каждая измененная строка в каждом измененном файле в каждом коммите с полной информацией об строке и информацией о предыдущем изменении этой строки.

На 8 ноября 2022 года каждый TSV имеет приблизительно следующий размер и количество строк:

commits - 7.8M - 266,051 строк
file_changes - 53M - 266,051 строк
line_changes - 2.7G - 7,535,157 строк

Генерация данных

Это необязательно. Мы распространяем данные бесплатно - смотрите Скачивание и вставка данных.

Это займет около 3 минут (на 8 ноября 2022 года на MacBook Pro 2021) для завершения для репозитория ClickHouse.

Полный список доступных опций можно получить из встроенной справки инструмента.

Эта справка также предоставляет DDL для каждой из вышеуказанных таблиц, например:

Эти запросы должны работать на любом репозитории. Не стесняйтесь исследовать и сообщать о своих находках. Некоторые рекомендации относительно времени выполнения (на ноябрь 2022 года):

Linux - ~/clickhouse git-import - 160 минут

Скачивание и вставка данных

Следующие данные можно использовать для воспроизведения рабочей среды. В качестве альтернативы, этот набор данных доступен в play.clickhouse.com - смотрите Запросы для получения дополнительной информации.

Сгенерированные файлы для следующих репозиториев можно найти ниже:

ClickHouse (8 ноября 2022 года)
Linux (8 ноября 2022 года)

Чтобы вставить эти данные, подготовьте базу данных, выполнив следующие запросы:

Вставьте данные, используя INSERT INTO SELECT и функцию s3. Например, ниже мы вставляем файлы ClickHouse в каждую из соответствующих таблиц:

commits

file_changes

line_changes

Запросы

Инструмент предлагает несколько запросов через свой вывод справки. Мы ответили на них, а также на некоторые дополнительные вспомогательные вопросы, представляющие интерес. Эти запросы имеют примерно возрастающую сложность по сравнению с произвольным порядком инструмента.

Этот набор данных доступен в play.clickhouse.com в базах данных git_clickhouse. Мы предоставляем ссылку на эту среду для всех запросов, адаптируя имя базы данных по мере необходимости. Обратите внимание, что результаты в play могут отличаться от представленных здесь из-за различий во времени сбора данных.

История одного файла

Самый простой из запросов. Здесь мы смотрим на все сообщения коммитов для StorageReplicatedMergeTree.cpp. Поскольку эти сообщения, вероятно, более интересны, мы сортируем по самым последним сообщениям сначала.

Генерация данных​

Скачивание и вставка данных​

Запросы​

История одного файла​

Найти текущие активные файлы​

Список файлов с наибольшим количеством изменений​

В какой день недели обычно происходят коммиты?​

История подкаталога/файла - количество строк, коммитов и авторов с течением времени​

Список файлов с максимальным количеством авторов​

Самые старые строки кода в репозитории​

Файлы с самой длинной историей​

Распределение участников по документам и коду за месяц​

Авторы с самым разнообразным вкладом​

Любимые файлы для автора​

Самые большие файлы с наименьшим количеством авторов​

Распределение коммитов и строк кода по времени; по дням недели, по авторам; для конкретных подсистем​

Матрица авторов, показывающая, какие авторы склонны переписывать код других авторов​

Кто является самым значительным Contributor по дням недели?​

Распределение возраста кода по репозиторию​

Какой процент кода для автора был удален другими авторами?​

Список файлов, которые были переписаны наибольшее количество раз?​

В какой день недели код имеет наибольшую вероятность остаться в репозитории?​

Файлы, отсортированные по среднему возрасту кода​

Кто, как правило, пишет больше тестов / кода C++ / комментариев?​

Как меняется коммит автора со временем в зависимости от процента кода/комментариев?​

Каково среднее время, прежде чем код будет переписан, и медиана (период полураспада кода)?​

В какое время хуже всего писать код с точки зрения того, что код имеет наибольшую вероятность быть переписанным?​

Код каких авторов наиболее "липкий"?​

Наибольшее количество подряд дней коммитов от автора​

История коммитов файла построчно​

Нерешенные вопросы​

Git blame​

Связанный контент​

Генерация данных

Скачивание и вставка данных

Запросы

История одного файла

Найти текущие активные файлы

Список файлов с наибольшим количеством изменений

В какой день недели обычно происходят коммиты?

История подкаталога/файла - количество строк, коммитов и авторов с течением времени

Список файлов с максимальным количеством авторов

Самые старые строки кода в репозитории

Файлы с самой длинной историей

Распределение участников по документам и коду за месяц

Авторы с самым разнообразным вкладом

Любимые файлы для автора

Самые большие файлы с наименьшим количеством авторов

Распределение коммитов и строк кода по времени; по дням недели, по авторам; для конкретных подсистем

Матрица авторов, показывающая, какие авторы склонны переписывать код других авторов

Кто является самым значительным Contributor по дням недели?

Распределение возраста кода по репозиторию

Какой процент кода для автора был удален другими авторами?

Список файлов, которые были переписаны наибольшее количество раз?

В какой день недели код имеет наибольшую вероятность остаться в репозитории?

Файлы, отсортированные по среднему возрасту кода

Кто, как правило, пишет больше тестов / кода C++ / комментариев?

Как меняется коммит автора со временем в зависимости от процента кода/комментариев?

Каково среднее время, прежде чем код будет переписан, и медиана (период полураспада кода)?

В какое время хуже всего писать код с точки зрения того, что код имеет наибольшую вероятность быть переписанным?

Код каких авторов наиболее "липкий"?

Наибольшее количество подряд дней коммитов от автора

История коммитов файла построчно

Нерешенные вопросы

Git blame

Связанный контент