ВАЖНО!!! Ядро - концепция работы

Kernel architecture questions
  • Управление процессами.
    1. Понятие процесса как такового в Колибри очень зачаточное: процесс - объединение потоков с одним и тем же адресным пространством. У всех таких объединяемых потоков одно и то же имя и один и тот же размер используемой памяти. Потоки, впрочем, существуют и обладают следующими характеристиками (memmap.inc из исходников ядра):
    - идентификатор (TID), каждому создаваемому потоку назначается уникальный идентификатор;
    - состояние потока: активен (выполняется прямо сейчас либо ждёт переключения задач на него), заморожен, завершается, ждёт
    - окно: каждый поток имеет ровно одно окно, которое может быть невидимым, но обязательно существует;
    - использование процессора: число тактов за последнюю секунду, которое процессор убил на выполнение именно этого потока;
    - имя процесса (имя исполняемого файла);
    - маска событий, о которых система извещает поток;
    - системный стек;
    - список объектов ядра, ассоциированных с этим потоком;
    - карта разрешённых портов ввода/вывода;
    - текущая папка для функций файловой системы;
    - буфер для сообщений IPC (присутствует, только если поток его явно определил)
    2. Процесс не идентифицируется никак; информация о потоках внутри ОС собрана в статический массив на 255 входов (нумеруемых от 0 до 255, причём 0-й слот не может использоваться, так что всего в системе может быть не более 255 потоков) (технически не в один массив, а в два разных, но сути дела это не меняет). Некоторые системные функции принимают номер слота, некоторые - идентификатор.
    3. Создание нового процесса отличается от создания потока (пожалуй, это единственное место в API, где такое отличие есть). Создание процесса: [core/taskman.inc, fs_execute] принимает на вход имя бинарного файла для загрузки, параметры командной строки для нового процесса и флаги, сейчас только то, запускается процесс как отлаживаемый или как обычный.
    - загружает бинарник (целиком в память ядра; если он упакован kpack'ом, то распаковывается в памяти);
    - проверяет заголовок исполняемого файла, вычисляются нужные параметры (есть две версии заголовка, мало отличающиеся);
    - захватывает мьютекс application_table_status, управляющий доступом на запись к таблице потоков (вышеупомянутым двум массивам)
    - находит пустой слот для нового потока; если такого нет (255 потоков уже запущены) - выход с ошибкой;
    - заполняет имя процесса;
    - создаёт новое адресное пространство (это отдельная история);
    - вызывает функцию set_app_params, заполняющую остальные поля структуры потока (подробнее - ниже);
    - освобождает мьютекс application_table_status.
    Создание потока: [core/taskman.inc, new_sys_threads] принимает на вход entry point нового процесса и указатель на user-mode стек.
    - захватывает application_table_status
    - находит пустой слот для нового потока; если такого нет - выход с ошибкой;
    - копирует имя процесса и информацию об адресном пространстве вызывающего потока в структуру для нового;
    - вызывает set_app_params
    - освобождает application_table_status
    Функция set_app_params:
    - выделяет в адресном пространстве ядра буфер под стек ядра и область для сохранения состояния FPU и SSE;
    - инициализирует разные параметры потока значениями по умолчанию;
    - копирует командную строку и путь к приложению в адресное пространство процесса по адресам, записанным в заголовке бинарника (или не копирует, если эти значения в заголовке нулевые, что означает, что программа в них не нуждается);
    - выделяет очередной идентификатор (каждый следующий TID равен предыдущему + 1);
    - инициализирует user-mode контекст, значения eip и esp берутся из параметров вызова для sys_new_threads и из заголовка для fs_execute;
    - если новый процесс загружается как отлаживаемый, то помечает его состояние как замороженное, иначе - как работающее (начиная с этого места на новый поток возможны переключения задач).
    Завершение процесса: [core/sys32.inc, terminate] когда системный поток получает управление (главный цикл системы), одним из его действий является проход по списку процессов, поиск потоков в завершающемся состоянии и убийство таких процессов. Все нижеследующие действия происходят в контексте системного потока.
    - захватывает application_table_status
    - проходит по списку объектов ядра и вызывает деструкторы
    - если этот поток - последний в своём процессе, уничтожает адресное пространство
    - освобождает разные системные ресурсы, которые мог выделить этот поток и которых нет в списке объектов ядра
    (список горячих клавиш, список кнопок, определённых потоком)
    - если поток отлаживается, посылает извещение отладчику
    - освобождает память под kernel-mode стек и область сохранения FPU/SSE
    - освобождает карту ввода/вывода (если она была изменена - есть стандартная карта ввода/вывода, которая создаётся при загрузке и разделяется между всеми потоками)
    - если окно потока было на вершине оконного стека, активирует следующее окно
    - если поток рухнул (или был прибит) в процессе работы с жёстким диском, освобождает мьютекс занятости жёсткого диска; то же самое для CD и дискеты
    - освобождает выделенные потоком IRQ и порты
    - если текущий прибиваемый процесс - отладчик, помечает как завершающиеся все отлаживаемые им процессы
    - перерисовывает экран
    - освобождает application_table_status
    4. Взаимодействия процессов практически нет - есть только специальная системная функция для передачи данных от процесса-источника процессу-приёмнику, причём приёмник должен заранее подготовить буфер и ожидать этих данных, и некоторые возможности по отладке приложений.
    5. Соответственно синхронизации тоже практически нет - один процесс может только проверить, завершился ли другой.
    6. Состояния перечислены выше.
    Активный/ждущий -> замороженный: вызов (кем-то) функции заморозки 69.4
    Активный -> завершающийся: либо сам поток вызывает функцию завершения -1, либо какой-то поток решает его прибить функциями 18.2 или 18.18.
    Активный -> ждущий: вызов (потоком) функции ожидания события 10.
    Замороженный -> активный/ждущий: вызов (кем-то) функции разморозки 69.5; поток возвращается в состояние до заморозки
    Замороженный -> завершающийся: 18.2, 18.18
    Ждущий -> активный: прибытие события (разрешённого маской событий потока)
    7. Планировщик циклически выделяет процессорное время всем активным потокам. Без всяких дополнительных ухищрений.
    8. Функция 9 - информация о потоке (по номеру слота). Функции 18.2 и 18.18 - прибить поток (первая принимает номер слота, вторая - идентификатор). Функция 18.21 - получить номер слота по идентификатору. Функция 51 -создать поток. Функция 69 (целиком) - отладка. Функция 70.7 - запуск программы. Функция -1 - завершение потока.
  • Управление вводом-выводом: железо с точки зрения ядра
    Устройства бывают разные. Бывают стандартные устройства, которые понимает система. Система самостоятельно работает с таймером, мышью, клавиатурой, видеокартой, аудио, системным динамиком, сетевыми картами, CD/DVD, жёсткими дисками, не давая приложениям доступа к этим устройствам напрямую.

    Для получения данных мыши есть специальная сисфункция 37 (подфункции 0,1,2,7 - получить информацию о разных аспектах происходящего с мышью) и специальное событие - при любом дёргании мыши система извещает всех подряд, что с мышью что-то произошло (по умолчанию поток не реагирует на события мыши, а должен явно установить маску учитываемых событий, разрешающую событие мыши). Приложение может управлять формой курсора мыши (сисфункция 37, подфункции 4,5,6) для своего окна (когда курсор проходит над окном потока, он принимает заданную форму; физически хэндл курсора для окна хранится в структуре для потока, но логически это скорее атрибут окна, поэтому я его не указал в предыдущем посте). Приложение может управлять настройками движения мыши, может переместить курсор в нужную позицию, может симулировать нужное состояние клавиш мыши - всё это функцией 18.19 (есть ещё хронологически более старая функция 18.15: поместить курсор в центр экрана). Кроме того, приложение может определить некоторое количество кнопок (кнопки реализованы в ядре). Кнопка - прямоугольная область в окне (ядро обычно рисует их самостоятельно, но приложение может попросить ядро не делать этого), которой приписан (приложением) некоторый идентификатор; при нажатии на кнопку мышью ядро посылает потоку-владельцу окна событие о нажатии кнопки.

    Внутренне в системе происходит следующее. Есть поддержка COM-мышей и обычных PS/2, и то, и другое вынесено в драйвера (commouse.obj, ps2mouse.obj соответственно). Ядро экспортирует для драйверов функцию SetMouseData (это имя для драйверов; реализована в [hid/mousedrv.inc, set_mouse_data]; драйвер мыши при поступлении очередного события вызывает эту функцию с нужными аргументами, сообщая ядру, что именно произошло с мышью. Ядро преобразует данные о движении мыши в перемещения курсора в соответствии с настройками (18.19), обновляет свои переменные (из которых впоследствии берёт информацию для 37) и устанавливает флаг активности мыши [mouse_active]; когда главный цикл системы получит управление, он проверит этот флаг и известит все приложения, что что-то произошло с мышью. Работа идёт по схеме (мышь) <-> (драйвер) <-> (ядро) <-> (приложения); PS/2-драйвер предоставляет определённые API приложению напрямую (версия драйвера и тип мыши), но их никто не использует.

    Работа с клавиатурой. Здесь полезны комментарии к функции 2 из документации. У приложения есть два режима получения данных о нажатых клавиш: ASCII и сканкоды, переключение - функция 66. Судьба нажатой клавиши зависит от следующих вещей:
    - является ли эта клавиша модификатором (Alt/Shift/Ctrl/*Lock) или нет;
    - в каком режиме находится активное окно (ASCII/сканкоды);
    - было ли установлено соответствующее сочетание клавиш как горячая комбинация для захвата каким-то другим приложением.
    Обработчик клавиатуры [hid/keyboard.inc, irq1] обновляет состояние клавиатуры (Alt/Shift/Ctrl/*Lock) для клавиш-модификаторов (и переключает огоньки на клаве при нажатии *Lock); проверяет, не нажато ли Ctrl+Alt+Del, и если да, то устанавливает соответствующий флаг, который будет проверен главным циклом системы, когда тот получит управление (что приведёт к запуску приложения /sys/cpu); сканирует список установленных горячих комбинаций и, если такая комбинация зарегистрирована, посылает событие клавиатуры зарегистрированному приложению (пример: @panel регистрирует нажатие на клавишу Win для вызова меню и комбинации типа Alt+F4, Alt+Tab, Alt+Shift+Tab и Ctrl+Shift - полный список есть в hot_keys.txt из дистрибутива, API здесь - та же функция 66), а если нет, то кладёт её в буфер нажатых клавиш для активного окна (есть такой системный массив на 120 байт), что активирует событие клавиатуры для потока-владельца активного окна. Как именно кладёт, зависит от режима: в сканкодном просто кладёт сканкод, полученный от клавиатуры, а в ASCII-режиме клавиши-модификаторы и события об отпускании клавиш просто игнорирует, а нормальные клавиши транслирует в ASCII-коды с помощью таблиц преобразования. Таблицы для каждого языка свои, переключение языка заключается в установке правильной таблицы (это делает приложение @panel), API - 21.2, 26.2. Клавишам F1-F12 тоже соответствуют определённые коды, которые совпадают с нормальными клавишами (например, F1='2',F5='6'), и в результате приложения, работающие в этом режиме (например, sysxtree, eolite, mtdbg), не могут отличить кнопку F5 и цифру 6.

    На уровне системы: поддержка клавиатуры зашита в ядре (уже упоминавшийся обработчик irq1 из hid/keyboard.inc). Схема обработки: (клавиатура) <-> (ядро) <-> (приложения).

    Работа с видеокартой - это, собственно, GUI, на тему которого можно говорить отдельно довольно долго. Ограничиваясь работой с железом:
    - вывод на экран осуществляет ядро;
    - для видеокарт от ATI есть специальный драйвер, вспомогательный для ядра (если он есть и при загрузке сообщил, что хочет работать, то ядро будет иногда прибегать к его услугам), поддерживающий аппаратный курсор и вроде в последних версиях на каком-то уровне аппаратное ускорение (через API для приложений);
    - поддерживаются стандартные видеорежимы EGA/CGA и VGA и видеорежимы, возвращаемые VESA BIOS. Установка видеорежима осуществляется средствами BIOS при загрузке ещё в реальном режиме процессора. Для режимов VESA2 работа идёт через framebuffer, и у приложений есть прямой доступ к нему как на чтение, так и на запись. Подробнее - описание функции 61;
    - для решения "проблемы 60 Гц" (при установке разрешения через BIOS ставится стандартная частота развёртки 60 Гц, которая на не LCD-мониторах режет глаз) есть трюк с VRR, Virtual Refresh Rate, - манипуляция регистрами CRT, в результате которых повышается частота развёртки за счёт снижения разрешения; манипуляции осуществляет "драйвер" vmode.mdr, предоставляющий приложениям API через 21.13 (используется приложениями vrr и vrr_m; если в загрузочном экране включена опция "использовать VRR", то vrr_m - первое загружаемое приложение, оно даёт нужные команды драйверу и продолжает процесс, загружая launcher; vrr - отдельное большое приложение). "Драйвер" в кавычках, потому что реально его сложно назвать драйвером - просто бинарный файл, который нужно загрузить по фиксированному адресу и явно передавать туда управление из функции 21.13);
    - здесь схема работы в типичном случае выглядит так:

    Code: Select all

    (видеокарта) <-> (ядро) <-> (приложения),
             \          /
              (драйвер)
    
    в менее типичных случаях приложения могут обращаться напрямую к драйверу и/или framebuffer'у видеокарты.

    Поддержка аудио есть для SB-совместимых карт и для AC97-кодеков на определённом железе, здесь ядро уже не принимает прямого участия, а приложение общается напрямую с соответствующим драйвером (infinity.obj, в свою очередь опирающийся на драйвер sound.obj/intel_hda.obj, какой именно, зависит от железа). Драйвер предоставляет соответствующие API.

    Системным динамиком приложение может попищать с помощью функции 55.55, но только если это разрешено в настройках (есть соответствующий пункт в меню рабочего стола -> "Настройка устройств"), если включено, можно понаслаждаться приложением MidAmp. Данные для функции 55.55 - это ноты в определённом формате (описанном в документации), ядро пересчитывает их в нужную последовательность частот с задержками и на основании результатов вычислений пишет нужные значения в третий канал таймера - порты 42h/43h (и 61h для включения/выключения динамика), код в [sound/playnote.inc, playNote].

    Системным таймером управляет исключительно ядро. При загрузке система программирует таймер на срабатывание 100 раз в секунду. Обработчик прерывания от таймера, [core/sched.inc, irq0], делает следующее:
    - увеличивает текущее время (число сотых долей секунды, прошедших с загрузки системы, может быть получено в приложении функцией 26.9, много где используется внутри ядра)
    - вызывает процедуру обработки текущей ноты для писка, описанного в предыдущем абзаце;
    - каждую 100-ю итерацию (каждую секунду) обнуляет счётчик "тактов в предыдущую секунду" (поле в структуре потока) у всех потоков;
    - служит планировщиком, переключаясь на следующую задачу; алгоритм выбора описан в предыдущем посте, а при переключении увеличивается счётчик тактов у текущего потока (от которого управление уходит) и заполняются системные структуры - kernel-mode стек, карта разрешения ввода/вывода, page table (cr3), отладочные регистры drN (если нужно) и устанавливает бит TS в cr0. (Регистры CPU хранятся в системном стеке, так что popa после переключения стека автоматически восстановит регистры задачи, которая стала текущей.) Последнее действие нужно для "ленивой выгрузки" контекста FPU/MMX/SSE: если этот контекст переключать сразу, это займёт какое-то время, при том, что новая задача, возможно, вообще не использует ничего, кроме CPU; поэтому эти регистры остаются на своих местах, но устанавливается флаг TaskSwitch, в результате чего при следующем обращении к регистрам (именно обращении! когда нужно действительно переключать весь контекст) процессор возбудит исключение, обработчик которого молча сохранит регистры ушедшего потока, загрузит регистры нового потока и перезапустит инструкцию, сделав вид, что ничего не случилось.

    Работа с сетевыми картами зашита в ядро (папка network, работа с железом сидит в network/eth_drv/drivers). API для работы с сетью - сисфункции 52 и 53, но работа с сетью - это отдельный разговор.

    CD/DVD бывают с данными и музыкальные. Музыкальные CD при определённых условиях может проигрывать сам привод, для поддержки этого есть сисфункция 24 (подфункции 1,2,3), поддержка зашита в ядро [blkdev/cdrom.inc, sys_cd_audio]. Чтение данных с CD/DVD, равно как и работа с жёсткими дисками и дискетами, относится скорее к области файловой системы ("железная" часть, впрочем, как и всё остальное, зашита в ядро: blkdev/cd_drv.inc для работы с CD/DVD, blkdev/flp_drv.inc для работы с дискетами, blkdev/hd_drv.inc для работы с жёсткими дисками (собственными силами обрабатывает ATA, обращается к BIOS для поддержки BIOS-дисков через V86 из core/v86.inc).
    Last edited by diamond on Wed Nov 26, 2008 12:55 pm, edited 1 time in total.
  • Управление вводом-выводом: железо с точки зрения приложений
    Но бывают устройства, о которых система ничего не знает. Тут появляются два варианта работы с ними.
    A. Напрямую из приложений.
    Ядро предоставляет API, позволяющие приложениям самостоятельно обрабатывать железо напрямую. Для общения с железом нужно:
    1. иметь возможность доступа к соответствующим портам ввода/вывода
    и/или
    2. иметь возможность доступа к пространству PCI
    и/или
    3. иметь возможность доступа к нужной области физической памяти
    и/или
    4. обрабатывать IRQ от устройства.

    1. Приложение может попытаться зарезервировать диапазон портов, нужный для общения с устройством (сисфункция 46). Ядро хранит список уже зарезервированных портов (статический массив на 255 входов по адресу RESERVED_PORTS, каждый вход содержит TID владельца, начало и конец зарезервированной области) и не даст зарезервировать диапазон, перекрывающийся с чем-то уже занятым. Если же всё в порядке, то [kernel.asm, rpal2] ядро разрешает в карте разрешения ввода/вывода процессора для запрашивающего потока обращения к запрошенным портам (кстати, при создании потока его карта инициализируется общей разделяемой между всеми потоками, которая запрещена для записи; при попытке первой записи процессор бросает #PF, его обработчик отслеживает эту ситуацию, выделяет новую страницу для карты с разрешённой записью, записывает её в структуру потока и возвращает управление), а также добавляет диапазон в общий список зарезервированных. После этого приложение получает возможность из ring-3 обращаться напрямую к нужным портам. При загрузке ядро резервирует для себя некоторые системные порты. Функция 46 позволяет потоку также освободить ранее выделенные им же порты.
    2. Здесь ядро берёт на себя все операции, а приложениям выделяет сисфункцию 62. Которая в принципе может быть запрещена (функция 21.12), но по умолчанию разрешена.
    3. Такого приложение сделать не может.
    4. Для этого есть набор из трёх функций 42, 44, 45. Когда приходит IRQ, поведение системы зависит от того, какое именно IRQ пришло.
    - IRQ0, IRQ1, IRQ6, IRQ13, IRQ14, IRQ15 - специальные номера, их ядро обрабатывает самостоятельно (обработка IRQ0=таймера и IRQ1=клавиатуры описана в предыдущем посте, IRQ6 - дискета, IRQ14 и IRQ15 - жёсткие диски)
    - остальные IRQ разбиваются на две категории в зависимости от определения константы USE_COM_IRQ при компиляции ядра: если она ненулевая, то первая состоит из IRQ3 и IRQ4, иначе первая пуста; вторая состоит из всех остальных. IRQ из первой группы может перехватить приложение, IRQ из второй группы может перехватить драйвер (о драйверах - ниже). Перехват приложением заключается в вызове функции 45 для нужного IRQ и определения действий при поступлении IRQ функцией 44. Если IRQ перехвачено, то его обработка заключается в считывании значений из определённых портов (определённых функцией 44) и складывания их в буфер. Приложение в любой момент может прочитать этот буфер функцией 42.
  • Управление вводом-выводом: железо с точки зрения драйверов
    Вариант Б. Из соответствующего драйвера.
    Подробно про то, что из себя представляет драйвер, как его можно загрузить и как приложение (и другие драйвера) может с ним общаться, рассказано здесь: viewtopic.php?f=3&t=707 .

    Драйвер выполняется в ring-0 и, как следствие, получает доступ ко всему, чему можно. В частности, с чтением/записью в порты никаких проблем не возникает. Кроме того, ядро предоставляет некоторые сервисы драйверам. В их числе:
    - AttachIntHandler (и GetIntHandler) для перехвата IRQ из второй категории; при приходе такого IRQ ядро просто вызывает функцию драйвера, адрес которой драйвер указывает в AttachIntHandler
    - ReservePortArea - точный аналог (с точностью до сдвига регистров) функции 46; в принципе всё будет работать и без её вызова, но желательно всё-таки дать ядру знать об используемых портах
    - PciApi - точный аналог (с точностью до сдвига регистров) функции 62
    - и Pci{Read/Write}{8/16/32} для чтения/записи PCI-регистров
    - GetPgAddr для получения физического адреса по известному виртуальному
    - и другие [core/exports.inc]
  • Файловая система
    - Мяса нет, колбасы нет, молока нет. Кругом посмотришь - и чего у нас ​только нет!
    1. Собственной файловой системы у Колибри нет, стандартно используется FAT, есть чтение с NTFS.
    2. Управляющих блоков для файлов нет. При всех операциях с файлами приложение задаёт полное имя файла (а ядро, соответственно, это полное имя каждый раз разбирает).
    3. В Колибри файл - это всегда файл на диске (возможно, на рамдиске), другие сущности файловыми API не адресуются.
    4. API файловой системы - функция 70 (с соответствующими подфункциями, описана в документации). Кроме того, есть некоторое количество устаревших функций, удаляемых по мере обновления приложений на (относительно) новую 70-ю.
    5. Ограничений доступа нет (всё, что в принципе можно сделать, может сделать любое приложение). Соответственно и авторизации нет.
    6. Запись есть только на FAT. Освобождение дискового пространства заключается просто в пометке соответствующих кластеров в таблице FAT как свободных. Выделение нового дискового пространства делается покластерно, для нахождения очередного свободного кластера [fs/fat32.inc, get_free_FAT для жёстких дисков; fs/fat12.inc, floppy_extend_file для дискет; blkdev/rd.inc, ramdisk_extend_file для рамдиска] сканируется таблица FAT на предмет поиска кластеров, помеченных в таблице FAT как свободные; для FAT12 (дискет и рамдиска) сканируется таблица от начала до конца, для FAT16 и FAT32 (жёстких дисков) есть внутренняя переменная - номер кластера, с которого начинается поиск, и каждый следующий поиск начинается с кластера, следующего за предыдущим найденным свободным (и здесь поиск, дойдя до конца, продолжается с начала тома); в случае с FAT32 начальное значение этой переменной берётся из сектора FSInfo (из структуры файловой системы) и сохраняется там же. Кроме того, для FAT32 изменение размера свободного пространства записывается в соответствующем поле в секторе FSInfo [fs/fat32.inc, add_disk_free_space].
    7. Основная система - FAT, с NTFS есть только чтение, соответственно журналирования нет.
  • Я просто решил подождать, вдруг по теме захочет высказаться, к примеру, Serge. Который, собственно, и написал всю текущую подсистему управления памятью (в Menuet всё было совсем по-другому...).
    Управление памятью
    2. Страничная организация памяти, плоская модель (с fs=0 и особой трактовкой сегментного регистра gs). Нижние 2 Гб виртуальной памяти (диапазон адресов 0-0x7FFFFFFF включительно) отводятся приложению (и свои для каждого процесса), верхние 2 Гб - для системы (и разделяются между всеми процессами). Программы грузятся по нулевому адресу. GDT описана в [data32.inc, gdts], LDT не используется. В регистр gs загружается селектор, описывающий сегмент на 8 Мб, описыващий область памяти, выделяемую для работы с графическими данными (упоминавшуюся при описании работы системы с видеокартой), выводимыми на экран - для vesa2-видеорежимов c LFB туда просто маппится этот LFB, для ega/vga и cga-режимов это специально выделяемая при загрузке память, а для vesa1.2-режимов селектор имеет нулевую базу.
    1. Стандартным образом, через таблицы страниц. Файла подкачки нет. Для преобразования адресов выполнены следующие утверждения:
    • преобразование нетождественно;
    • преобразование нижних 2 Гб зависит от текущего процесса, преобразование верхних 2 Гб не меняется при переключении задач;
    • преобразование меняется на время вызовов APM и V86;
    • инициализируют системную таблицу страниц процедуры init_mem и init_page_map из init.inc;
    • начальный кусок системных адресов [OS_BASE, OS_BASE + a), где OS_BASE = 0x80000000 (const.inc), маппится на начало физической памяти [0,a) "почти тривиально" - вычитанием OS_BASE; в этот кусок входит само ядро и все системные таблицы (точный список в memmap.inc); длина куска a = 0x47F000 + (некоторая память для таблицы страниц, размер которой зависит от размера имеющейся памяти). Если процессор поддерживает страницы по 4 Мб (page-size extensions), то первые 4 Мб маппятся одной страницей;
    • обращаться к таблице страниц можно по виртуальным адресам [0xFDC00000, 0xFE000000) (4 Мб, начиная с page_tabs из const.inc) (разумеется, только из ring-0, из ring-3 всякое обращение к системной памяти слетит с #PF);
    • элемент таблицы страниц с установленным битом присутствия представляет страницу в памяти; элемент таблицы страниц со сброшенным битом присутствия, но установленным 1-м битом (маска 2) соответствует ситуации, когда страница должна быть выделена при первом обращении к ней (обработчик #PF при обнаружении исключения из-за обращения к такой странице выделяет страницу физической памяти, маппит по соответствующему линейному адресу и возвращает управление);
    • таблицу страниц для процесса создаёт функция [core/taskman.inc, create_app_space] и удаляет [core/taskman.inc, destroy_app_space];
    • схема работы create_app_space: на вход получает размер памяти, указанный в заголовке бинарника ([app_size]), и сам загруженный в память ядра бинарник (указатель [img_base] + размер [img_size]);
      • захватывает мьютекс pg_data.pg_mutex, контролирующий запись в таблицы страниц;
      • проверяет, достаточно ли свободной физической памяти для приложения; если недостаточно, возвращает ошибку;
      • выделяет новую страницу [dir_addr] под PDE, маппит её по линейному адресу [tmp_task_pdir] (чтобы к ней можно было обращаться; место в системном адресном пространстве для этой цели было зарезервировано при загрузке), обнуляет user-mode указатели на PTE и копирует kernel-mode часть; заменяет вход PDE, соответствующий page_tabs, указателем на себя ([dir_addr]);
      • устанавливает созданную PDE как текущую таблицу страниц (дальнейшие махинации с page_tabs пойдут внутрь [dir_addr], создаваемой таблицы);
      • создаёт нужное (для описания всей памяти [app_size]) количество страниц PTE, заносит указатели на них в PDE;
      • маппит в адресное пространство нового процесса загруженный бинарник;
      • если при компиляции ядра константа GREEDY_KERNEL ненулевая, то помечает оставшиеся страницы в памяти приложения значением 2 (упомянутом ранее - физическую память выделит обработчик #PF, когда она будет нужна); если нулевая, то выделяет физическую память под все остальные страницы;
      • размаппит страницу [dir_addr] из линейного адреса [tmp_task_pdir];
      • возвращается; текущая таблица страниц соответствует адресному пространству нового процесса.
    • схема работы destroy_app_space:
      • захватывает мьютекс pg_data.pg_mutex;
      • выясняет, является ли текущий поток последним в своём процессе (проходит по списку потоков в поисках потоков с тем же адресным пространством); если нет, освобождает мьютекс и выходит;
      • маппит таблицу PDE по линейному адресу [tmp_task_pdir], чтобы с ней можно было работать;
      • проходит по всем user-mode элементам (элементы PDE - указатели на PTE), каждую выделенную страницу с PTE маппит по линейному адресу [tmp_task_ptab] (место в адресном пространстве ядра, как и для [tmp_task_pdir], было зарезервировано при загрузке системы), вызывает вспомогательную процедуру destroy_page_table (которая в свою очередь проходит по элементам теперь уже PTE, освобождая все выделенные страницы) и освобождает саму страницу с PTE;
      • освобождает страницу с таблицей PDE;
      • размаппит страницы из [tmp_task_ptab] и [tmp_task_pdir];
      • освобождает мьютекс pg_data.pg_mutex
    3. 4. 5. При управлении памятью бывают разные задачи.
    А. Управление физической памятью.
    • Есть функция выделения одной физической страницы [core/memory.inc, alloc_page],
    • функция выделения нескольких физических страниц [core/memory.inc, alloc_pages], выделяющая связный диапазон, причём кратный 8 страницам,
    • функция освобождения ранее выделенной физической страницы [core/memory.inc, free_page].
    • Система хранит массив битов, который для каждой физической страницы описывает, выделена она или свободна, а также вспомогательные переменные: подсказку [page_start] - нижнюю границу при поиске свободной страницы (указатель внутри битового массива, относительно которого известно, что все предшествующие данные забиты единицами, а соответствующие страницы выделены), указатель [page_end] на конец массива, число свободных страниц [pg_data.pages_free].
    • Физические страницы выделяются по принципу first-fit, возвращается первый подходящий вариант (первая свободная страница либо первый свободный блок нужной длины).
    Б. Управление адресным пространством ядра.
    В core/heap.inc есть alloc_kernel_space и free_kernel_space, которые соответственно выделяют и освобождают непрерывный диапазон в адресном пространстве ядра. Как именно они это делают, я не разбирался.
    В. Управление памятью ядра.
    • Есть функция получения физического адреса по указанному линейному [core/memory.inc, get_pg_addr],
    • функция маппинга указанной физической страницы по указанному линейному адресу [core/memory.inc, map_page] (стандартное добавление элемента в таблицу страниц; работает и с user-mode пространством), способная также размаппить страницу (нулевой элемент таблицы страниц соответствует свободной линейной странице),
    • аналогичная функция для непрерывного блока адресов [core/memory.inc, commit_pages],
    • обратная ей [core/memory.inc, unmap_pages],
    • функция [core/memory.inc, release_pages], которая принимает линейный адрес и размер блока и одновременно размаппит из линейных адресов и освобождает физические страницы из этого блока.
    • а также функция [core/memory.inc, map_io_mem], создающая проекцию заданного блока физических страниц в адресном пространстве ядра (вызывает alloc_kernel_space, а потом добавляет в таблицу страниц преобразование указанных физических адресов на только что выделенные линейные),
    • общая функция выделения памяти ядра [core/heap.inc, kernel_alloc], которая одновременно выделяет место в адресном пространстве ядра, физическую память, устанавливает соответствие между ними и возвращает линейный адрес блока. Алгоритм работы: выделяет нужный диапазон линейных адресов (alloc_kernel_space); если запрошено A*8+B страниц, 0<=B<8, то выделяет непрерывный блок из A*8 страниц через alloc_pages и маппит по нужным линейным адресам, а потом B раз выделяет по одной физической странице (alloc_page) и тоже маппит по нужным адресам,
    • обратная ей функция освобождения памяти ядра [core/heap.inc, kernel_free], основывающаяся на release_pages и free_kernel_space.
    Г. Куча ядра для маленьких блоков памяти.
    Файл core/malloc.inc предоставляет функции malloc и free, предназначенные для выделения маленьких блоков памяти (kernel_alloc/kernel_free из предыдущего пункта работают только с целыми страницами, что может быть много). Как сказано в комментариях (которым нет причин не верить), всё основано на коде Doug Lea ftp://gee.cs.oswego.edu/pub/misc/malloc.c . При загрузке [core/malloc.inc, init_malloc] под кучу выделяется 256 Кб через kernel_alloc, и malloc/free оперируют исключительно внутри этой области. В деталях опять же не разбирался.
    Д. Работа с памятью приложений.
    • Когда-то довольно давно адресное пространство приложения было обязано быть непрерывным диапазоном, который для приложения начинался с нулевого адреса; с тех пор в структуре, возвращаемой функцией 9 для потока, есть поля "адрес процесса в памяти" и "размер используемой памяти" (точнее, лимит = размер-1). В то время единственной возможностью по динамическому перераспределению памяти было изменение размера адресного пространства, и с того времени идёт сисфункция 64, [core/memory.inc, new_mem_resize]. Которая при уменьшении используемой памяти проходит по "лишнему" пространству и освобождает выделенные страницы (free_page), при увеличении сначала выделяет дополнительные страницы под таблицы PTE (если нужно), а потом проходит по "добавляемому" пространству и выделяет запрошенные страницы через alloc_page+map_page. Кроме того, в конце она вызывает вспомогательную функцию update_mem_size, которая проходит по списку потоков и для всех потоков текущего процесса обновляет поле с размером памяти в структуре потока.
    • Но ясно, что при таком подходе далеко не всегда можно освободить память, которая стала ненужной. Поэтому была написана куча для приложений, функции init_heap, user_alloc, user_free, user_realloc из core/heap.inc. Они работают с отдельными страницами и блоками страниц. (Здесь мне пришлось разбираться в деталях для перераспределения памяти, user_realloc - это моих рук дело; весь остальной код, упомянутый в этом посте, написал Serge). Использование кучи несовместимо с перераспределением памяти сисфункцией 64, так что для активации режима кучи нужно вызвать соответствующую сисфункцию, которая инициализирует кучу (init_heap) и после которой функция 64 будет всегда возвращать ошибку. Организация данных: есть некоторые поля в структуре потока, хранящие базу кучи и размер адресного пространства, отводимого под кучу; в куче бывают выделенные и свободные блоки (все блоки занимают целое число страниц), все блоки организованы в односвязный список следующим образом. Информация о физических страницах для линейных адресов хранится в таблице страниц, при этом "нормальные" элементы таблицы либо нулевые (страница не выделена, обращаться к ней нельзя), либо имеют установленный бит присутствия (страница выделена и находится в памяти), либо имеют установленный 1-й бит (был запрос на выделение страницы, но она будет выделена при первом обращении). Информация о блоке размещается там же, в элементе таблицы страниц, предшествующем собственно блоку, и в таком элементе младшие два бита нулевые, зато установлен либо 2-й бит (маска FREE_BLOCK=4), соответствующий свободному блоку, либо 3-й бит (маска USED_BLOCK=8); старшие 32-12 = 20 бит содержат длину блока, это и организует односвязный список всех блоков. Кстати, при таком хранении информации любые два блока разделены хотя бы одной свободной страницей. Выделение блока - алгоритм first-fit, в цикле по блокам находим первый свободный блок подходящего размера; если он оказался в точности запрошенного размера, то он просто переводится в статус занятого, иначе от него отделяется хвост, остающийся свободным блоком. В любом случае страницы нового блока помечаются значением 2 (отложенное выделение физической памяти). Функция освобождения блока освобождает все выделенные страницы из блока через free_page, помечает блок как свободный, после чего проходит по списку блоков, объединяя соседние свободные блоки в один свободный блок. Функция перераспределения блока при уменьшении размера блока освобождает лишние страницы и либо создаёт новый свободный блок, либо расширяет следующий свободный блок, а при увеличении размера блока смотрит, есть ли сразу после запрошенного блока свободный блок нужного размера (можно ли увеличить запрошенный блок на месте), если нет, то ищет свободный блок полного размера (тоже first-fit), перемаппит все физические страницы из старого блока в новый, помечает старый блок как свободный и запускает объединение свободных блоков; добавленные страницы в любом случае помечаются значением 2. Все три функции в конце работы вызывают update_mem_size.
    • Стандартной процедуры для работы с блоками меньше страниц нет. В различных библиотеках для ЯВУ есть различные реализации malloc/realloc/free на основе системных функций, но это уже зависит от конкретной программы. Некоторые программы вообще обходятся без маленьких блоков и неплохо себя чувствуют.
    6. API для других подсистем ядра - ранее описанные функции. API для драйверов: AllocPage, AllocPages, FreePage, GetPgAddr, MapPage, MapIoMem, CommitPages, ReleasePages, AllocKernelSpace, FreeKernelSpace, KernelAlloc, KernelFree, UserAlloc, UserFree, Kmalloc, Kfree (это malloc/free из кучи малых блоков ядра). API для приложений: сисфункции 64, 68.11, 68.12, 68.13, 68.20, 18.16, 18.17, 18.20.
  • Galkov wrote:а нельзя ли "провести за ручку" по главныму циклу системы при запущенной паре процессов
    Главный цикл системы от запущенных процессов не зависит. Просто есть специальный системный поток, создающийся при загрузке, в слоте 1 с идентификатором 1 и именем "OS/IDLE", которому так же, как и другим потокам, распределяется процессорное время и который, получив свой квант времени, выполняет кучу разных несвязанных системных задач (потому он "OS"), а также, когда делать больше нечего, даёт процессору отдохнуть командой hlt (потому он "IDLE"). Конкретно главный цикл находится в kernel.asm, метка osloop, а чтобы описать всё, что он делает, нужно вдаваться в детали всех подсистем, а мне банально лень :) Если интересует более подробно - направление я дал, а исходники ядра общедоступны.
  • Я уже начал писать, но diamond сделал всё намного лучше.

    Поэтому немного подробней о работе кучи ядра.

    Каждый блок памяти в описывается дескриптором. Дескриптор содержит указатели для двусвязного списка блоков, указатели смежных блоков памяти, базовый адрес, размер блока и дополнительные флаги. Дескрипторы выделяются из статического массива на 4096 дескрипторов. Первый элемент массива описывает сам массив. Свободные блоки памяти объединяются в упорядоченные по размеру двусвязные списки. Указатели списков хранятся в массиве mem_block_list[64]. Для выделения блоков размером 1-63 страниц применяется best-fit алгоритм, для блоков в 64 страницы и больше first-fit.
  • diamond wrote:- остальные IRQ разбиваются на две категории в зависимости от определения константы USE_COM_IRQ при компиляции ядра: если она ненулевая, то первая состоит из IRQ3 и IRQ4, иначе первая пуста; вторая состоит из всех остальных. IRQ из первой группы может перехватить приложение, IRQ из второй группы может перехватить драйвер (о драйверах - ниже). Перехват приложением заключается в вызове функции 45 для нужного IRQ и определения действий при поступлении IRQ функцией 44. Если IRQ перехвачено, то его обработка заключается в считывании значений из определённых портов (определённых функцией 44) и складывания их в буфер. Приложение в любой момент может прочитать этот буфер функцией 42.
    Это верно для релизов системы (последнего официального 0.7.1.0, равно как и AZ от 14.02.2008); в текущем рабочем ядре (начиная с ревизии svn.774, 18.03.2008) ситуация изменилась и двух отдельных категорий нет, а любое IRQ, которое система не обрабатывает самостоятельно, может перехватить и драйвер, и приложение (естественно, доступ получит только первый возжелавший - пока он не освободит IRQ, дав понять, что больше не нуждается, все остальные запросы резервирования будут обламываться).

    Кстати, тест на внимательность. В посте "Управление памятью" есть небольшая ошибка, которую можно обнаружить, не шаря по исходникам ядра с проверками, а только зная, что ядро таки работает. Какая?
  • Физические страницы выделяются по принципу first-fit, возвращается первый подходящий вариант (первая свободная страница либо первый свободный блок нужной длины).
    У меня чего-то не сходится. Насколько я понимаю, принцип first-fit использыется при динамическом управлении памятью, но никак не в страничном. Где я ошибаюсь?
  • Да, еще 2 вопроса.
    1) поддерживает ли Kolibri многопроцессорность?
    2) Как организовано логическое адресное пространство процесса? Как обеспечивается защита адресных пространств процессов и системы?
  • turborufus

    Виртуальные адреса выделяются best-fit для блоков меньше 256 Кб, больше - first-fit. Страничная память управляется битовой картой и там всегда first-fit - первая свободная страница в массиве или блок подходящей длины.
  • turborufus wrote:У меня чего-то не сходится. Насколько я понимаю, принцип first-fit использыется при динамическом управлении памятью, но никак не в страничном. Где я ошибаюсь?
    Всё правильно, просто есть две разных сущности, для которых требуется динамическое выделение/освобождение - во-первых, есть множество физических страниц оперативной памяти, а во-вторых, есть множество логических страниц адресного пространства. После выделения между ними ещё нужно установить соответствие, и тут уже никаких first-fit/best-fit, а страничные преобразования и таблицы страниц.
    turborufus wrote:1) поддерживает ли Kolibri многопроцессорность?
    Нет.
    turborufus wrote:2) Как организовано логическое адресное пространство процесса? Как обеспечивается защита адресных пространств процессов и системы?
    Общая организация приведена в начале поста про управление памятью. Защита обеспечивается на уровне таблиц страниц - для разных процессов таблицы разные, так что доступа к адресным пространствам других процессов просто нет, а страницы в адресном пространстве системы (верхние 2 Гб) помечены как Supervisor, так что доступ к ним из ring-3 запрещён.
  • Сегодня состоялась беседа с Mario79 по поводу моего не понимания работы дисковой подсистемы в Колибри, в ходе беседы образовался хороший материал интересный думаю многим, и я попросил его оформить это для топика "Ядро - концепция работы", на что он согласился.
    От Mario79.

    Описание работы системы кэширования для жестких дисков и частично затронута работа кода DMA в части связанной с кэшированием. Описание не затрагивает код файловых систем, так как в этом случае это не существенно.

    Что было в Менуэт:

    1.Одновременная работа только с одним разделом жесткого диска. Ни о каком копировании файла с раздела на раздел без дополнительных телодвижений со стороны пользователя не могло быть и речи.
    2.Один единственный буфер кэширования на 1 Мб. При переключении на другой раздел жесткого диска (даже одного физического диска) происходило полное очищение кэша.
    3.Исключительно PIO режим работы с жестким диском.
    4.Буфер при записи на жесткий диск скидывается по 1 сектору.

    Вывод скорость работы дисковой подсистемы существенно низкая, удобство использование на любителя, но если честно смотреть то весьма сомнительное удобство.

    Как это прирастало в Колибри.

    1.Изначально дисковая система была идентична Менует.

    2.Поскольку было большое желание работать хотя бы с двумя разделами, а лучше со всеми без дополнительных телодвижений была введена модернизация имен жестких дисков, позволившая обращаться к более чем одному жесткого диска без дополнительных телодвижений с программой SETUP. В процессе экспериментов было выявлено, что определение параметров раздела при каждом обращении к дисковой подсистеме тормозит скорость работы. По этой причине эта часть кода была вынесена в отдельную процедуру которая вызывается при загрузке системы и определяет все наличествующие разделы на жестком диске, а затем сохраняет их в специальном буфере (просмотреть его можно функцией 18.11). Из этого буфера во время работы эти данные извлекаются и используются по мере обращения к определенным разделам.

    3.Было внедрено использование режимов DMA и UltraDMA (максимального который установил BIOS при загрузке компьютера).
    3.1 В ходе разработке кода выяснилось, что чтение по 1 сектору как и запись скашивают весь прирост скорости в DMA режиме. По этой причине с целью минимизации изменения существующего кода был введен пред-буфер чтения DMA на 16 секторов жесткого диска (каждый физический сектор 512 байт). При запросе 1 сектора производится считывание не только 1 сектора а еще 15 последующих, поскольку считывание производится за один запрос к физическому устройству, то никаких дополнительных задержек это не вызывает. Поскольку обращения к жесткому диск по большей части последовательное (разумеется мы не рассматриваем очень сильную фрагментацию данных, это повод для запуска дефрагментатора), то прирост скорости по сравнению с по секторным считыванием колоссален. Если в предкэше нужного сектора не окажется то производится его считывание вместе с последующими 15, т. е. Кэш полностью обновляется. С одной стороны максимальный «штраф» может быть в 15 секторов, но в ходе поставленных опытов выяснилось что 16 секторов это оптимальная величина, считывание 32 сектора было медленней и «штраф» тоже был больше, с другой стороны при считывании 8 секторов наблюдался резкий провал производительности, который выравнивался только к 4, то это уже было заметное снижение производительности. По этим причинам 16 стало опорным значением.
    3.2 Для ускорения записи был применен несколько иной подход. Поскольку кэшу же был и совершать дополнительные телодвижения задействуя процессор для сортировки нужной последовательности секторов, чтобы слить их единым блоком не лучший выход. По этой причине есть две процедуры записи для DMA — одна записывает по одному сектору, другая от 2 до 64 секторов за раз. Поскольку в кэше данные могут располагаться как последовательно так и вразнобой, то соответственно алгоритм кода если не находит последовательных секторов общим числом больше 1, т.е. 2 и более вплоть до 64, записывает по одному сектору. Как только найдено два последовательных сектора начинается подсчет последовательных секторов вплоть до 64 секторов. Когда последовательность оборвется или достигнет 64 — этот кусок сбрасывается за один заход DMA на жесткий диск. Затем процедуры повторяются вплоть до того как весь кэш (те из его секторов которые помечены для записи) не будет записан по месту назначения. Такой подход позволил поднять скорость записи без дополнительных затрат для центрального процессора.

    4.Поскольку буфер был один на все устройства и разделы, то сначала возникла идея доработать код чтобы он не очищался если чтение или запись производятся на разные разделы одного физического устройства. Это было реализовано и некоторое время система функционировала в таком виде. Однако провал в скорости при копировании на разные физические устройства был очень сильным. По этой причине было введена система независимых кэшей — каждому физическому устройству по кэшу. Первоначально их было максимум 4 потом стало больше но об этом позже. Изначально планировалось динамическое выделение памяти при старте системы, но в ходе экспериментов выяснилось что при размере кэша боле 1 Мб перебор всех секторов в таком кэше занимает много времени и замедляет скорость доступа к жесткому диску. Проблему решил бы алгоритм «хеширования», но по некоторым (неважным в контексте этой статьи) причинам он так и не был реализован. По этому размер кэша был ограничен 1 Мб — это максимальное значение, минимальное значение каждого кэша это 128 Кб. Минимальное значение взято приблизительно и исключительно для работы на старых компьютерах с недостаточным количеством оперативной памяти (16, 12, 8 Мб). Разумеется при уменьшении размера буфера скорость работы с файловой подсистемой падает ,но это меньшее зло чем совсем не работать с ней.
    Дополнительная мера для повышения скорости работы — это сделать так чтобы служебные данные раздела и данные директорий - которые бывают нужны часто, а обновляются редко не выбивались из кэша новыми данными. Для этого планировалось разделить кэш на две неравны части — одну меньшую часть для служебных данных, другую большую часть для данных считываемых файлов. Также по некоторым причинам это было реализовано лишь для ATAPI устройств, поскольку для них требовалось только читающая часть кода, то написание кода было немного проще. После внедрения этого механизма — MP3 плеер перестал заикаться при непосредственном проигрывании CD и DVD дисков (раньше заикался потому что у него нету собственного кэша для файла, а сейчас система обеспечивает своевременную подачу порции данных), хотя ATAPI устройства до сих пор работают в PIO режиме. Реализация пакетного DMA режима для ATAPI устройств более сложная задача чем реализация DMA для жестких дисков.
    В ходе экспериментов с кэшами также выяснилось, что код работы с кэшем внедренный в Менуэт ,который лежал в основе системы кэширования содержал фатальную ошибку, из-за которой первые реализации кода в DMA режиме вызывали порчу данных на жестком диске. Область данных кэша содержавших указатели номеров содержащихся секторов была на 1 единицу больше чем сам размер кэша, пока кэш был стабилен по местоположению видимо затирались не особо важные данные, а когда он стал динамическим это вылезло большими проблемами. Впоследствии ситуация была разрешена и баг «как бы» сам исчез с внедрением отдельных кэшей для каждого физического устройства.

    5.Система доступа через PIO режим по прежнему осталась посекторной, ее вышеописанное с DMA в плане ускорения работы не коснулось. В принципе можно доработать код аналогично DMA — для ATA контроллеров есть команды поддерживающие считывание за один запрос более 1 сектора, но судя по сравнению с работой Виндовс прирост по скорости будет максимум 10-30% и то только при последовательном чтении большого объема данных. Относительно этого делаем вывод что «овчинка выделки не стоит» потому что режимом PIO пользуются только в исключительных случаях, когда DMA режим не работает, а объем изменяемого кода весьма существенен.

    6.В дальнейшая доработка производилась Diamond'ом. Была она связана с добавлением дополнительных буферов для видимых из БИОС, но не видимых пока в самой Колибри устройств. Для тех дисков которые уже обнаружены самой ОС кэш не дублируется, а используется совместно при обащении к HD и BD дискам. Подробнее думаю он сам может рассказать.

    Возможность применения SATA и вообще новых дисков на сегодня ограничена 2 факторами:

    1.Прерывания построены на старой модели, где их максимум 15 штук (1 используется для каскадирования, хотя реально никакого каскадирования нету, но это сделано для совместимости со старым железом). Новые контроллеры SATA любят садится на прерывания выше 20-го, либо не садятся вообще, а это PIO режим.

    2.Отсутствует поддержка LBA48 - а это большой объем переделки кода. В принципе можно обойтись поддержкой 32-х битвой адресации, но с современной скоростью развития жестких через 1-2 года это опять упрется в трубу. Дело в коде который в Колибри жестко завязан на максимум 32 бита, расширение до 64-х бит кода работы с ФС потребует большой переделки, по сути написать с нуля по крайней мере на 50-70% кода.
  • Who is online

    Users browsing this forum: No registered users and 3 guests