Ник
Описаний алгоритмов в сети как раз куча, если вы знаете ассемблер, то взять алгоритм ассемблера 32-бит, и перевести его на 8-бит, не является проблемой.
Более того, есть способ извлечения корня "столбиком" (в сети тоже найдете), это способ переложить на ассемблер не сложно. А еще, если "для изучить" пример, то в среде для конкретного процессора пишем на Си, а полученный в конечном итоге HEX-дамп дизассемблирем. Изучаем )