24 декабря 2023 г. Архивач восстановлен после серьёзной аварии. К сожалению, значительная часть сохранённых изображений и видео была потеряна.
Подробности случившегося. Мы призываем всех неравнодушных
помочь нам с восстановлением утраченного контента!
Machine Learning 101:
1. Introduction to Statistical Learning, Casella ( http://www-bcf.usc.edu/~gareth/ISL/ISLR%20Sixth%20Printing.pdf )
Читается легко, неплохая разминка перед ESL
2. Pattern Recognition and Machine Learning, Bishop.
3. Bayesian Methods for Hackers. Введение в байесовские методы, годно.
4. http://neuralnetworksanddeeplearning.com
Введение в нейронные сеточки для самых маленьких. Написано простым английским.
Machine Learning Advanced
1. Elements of Statistical Learning (http://statweb.stanford.edu/~tibs/ElemStatLearn/printings/ESLII_print10.pdf )
Сложность - 9 из 10. Шутки в сторону, можно читать годами. Если вы сможете полностью проработать эту книгу и прорешать упражнения, обязательно свяжитесь со мной - у меня найдется работа для вас.
2. Optimization for Machine Learning. Edited by Suvrit Sra, Sebastian Nowozin and Stephen J. Wright, MIT Press, 2012.
Иногда from sklearn.linear_model import LogisticRegression перестает работать и тогда нужно все переписать. Оптимизация квадратичных приближений на больших объемах данных, разреженные модели, суррогатные оптимизации - вот это все тут есть.
Дальше вас ждет дикий и необузданный мир. Два маяка https://vk.com/deeplearning и http://deeplearning.net/reading-list/ осветят дорогу: это списки литературы и обзоры статей для прощупывания пульса индустрии.
Computer Science
1. Intoduction to Algorithms, Corman
2. The Art of Computer Programming, Knuth
3. Compilers: Principles, Techniques, and Tools. Разработчикам компиляторов и прочим авторам убийц питонов и крестов посвящается.
Programming
1. Python Unlocked. Короткая книжка без соплей. В ней описаны метаклассы, дескрипторы, системы типов, шаблоны проектирования и TDD. Всего чуть больше 100 страниц концентрированной сути.
2. Code Complete (2nd), McConnel.
Неплохая книга. Не то чтобы обдрочиться, но в голове всякие фишки по структуризации кода и его проектированию остались.
Misc
1. Telegram: @techsparks
Подкаст про всякие гик-штуки.
F.A.Q
По мотивам предыдущего треда.
Эти ваши книжки стоят овер 9000 рублей, как быть? Как ОП, крайне не одобряю пиратство и рекомендую при возможности все-таки покупать книги, но если вы жмот вам надо кормить 10 детей, то идите сюда http://libgen.io
Книги хорошо, но с чего начать практический вкат?
Во-первых, вам нужна любая unix-based система. На Windows возможно запустить нижеперечисленное, но ждите пердолева с настройкой и неодобрительных взглядов анонимуса. Кроме того, в компаниях, так или иначе связанных с разработкой йоба-ПО и machine learningом, Linux/OS X является стандартом. Привыкайте.
Во-вторых, определитесь с языком. Python и C++ наиболее мейнстримовые инструменты, с ними вы без еды не останетесь. Есть еще R, на котором пацаны живут статистикой и анальными пакетами. Некоторые инструменты являются языко-независимыми (Vowpal Vabbit, XGBoost), но обвязывать их вы все равно будете из какой-либо среды.
На Java разработано много production-ready инструментов для бигдаты и если вы угораете по терабайтам данных, то имеет смысл посмотреть в её сторону. Впрочем, лучше это делать уже потом, когда прийдет осознание потребностей.
В-третих, выбирайте себе задачу. Что угодно: распознать качпу, обнаружить ботов по логам, найти раковых больных. Список можно посмотреть, например, на kaggle.com. После чего приступаете к решению выбранной задачи.
Не прийдется ли мне потом с таким наборищем знаний идти в макдак работать?
Несмотря на хайп вокруг ML, далеко не во всех IT компания есть необходимость в ML и понимание круга задач, которые можно решить этими методами. Но поверьте, в 2016 компетентный специалист будет востребован. В России потребителями ваших знаний могут стать: Яндекс, Mail.ru, Вконтакте, Rambler, Касперский, Билайн, Связной, ABBYY, Хуавэй. В биоинформатике есть определенный спрос, можно поскролить http://blastim.ru
Здорово, но я так и не понял чем же вы занимаетесь в IT компаниях?
Попытаюсь ответить со своей колокольни и сразу хочу предупредить, что это едва ли консенсуальное мнение.
ML-специалист - это такое зонтичное определение для человека, способного увидеть проблему, выгрепать кучу логов и данных, посмотреть на них, придумать решение проблемы и врезать это решение его в продакшн. По сути, это кодер, решающий не чисто технические, а, в некотором роде, человеческие проблемы.
Имхо, мы все же остаемся в первую очередь разработчиками.
Но ведь есть Machine Learning per se, чем он занимается?
Действительно есть. Одаренная прослойка людей изобретает новые методы, но это правильнее называть просто математикой. Сейчас пищей для ума являются нейронные сети и их возможные архитектуры, но даже они двигаются рука об руку с практикой.
Что такое TensorFlow?
TensorFlow - часть гуглового инструмента для перемножения тензоров и оптимизации функционалов. Часть - потому что важные куски типа паралелизации еще не выкачены в паблик. Если вам все ещё непонятно что это, значит это вам и не нужно, сириусли. Google перестарался с рекламой и теперь люди думают, что TF - это серебряная пуля и затычка для каждой бочки. До TF был Theano, который выполнял свою работу не хуже. И, в отличии от TF, он уже находится в стабильной фазе.