[{"data":1,"prerenderedAt":5519},["ShallowReactive",2],{"topic:aidt-iot-mii:topic-08":3},{"content":4,"pz":5448,"lr":5448,"additional":5448,"courseMeta":5460},{"id":5,"title":6,"body":7,"course_slug":5447,"description":17,"env_label":5448,"env_url":5448,"extension":5449,"group":5448,"is_course_project":5450,"is_index":5450,"level":5448,"meta":5451,"navigation":5452,"path":5453,"section":5454,"seo":5455,"stem":5456,"topic_number":5457,"topic_slug":5458,"__hash__":5459},"courses\u002Fcourses\u002Faidt-iot-mii\u002Ftopic-08-content.md","Тема 8. Нейронные сети и глубокое обучение",{"type":8,"value":9,"toc":5428},"minimark",[10,14,18,31,34,39,44,415,622,635,639,1254,1267,1722,2146,2155,2533,2537,3643,3744,3994,4003,4193,4271,4275,4279,4337,4462,4524,4533,4572,4576,5015,5022,5209,5218,5228,5232,5236,5243,5258,5273,5309,5313,5316,5340,5343,5366,5370],[11,12,6],"h1",{"id":13},"тема-8-нейронные-сети-и-глубокое-обучение",[15,16,17],"p",{},"В темах 4–7 мы рассмотрели «классические» алгоритмы машинного обучения: логистическую регрессию, деревья решений, ансамбли, методы кластеризации. Все они исходят из того, что признаки уже подготовлены человеком, а сам алгоритм лишь подбирает решающее правило в относительно компактном пространстве. На неструктурированных данных — изображениях, звуковых сигналах, длинных текстах — эта схема пробуксовывает: подбор хороших признаков вручную сам становится трудоёмкой инженерной задачей, а итоговая модель работает не лучше посредственного человеческого эксперта.",[15,19,20,21,25,26,30],{},"Нейронные сети предлагают другой подход: признаки извлекаются не отдельно, а совместно с решающим правилом — как часть одной оптимизируемой системы. Когда таких слоёв извлечения становится много, говорят о ",[22,23,24],"strong",{},"глубоком обучении"," (англ. ",[27,28,29],"em",{},"deep learning","). За последние пятнадцать лет именно глубокие сети сместили классические модели в задачах распознавания изображений, машинного перевода, синтеза речи и стали инженерной основой современных больших языковых моделей, упомянутых в теме 1.",[15,32,33],{},"Тема ставит три цели. Во-первых, разобрать, что такое искусственный нейрон и как из нейронов собирается многослойный перцептрон. Во-вторых, понять, как такая сеть обучается — что считается «ошибкой» и как её градиент проходит через слои. В-третьих, познакомиться с двумя ключевыми семействами архитектур — свёрточными и рекуррентными сетями, — а также с практическими приёмами, без которых глубокое обучение в реальных проектах не работает.",[35,36,38],"h2",{"id":37},"основы-нейронных-сетей","Основы нейронных сетей",[40,41,43],"h3",{"id":42},"биологическая-метафора-и-математическая-модель","Биологическая метафора и математическая модель",[15,45,46,47,50,51,237,238,381,382,414],{},"Историческая отправная точка — модель ",[22,48,49],{},"нейрона Маккаллока–Питтса"," (1943), которая упрощает биологический нейрон до бинарного логического элемента: входы ",[52,53,56,103],"span",{"className":54},[55],"katex",[52,57,60],{"className":58},[59],"katex-mathml",[61,62,64],"math",{"xmlns":63},"http:\u002F\u002Fwww.w3.org\u002F1998\u002FMath\u002FMathML",[65,66,67,98],"semantics",{},[68,69,70,81,86,89,91],"mrow",{},[71,72,73,77],"msub",{},[74,75,76],"mi",{},"x",[78,79,80],"mn",{},"1",[82,83,85],"mo",{"separator":84},"true",",",[82,87,88],{},"…",[82,90,85],{"separator":84},[71,92,93,95],{},[74,94,76],{},[74,96,97],{},"n",[99,100,102],"annotation",{"encoding":101},"application\u002Fx-tex","x_1, \\dots, x_n",[52,104,107],{"className":105,"ariaHidden":84},[106],"katex-html",[52,108,111,116,174,178,183,187,190,193,196],{"className":109},[110],"base",[52,112],{"className":113,"style":115},[114],"strut","height:0.625em;vertical-align:-0.1944em;",[52,117,120,124],{"className":118},[119],"mord",[52,121,76],{"className":122},[119,123],"mathnormal",[52,125,128],{"className":126},[127],"msupsub",[52,129,133,165],{"className":130},[131,132],"vlist-t","vlist-t2",[52,134,137,160],{"className":135},[136],"vlist-r",[52,138,142],{"className":139,"style":141},[140],"vlist","height:0.3011em;",[52,143,145,150],{"style":144},"top:-2.55em;margin-left:0em;margin-right:0.05em;",[52,146],{"className":147,"style":149},[148],"pstrut","height:2.7em;",[52,151,157],{"className":152},[153,154,155,156],"sizing","reset-size6","size3","mtight",[52,158,80],{"className":159},[119,156],[52,161,164],{"className":162},[163],"vlist-s","​",[52,166,168],{"className":167},[136],[52,169,172],{"className":170,"style":171},[140],"height:0.15em;",[52,173],{},[52,175,85],{"className":176},[177],"mpunct",[52,179],{"className":180,"style":182},[181],"mspace","margin-right:0.1667em;",[52,184,88],{"className":185},[186],"minner",[52,188],{"className":189,"style":182},[181],[52,191,85],{"className":192},[177],[52,194],{"className":195,"style":182},[181],[52,197,199,202],{"className":198},[119],[52,200,76],{"className":201},[119,123],[52,203,205],{"className":204},[127],[52,206,208,229],{"className":207},[131,132],[52,209,211,226],{"className":210},[136],[52,212,215],{"className":213,"style":214},[140],"height:0.1514em;",[52,216,217,220],{"style":144},[52,218],{"className":219,"style":149},[148],[52,221,223],{"className":222},[153,154,155,156],[52,224,97],{"className":225},[119,123,156],[52,227,164],{"className":228},[163],[52,230,232],{"className":231},[136],[52,233,235],{"className":234,"style":171},[140],[52,236],{}," умножаются на веса ",[52,239,241,272],{"className":240},[55],[52,242,244],{"className":243},[59],[61,245,246],{"xmlns":63},[65,247,248,269],{},[68,249,250,257,259,261,263],{},[71,251,252,255],{},[74,253,254],{},"w",[78,256,80],{},[82,258,85],{"separator":84},[82,260,88],{},[82,262,85],{"separator":84},[71,264,265,267],{},[74,266,254],{},[74,268,97],{},[99,270,271],{"encoding":101},"w_1, \\dots, w_n",[52,273,275],{"className":274,"ariaHidden":84},[106],[52,276,278,281,323,326,329,332,335,338,341],{"className":277},[110],[52,279],{"className":280,"style":115},[114],[52,282,284,288],{"className":283},[119],[52,285,254],{"className":286,"style":287},[119,123],"margin-right:0.0269em;",[52,289,291],{"className":290},[127],[52,292,294,315],{"className":293},[131,132],[52,295,297,312],{"className":296},[136],[52,298,300],{"className":299,"style":141},[140],[52,301,303,306],{"style":302},"top:-2.55em;margin-left:-0.0269em;margin-right:0.05em;",[52,304],{"className":305,"style":149},[148],[52,307,309],{"className":308},[153,154,155,156],[52,310,80],{"className":311},[119,156],[52,313,164],{"className":314},[163],[52,316,318],{"className":317},[136],[52,319,321],{"className":320,"style":171},[140],[52,322],{},[52,324,85],{"className":325},[177],[52,327],{"className":328,"style":182},[181],[52,330,88],{"className":331},[186],[52,333],{"className":334,"style":182},[181],[52,336,85],{"className":337},[177],[52,339],{"className":340,"style":182},[181],[52,342,344,347],{"className":343},[119],[52,345,254],{"className":346,"style":287},[119,123],[52,348,350],{"className":349},[127],[52,351,353,373],{"className":352},[131,132],[52,354,356,370],{"className":355},[136],[52,357,359],{"className":358,"style":214},[140],[52,360,361,364],{"style":302},[52,362],{"className":363,"style":149},[148],[52,365,367],{"className":366},[153,154,155,156],[52,368,97],{"className":369},[119,123,156],[52,371,164],{"className":372},[163],[52,374,376],{"className":375},[136],[52,377,379],{"className":378,"style":171},[140],[52,380],{},", суммируются и сравниваются с порогом ",[52,383,385,400],{"className":384},[55],[52,386,388],{"className":387},[59],[61,389,390],{"xmlns":63},[65,391,392,397],{},[68,393,394],{},[74,395,396],{},"θ",[99,398,399],{"encoding":101},"\\theta",[52,401,403],{"className":402,"ariaHidden":84},[106],[52,404,406,410],{"className":405},[110],[52,407],{"className":408,"style":409},[114],"height:0.6944em;",[52,411,396],{"className":412,"style":413},[119,123],"margin-right:0.0278em;","; выход равен единице, если сумма превзошла порог, и нулю иначе. В этой модели уже видны три ключевых компонента: взвешенная агрегация сигналов, нелинейное преобразование результата и обучаемые параметры — веса. Биологические оговорки — что реальный нейрон сложнее, что синаптические задержки переменны, что обработка частично аналоговая — для математического объекта вторичны; модель ценна именно как абстракция.",[15,416,417,418,25,421,424,425,436,437,621],{},"Следующий шаг сделал Фрэнк Розенблатт в 1958 году, предложив ",[22,419,420],{},"перцептрон",[27,422,423],{},"perceptron",") — нейрон Маккаллока–Питтса, веса которого подбираются по примерам, а не задаются вручную ",[426,427,430],"sup",{"className":428},[429],"cite",[431,432,434],"a",{"href":433},"#ref-1",[52,435,80],{},". Если объекты двух классов линейно разделимы в пространстве признаков, правило обновления весов\n",[52,438,440,488],{"className":439},[55],[52,441,443],{"className":442},[59],[61,444,445],{"xmlns":63},[65,446,447,485],{},[68,448,449,451,454,456,459,462,466,469,472,480,483],{},[74,450,254],{},[82,452,453],{},"←",[74,455,254],{},[82,457,458],{},"+",[74,460,461],{},"η",[82,463,465],{"stretchy":464},"false","(",[74,467,468],{},"y",[82,470,471],{},"−",[473,474,475,477],"mover",{"accent":84},[74,476,468],{},[82,478,479],{},"^",[82,481,482],{"stretchy":464},")",[74,484,76],{},[99,486,487],{"encoding":101},"w \\leftarrow w + \\eta (y - \\hat{y}) x",[52,489,491,512,533,560],{"className":490,"ariaHidden":84},[106],[52,492,494,498,501,505,509],{"className":493},[110],[52,495],{"className":496,"style":497},[114],"height:0.4306em;",[52,499,254],{"className":500,"style":287},[119,123],[52,502],{"className":503,"style":504},[181],"margin-right:0.2778em;",[52,506,453],{"className":507},[508],"mrel",[52,510],{"className":511,"style":504},[181],[52,513,515,519,522,526,530],{"className":514},[110],[52,516],{"className":517,"style":518},[114],"height:0.6667em;vertical-align:-0.0833em;",[52,520,254],{"className":521,"style":287},[119,123],[52,523],{"className":524,"style":525},[181],"margin-right:0.2222em;",[52,527,458],{"className":528},[529],"mbin",[52,531],{"className":532,"style":525},[181],[52,534,536,540,544,548,551,554,557],{"className":535},[110],[52,537],{"className":538,"style":539},[114],"height:1em;vertical-align:-0.25em;",[52,541,461],{"className":542,"style":543},[119,123],"margin-right:0.0359em;",[52,545,465],{"className":546},[547],"mopen",[52,549,468],{"className":550,"style":543},[119,123],[52,552],{"className":553,"style":525},[181],[52,555,471],{"className":556},[529],[52,558],{"className":559,"style":525},[181],[52,561,563,566,614,618],{"className":562},[110],[52,564],{"className":565,"style":539},[114],[52,567,570],{"className":568},[119,569],"accent",[52,571,573,605],{"className":572},[131,132],[52,574,576,602],{"className":575},[136],[52,577,579,589],{"className":578,"style":409},[140],[52,580,582,586],{"style":581},"top:-3em;",[52,583],{"className":584,"style":585},[148],"height:3em;",[52,587,468],{"className":588,"style":543},[119,123],[52,590,591,594],{"style":581},[52,592],{"className":593,"style":585},[148],[52,595,599],{"className":596,"style":598},[597],"accent-body","left:-0.1944em;",[52,600,479],{"className":601},[119],[52,603,164],{"className":604},[163],[52,606,608],{"className":607},[136],[52,609,612],{"className":610,"style":611},[140],"height:0.1944em;",[52,613],{},[52,615,482],{"className":616},[617],"mclose",[52,619,76],{"className":620},[119,123],"\nгарантированно сходится к разделяющей гиперплоскости за конечное число шагов. Это была первая обучаемая модель распознавания образов, и в конце 1950-х она породила волну энтузиазма, сопоставимую с современным AI-хайпом.",[15,623,624,625,634],{},"Эту волну во многом обнулила книга Минского и Пейперта 1969 года ",[426,626,628],{"className":627},[429],[431,629,631],{"href":630},"#ref-2",[52,632,633],{},"2",": одиночный перцептрон неспособен реализовать функцию «исключающего или» (XOR), потому что её таблица истинности линейно неразделима. Авторы строго показали, что для таких функций требуется промежуточный слой нейронов, а методов их обучения тогда не существовало. Содержательно вывод был справедлив, но истолкован он был шире, чем заслуживал: финансирование коннекционистских исследований резко сократилось, наступила первая «зима ИИ», о которой мы говорили в теме 1. Из этой истории полезно вынести два урока: ограничение модели стоит понимать буквально, не распространяя на её естественные обобщения; и инструмент, у которого «нет алгоритма обучения», не равен «инструменту, у которого его никогда не будет».",[40,636,638],{"id":637},"многослойный-перцептрон","Многослойный перцептрон",[15,640,641,642,25,644,647,648,971,972,1069,1070,1144,1145,1219,1220,1249,1250,1253],{},"Снять ограничение перцептрона позволяет сложение нескольких слоёв нейронов. ",[22,643,638],{},[27,645,646],{},"multilayer perceptron, MLP",") состоит из входного слоя признаков, одного или нескольких скрытых слоёв и выходного слоя, дающего предсказание. Каждый слой реализует аффинное преобразование с последующей нелинейной активацией:\n",[52,649,651,740],{"className":650},[55],[52,652,654],{"className":653},[59],[61,655,656],{"xmlns":63},[65,657,658,737],{},[68,659,660,675,678,681,685,735],{},[661,662,663,666],"msup",{},[74,664,665],{},"h",[68,667,668,670,673],{},[82,669,465],{"stretchy":464},[74,671,672],{},"l",[82,674,482],{"stretchy":464},[82,676,677],{},"=",[74,679,680],{},"σ",[682,683,684],"mtext",{}," ⁣",[68,686,687,689,702,718,720,733],{},[82,688,465],{"fence":84},[661,690,691,694],{},[74,692,693],{},"W",[68,695,696,698,700],{},[82,697,465],{"stretchy":464},[74,699,672],{},[82,701,482],{"stretchy":464},[661,703,704,706],{},[74,705,665],{},[68,707,708,710,712,714,716],{},[82,709,465],{"stretchy":464},[74,711,672],{},[82,713,471],{},[78,715,80],{},[82,717,482],{"stretchy":464},[82,719,458],{},[661,721,722,725],{},[74,723,724],{},"b",[68,726,727,729,731],{},[82,728,465],{"stretchy":464},[74,730,672],{},[82,732,482],{"stretchy":464},[82,734,482],{"fence":84},[82,736,85],{"separator":84},[99,738,739],{"encoding":101},"h^{(l)} = \\sigma\\!\\left(W^{(l)} h^{(l-1)} + b^{(l)}\\right),",[52,741,743,799],{"className":742,"ariaHidden":84},[106],[52,744,746,750,790,793,796],{"className":745},[110],[52,747],{"className":748,"style":749},[114],"height:0.888em;",[52,751,753,756],{"className":752},[119],[52,754,665],{"className":755},[119,123],[52,757,759],{"className":758},[127],[52,760,762],{"className":761},[131],[52,763,765],{"className":764},[136],[52,766,768],{"className":767,"style":749},[140],[52,769,771,774],{"style":770},"top:-3.063em;margin-right:0.05em;",[52,772],{"className":773,"style":149},[148],[52,775,777],{"className":776},[153,154,155,156],[52,778,780,783,787],{"className":779},[119,156],[52,781,465],{"className":782},[547,156],[52,784,672],{"className":785,"style":786},[119,123,156],"margin-right:0.0197em;",[52,788,482],{"className":789},[617,156],[52,791],{"className":792,"style":504},[181],[52,794,677],{"className":795},[508],[52,797],{"className":798,"style":504},[181],[52,800,802,806,809,813,816,965,968],{"className":801},[110],[52,803],{"className":804,"style":805},[114],"height:1.238em;vertical-align:-0.35em;",[52,807,680],{"className":808,"style":543},[119,123],[52,810],{"className":811,"style":812},[181],"margin-right:-0.1667em;",[52,814],{"className":815,"style":182},[181],[52,817,819,829,868,912,915,918,921,959],{"className":818},[186],[52,820,824],{"className":821,"style":823},[547,822],"delimcenter","top:0em;",[52,825,465],{"className":826},[827,828],"delimsizing","size1",[52,830,832,836],{"className":831},[119],[52,833,693],{"className":834,"style":835},[119,123],"margin-right:0.1389em;",[52,837,839],{"className":838},[127],[52,840,842],{"className":841},[131],[52,843,845],{"className":844},[136],[52,846,848],{"className":847,"style":749},[140],[52,849,850,853],{"style":770},[52,851],{"className":852,"style":149},[148],[52,854,856],{"className":855},[153,154,155,156],[52,857,859,862,865],{"className":858},[119,156],[52,860,465],{"className":861},[547,156],[52,863,672],{"className":864,"style":786},[119,123,156],[52,866,482],{"className":867},[617,156],[52,869,871,874],{"className":870},[119],[52,872,665],{"className":873},[119,123],[52,875,877],{"className":876},[127],[52,878,880],{"className":879},[131],[52,881,883],{"className":882},[136],[52,884,886],{"className":885,"style":749},[140],[52,887,888,891],{"style":770},[52,889],{"className":890,"style":149},[148],[52,892,894],{"className":893},[153,154,155,156],[52,895,897,900,903,906,909],{"className":896},[119,156],[52,898,465],{"className":899},[547,156],[52,901,672],{"className":902,"style":786},[119,123,156],[52,904,471],{"className":905},[529,156],[52,907,80],{"className":908},[119,156],[52,910,482],{"className":911},[617,156],[52,913],{"className":914,"style":525},[181],[52,916,458],{"className":917},[529],[52,919],{"className":920,"style":525},[181],[52,922,924,927],{"className":923},[119],[52,925,724],{"className":926},[119,123],[52,928,930],{"className":929},[127],[52,931,933],{"className":932},[131],[52,934,936],{"className":935},[136],[52,937,939],{"className":938,"style":749},[140],[52,940,941,944],{"style":770},[52,942],{"className":943,"style":149},[148],[52,945,947],{"className":946},[153,154,155,156],[52,948,950,953,956],{"className":949},[119,156],[52,951,465],{"className":952},[547,156],[52,954,672],{"className":955,"style":786},[119,123,156],[52,957,482],{"className":958},[617,156],[52,960,962],{"className":961,"style":823},[617,822],[52,963,482],{"className":964},[827,828],[52,966],{"className":967,"style":182},[181],[52,969,85],{"className":970},[177],"\nгде ",[52,973,975,1004],{"className":974},[55],[52,976,978],{"className":977},[59],[61,979,980],{"xmlns":63},[65,981,982,1001],{},[68,983,984,997,999],{},[661,985,986,988],{},[74,987,665],{},[68,989,990,992,995],{},[82,991,465],{"stretchy":464},[78,993,994],{},"0",[82,996,482],{"stretchy":464},[82,998,677],{},[74,1000,76],{},[99,1002,1003],{"encoding":101},"h^{(0)} = x",[52,1005,1007,1060],{"className":1006,"ariaHidden":84},[106],[52,1008,1010,1013,1051,1054,1057],{"className":1009},[110],[52,1011],{"className":1012,"style":749},[114],[52,1014,1016,1019],{"className":1015},[119],[52,1017,665],{"className":1018},[119,123],[52,1020,1022],{"className":1021},[127],[52,1023,1025],{"className":1024},[131],[52,1026,1028],{"className":1027},[136],[52,1029,1031],{"className":1030,"style":749},[140],[52,1032,1033,1036],{"style":770},[52,1034],{"className":1035,"style":149},[148],[52,1037,1039],{"className":1038},[153,154,155,156],[52,1040,1042,1045,1048],{"className":1041},[119,156],[52,1043,465],{"className":1044},[547,156],[52,1046,994],{"className":1047},[119,156],[52,1049,482],{"className":1050},[617,156],[52,1052],{"className":1053,"style":504},[181],[52,1055,677],{"className":1056},[508],[52,1058],{"className":1059,"style":504},[181],[52,1061,1063,1066],{"className":1062},[110],[52,1064],{"className":1065,"style":497},[114],[52,1067,76],{"className":1068},[119,123]," — вход, ",[52,1071,1073,1097],{"className":1072},[55],[52,1074,1076],{"className":1075},[59],[61,1077,1078],{"xmlns":63},[65,1079,1080,1094],{},[68,1081,1082],{},[661,1083,1084,1086],{},[74,1085,693],{},[68,1087,1088,1090,1092],{},[82,1089,465],{"stretchy":464},[74,1091,672],{},[82,1093,482],{"stretchy":464},[99,1095,1096],{"encoding":101},"W^{(l)}",[52,1098,1100],{"className":1099,"ariaHidden":84},[106],[52,1101,1103,1106],{"className":1102},[110],[52,1104],{"className":1105,"style":749},[114],[52,1107,1109,1112],{"className":1108},[119],[52,1110,693],{"className":1111,"style":835},[119,123],[52,1113,1115],{"className":1114},[127],[52,1116,1118],{"className":1117},[131],[52,1119,1121],{"className":1120},[136],[52,1122,1124],{"className":1123,"style":749},[140],[52,1125,1126,1129],{"style":770},[52,1127],{"className":1128,"style":149},[148],[52,1130,1132],{"className":1131},[153,154,155,156],[52,1133,1135,1138,1141],{"className":1134},[119,156],[52,1136,465],{"className":1137},[547,156],[52,1139,672],{"className":1140,"style":786},[119,123,156],[52,1142,482],{"className":1143},[617,156]," и ",[52,1146,1148,1172],{"className":1147},[55],[52,1149,1151],{"className":1150},[59],[61,1152,1153],{"xmlns":63},[65,1154,1155,1169],{},[68,1156,1157],{},[661,1158,1159,1161],{},[74,1160,724],{},[68,1162,1163,1165,1167],{},[82,1164,465],{"stretchy":464},[74,1166,672],{},[82,1168,482],{"stretchy":464},[99,1170,1171],{"encoding":101},"b^{(l)}",[52,1173,1175],{"className":1174,"ariaHidden":84},[106],[52,1176,1178,1181],{"className":1177},[110],[52,1179],{"className":1180,"style":749},[114],[52,1182,1184,1187],{"className":1183},[119],[52,1185,724],{"className":1186},[119,123],[52,1188,1190],{"className":1189},[127],[52,1191,1193],{"className":1192},[131],[52,1194,1196],{"className":1195},[136],[52,1197,1199],{"className":1198,"style":749},[140],[52,1200,1201,1204],{"style":770},[52,1202],{"className":1203,"style":149},[148],[52,1205,1207],{"className":1206},[153,154,155,156],[52,1208,1210,1213,1216],{"className":1209},[119,156],[52,1211,465],{"className":1212},[547,156],[52,1214,672],{"className":1215,"style":786},[119,123,156],[52,1217,482],{"className":1218},[617,156]," — обучаемые параметры слоя, ",[52,1221,1223,1237],{"className":1222},[55],[52,1224,1226],{"className":1225},[59],[61,1227,1228],{"xmlns":63},[65,1229,1230,1234],{},[68,1231,1232],{},[74,1233,680],{},[99,1235,1236],{"encoding":101},"\\sigma",[52,1238,1240],{"className":1239,"ariaHidden":84},[106],[52,1241,1243,1246],{"className":1242},[110],[52,1244],{"className":1245,"style":497},[114],[52,1247,680],{"className":1248,"style":543},[119,123]," — поэлементная активация. Нелинейность принципиальна: композиция чисто линейных слоёв снова даёт линейную функцию, никаких новых возможностей не появляется. Именно нелинейная активация делает MLP ",[22,1251,1252],{},"универсальным аппроксиматором"," — теорема Цыбенко 1989 года утверждает, что MLP с одним скрытым слоем достаточной ширины способен приблизить любую непрерывную функцию на компакте с произвольной точностью. Это теоретический результат: на практике глубокие сети с многими узкими слоями оказываются эффективнее по числу параметров, чем «плоские» с одним широким, — и именно эта эмпирика стоит за термином «глубокое обучение».",[1255,1256,1257,1258,1257,1263],"figure",{},"\n  ",[1259,1260],"img",{"src":1261,"alt":1262},"\u002Fimg\u002Faidt-iot-mii\u002Ftopic-08\u002Fneuron_mlp.svg","Искусственный нейрон и архитектура многослойного перцептрона",[1264,1265,1266],"figcaption",{},"Искусственный нейрон (слева) и архитектура многослойного перцептрона с двумя скрытыми слоями (справа)",[15,1268,1269,1270,1298,1299,1302,1303,1144,1456,1302,1459,1508,1509,25,1512,1515,1516,1613,1614,1668,1669,1721],{},"Выбор функции активации ",[52,1271,1273,1286],{"className":1272},[55],[52,1274,1276],{"className":1275},[59],[61,1277,1278],{"xmlns":63},[65,1279,1280,1284],{},[68,1281,1282],{},[74,1283,680],{},[99,1285,1236],{"encoding":101},[52,1287,1289],{"className":1288,"ariaHidden":84},[106],[52,1290,1292,1295],{"className":1291},[110],[52,1293],{"className":1294,"style":497},[114],[52,1296,680],{"className":1297,"style":543},[119,123]," влияет на свойства обучения сильнее, чем кажется. Исторически использовались ",[22,1300,1301],{},"сигмоида"," ",[52,1304,1306,1354],{"className":1305},[55],[52,1307,1309],{"className":1308},[59],[61,1310,1311],{"xmlns":63},[65,1312,1313,1351],{},[68,1314,1315,1317,1319,1322,1324,1326,1328,1332,1334,1336,1338,1349],{},[74,1316,680],{},[82,1318,465],{"stretchy":464},[74,1320,1321],{},"z",[82,1323,482],{"stretchy":464},[82,1325,677],{},[78,1327,80],{},[74,1329,1331],{"mathvariant":1330},"normal","\u002F",[82,1333,465],{"stretchy":464},[78,1335,80],{},[82,1337,458],{},[661,1339,1340,1343],{},[74,1341,1342],{},"e",[68,1344,1345,1347],{},[82,1346,471],{},[74,1348,1321],{},[82,1350,482],{"stretchy":464},[99,1352,1353],{"encoding":101},"\\sigma(z) = 1\u002F(1 + e^{-z})",[52,1355,1357,1385,1410],{"className":1356,"ariaHidden":84},[106],[52,1358,1360,1363,1366,1369,1373,1376,1379,1382],{"className":1359},[110],[52,1361],{"className":1362,"style":539},[114],[52,1364,680],{"className":1365,"style":543},[119,123],[52,1367,465],{"className":1368},[547],[52,1370,1321],{"className":1371,"style":1372},[119,123],"margin-right:0.044em;",[52,1374,482],{"className":1375},[617],[52,1377],{"className":1378,"style":504},[181],[52,1380,677],{"className":1381},[508],[52,1383],{"className":1384,"style":504},[181],[52,1386,1388,1391,1395,1398,1401,1404,1407],{"className":1387},[110],[52,1389],{"className":1390,"style":539},[114],[52,1392,1394],{"className":1393},[119],"1\u002F",[52,1396,465],{"className":1397},[547],[52,1399,80],{"className":1400},[119],[52,1402],{"className":1403,"style":525},[181],[52,1405,458],{"className":1406},[529],[52,1408],{"className":1409,"style":525},[181],[52,1411,1413,1417,1453],{"className":1412},[110],[52,1414],{"className":1415,"style":1416},[114],"height:1.0213em;vertical-align:-0.25em;",[52,1418,1420,1423],{"className":1419},[119],[52,1421,1342],{"className":1422},[119,123],[52,1424,1426],{"className":1425},[127],[52,1427,1429],{"className":1428},[131],[52,1430,1432],{"className":1431},[136],[52,1433,1436],{"className":1434,"style":1435},[140],"height:0.7713em;",[52,1437,1438,1441],{"style":770},[52,1439],{"className":1440,"style":149},[148],[52,1442,1444],{"className":1443},[153,154,155,156],[52,1445,1447,1450],{"className":1446},[119,156],[52,1448,471],{"className":1449},[119,156],[52,1451,1321],{"className":1452,"style":1372},[119,123,156],[52,1454,482],{"className":1455},[617],[22,1457,1458],{},"гиперболический тангенс",[52,1460,1462,1486],{"className":1461},[55],[52,1463,1465],{"className":1464},[59],[61,1466,1467],{"xmlns":63},[65,1468,1469,1483],{},[68,1470,1471,1474,1477,1479,1481],{},[74,1472,1473],{},"tanh",[82,1475,1476],{},"⁡",[82,1478,465],{"stretchy":464},[74,1480,1321],{},[82,1482,482],{"stretchy":464},[99,1484,1485],{"encoding":101},"\\tanh(z)",[52,1487,1489],{"className":1488,"ariaHidden":84},[106],[52,1490,1492,1495,1499,1502,1505],{"className":1491},[110],[52,1493],{"className":1494,"style":539},[114],[52,1496,1473],{"className":1497},[1498],"mop",[52,1500,465],{"className":1501},[547],[52,1503,1321],{"className":1504,"style":1372},[119,123],[52,1506,482],{"className":1507},[617],": обе гладкие, ограниченные, биологически правдоподобные. Однако обе насыщаются при больших по модулю аргументах — их производная стремится к нулю, и обучение глубоких сетей через них замирает. С 2010-х доминирует ",[22,1510,1511],{},"ReLU",[27,1513,1514],{},"Rectified Linear Unit","): ",[52,1517,1519,1556],{"className":1518},[55],[52,1520,1522],{"className":1521},[59],[61,1523,1524],{"xmlns":63},[65,1525,1526,1553],{},[68,1527,1528,1530,1532,1534,1536,1538,1541,1543,1545,1547,1549,1551],{},[74,1529,680],{},[82,1531,465],{"stretchy":464},[74,1533,1321],{},[82,1535,482],{"stretchy":464},[82,1537,677],{},[74,1539,1540],{},"max",[82,1542,1476],{},[82,1544,465],{"stretchy":464},[78,1546,994],{},[82,1548,85],{"separator":84},[74,1550,1321],{},[82,1552,482],{"stretchy":464},[99,1554,1555],{"encoding":101},"\\sigma(z) = \\max(0, z)",[52,1557,1559,1586],{"className":1558,"ariaHidden":84},[106],[52,1560,1562,1565,1568,1571,1574,1577,1580,1583],{"className":1561},[110],[52,1563],{"className":1564,"style":539},[114],[52,1566,680],{"className":1567,"style":543},[119,123],[52,1569,465],{"className":1570},[547],[52,1572,1321],{"className":1573,"style":1372},[119,123],[52,1575,482],{"className":1576},[617],[52,1578],{"className":1579,"style":504},[181],[52,1581,677],{"className":1582},[508],[52,1584],{"className":1585,"style":504},[181],[52,1587,1589,1592,1595,1598,1601,1604,1607,1610],{"className":1588},[110],[52,1590],{"className":1591,"style":539},[114],[52,1593,1540],{"className":1594},[1498],[52,1596,465],{"className":1597},[547],[52,1599,994],{"className":1600},[119],[52,1602,85],{"className":1603},[177],[52,1605],{"className":1606,"style":182},[181],[52,1608,1321],{"className":1609,"style":1372},[119,123],[52,1611,482],{"className":1612},[617],". У ReLU кусочно-линейная форма, постоянная единичная производная при ",[52,1615,1617,1636],{"className":1616},[55],[52,1618,1620],{"className":1619},[59],[61,1621,1622],{"xmlns":63},[65,1623,1624,1633],{},[68,1625,1626,1628,1631],{},[74,1627,1321],{},[82,1629,1630],{},">",[78,1632,994],{},[99,1634,1635],{"encoding":101},"z > 0",[52,1637,1639,1658],{"className":1638,"ariaHidden":84},[106],[52,1640,1642,1646,1649,1652,1655],{"className":1641},[110],[52,1643],{"className":1644,"style":1645},[114],"height:0.5782em;vertical-align:-0.0391em;",[52,1647,1321],{"className":1648,"style":1372},[119,123],[52,1650],{"className":1651,"style":504},[181],[52,1653,1630],{"className":1654},[508],[52,1656],{"className":1657,"style":504},[181],[52,1659,1661,1665],{"className":1660},[110],[52,1662],{"className":1663,"style":1664},[114],"height:0.6444em;",[52,1666,994],{"className":1667},[119]," и нулевая при ",[52,1670,1672,1691],{"className":1671},[55],[52,1673,1675],{"className":1674},[59],[61,1676,1677],{"xmlns":63},[65,1678,1679,1688],{},[68,1680,1681,1683,1686],{},[74,1682,1321],{},[82,1684,1685],{},"\u003C",[78,1687,994],{},[99,1689,1690],{"encoding":101},"z \u003C 0",[52,1692,1694,1712],{"className":1693,"ariaHidden":84},[106],[52,1695,1697,1700,1703,1706,1709],{"className":1696},[110],[52,1698],{"className":1699,"style":1645},[114],[52,1701,1321],{"className":1702,"style":1372},[119,123],[52,1704],{"className":1705,"style":504},[181],[52,1707,1685],{"className":1708},[508],[52,1710],{"className":1711,"style":504},[181],[52,1713,1715,1718],{"className":1714},[110],[52,1716],{"className":1717,"style":1664},[114],[52,1719,994],{"className":1720},[119],". Простота преобразования и неисчезающий градиент в положительной полуоси резко ускорили обучение глубоких архитектур; именно с переходом на ReLU связан прорыв AlexNet 2012 года, о котором мы вспоминали в теме 1.",[15,1723,1724,1725,1728,1729,2145],{},"Для выходного слоя выбор активации диктуется типом задачи. В бинарной классификации ставят сигмоиду — её выход интерпретируется как вероятность положительного класса. В многоклассовой — ",[22,1726,1727],{},"softmax",":\n",[52,1730,1732,1794],{"className":1731},[55],[52,1733,1735],{"className":1734},[59],[61,1736,1737],{"xmlns":63},[65,1738,1739,1791],{},[68,1740,1741,1743,1745,1747,1754,1756,1789],{},[682,1742,1727],{},[82,1744,465],{"stretchy":464},[74,1746,1321],{},[71,1748,1749,1751],{},[82,1750,482],{"stretchy":464},[74,1752,1753],{},"k",[82,1755,677],{},[1757,1758,1759,1769],"mfrac",{},[661,1760,1761,1763],{},[74,1762,1342],{},[71,1764,1765,1767],{},[74,1766,1321],{},[74,1768,1753],{},[68,1770,1771,1779],{},[71,1772,1773,1776],{},[82,1774,1775],{},"∑",[74,1777,1778],{},"j",[661,1780,1781,1783],{},[74,1782,1342],{},[71,1784,1785,1787],{},[74,1786,1321],{},[74,1788,1778],{},[82,1790,85],{"separator":84},[99,1792,1793],{"encoding":101},"\\text{softmax}(z)_k = \\frac{e^{z_k}}{\\sum_{j} e^{z_j}},",[52,1795,1797,1867],{"className":1796,"ariaHidden":84},[106],[52,1798,1800,1803,1810,1813,1816,1858,1861,1864],{"className":1799},[110],[52,1801],{"className":1802,"style":539},[114],[52,1804,1807],{"className":1805},[119,1806],"text",[52,1808,1727],{"className":1809},[119],[52,1811,465],{"className":1812},[547],[52,1814,1321],{"className":1815,"style":1372},[119,123],[52,1817,1819,1822],{"className":1818},[617],[52,1820,482],{"className":1821},[617],[52,1823,1825],{"className":1824},[127],[52,1826,1828,1850],{"className":1827},[131,132],[52,1829,1831,1847],{"className":1830},[136],[52,1832,1835],{"className":1833,"style":1834},[140],"height:0.3361em;",[52,1836,1837,1840],{"style":144},[52,1838],{"className":1839,"style":149},[148],[52,1841,1843],{"className":1842},[153,154,155,156],[52,1844,1753],{"className":1845,"style":1846},[119,123,156],"margin-right:0.0315em;",[52,1848,164],{"className":1849},[163],[52,1851,1853],{"className":1852},[136],[52,1854,1856],{"className":1855,"style":171},[140],[52,1857],{},[52,1859],{"className":1860,"style":504},[181],[52,1862,677],{"className":1863},[508],[52,1865],{"className":1866,"style":504},[181],[52,1868,1870,1874,2142],{"className":1869},[110],[52,1871],{"className":1872,"style":1873},[114],"height:1.5885em;vertical-align:-0.6775em;",[52,1875,1877,1881,2139],{"className":1876},[119],[52,1878],{"className":1879},[547,1880],"nulldelimiter",[52,1882,1884],{"className":1883},[1757],[52,1885,1887,2130],{"className":1886},[131,132],[52,1888,1890,2127],{"className":1889},[136],[52,1891,1894,2034,2045],{"className":1892,"style":1893},[140],"height:0.911em;",[52,1895,1897,1900],{"style":1896},"top:-2.6447em;",[52,1898],{"className":1899,"style":585},[148],[52,1901,1903],{"className":1902},[153,154,155,156],[52,1904,1906,1958,1962],{"className":1905},[119,156],[52,1907,1909,1915],{"className":1908},[1498,156],[52,1910,1775],{"className":1911,"style":1914},[1498,1912,1913,156],"op-symbol","small-op","position:relative;top:0em;",[52,1916,1918],{"className":1917},[127],[52,1919,1921,1949],{"className":1920},[131,132],[52,1922,1924,1946],{"className":1923},[136],[52,1925,1928],{"className":1926,"style":1927},[140],"height:0.1496em;",[52,1929,1931,1935],{"style":1930},"top:-2.1786em;margin-left:0em;margin-right:0.0714em;",[52,1932],{"className":1933,"style":1934},[148],"height:2.5em;",[52,1936,1939],{"className":1937},[153,1938,828,156],"reset-size3",[52,1940,1942],{"className":1941},[119,156],[52,1943,1778],{"className":1944,"style":1945},[119,123,156],"margin-right:0.0572em;",[52,1947,164],{"className":1948},[163],[52,1950,1952],{"className":1951},[136],[52,1953,1956],{"className":1954,"style":1955},[140],"height:0.4603em;",[52,1957],{},[52,1959],{"className":1960,"style":1961},[181,156],"margin-right:0.1952em;",[52,1963,1965,1968],{"className":1964},[119,156],[52,1966,1342],{"className":1967},[119,123,156],[52,1969,1971],{"className":1970},[127],[52,1972,1974],{"className":1973},[131],[52,1975,1977],{"className":1976},[136],[52,1978,1981],{"className":1979,"style":1980},[140],"height:0.779em;",[52,1982,1984,1987],{"style":1983},"top:-2.9714em;margin-right:0.0714em;",[52,1985],{"className":1986,"style":1934},[148],[52,1988,1990],{"className":1989},[153,1938,828,156],[52,1991,1993],{"className":1992},[119,156],[52,1994,1996,1999],{"className":1995},[119,156],[52,1997,1321],{"className":1998,"style":1372},[119,123,156],[52,2000,2002],{"className":2001},[127],[52,2003,2005,2025],{"className":2004},[131,132],[52,2006,2008,2022],{"className":2007},[136],[52,2009,2012],{"className":2010,"style":2011},[140],"height:0.3448em;",[52,2013,2015,2019],{"style":2014},"top:-2.3448em;margin-left:-0.044em;margin-right:0.1em;",[52,2016],{"className":2017,"style":2018},[148],"height:2.6595em;",[52,2020,1778],{"className":2021,"style":1945},[119,123,156],[52,2023,164],{"className":2024},[163],[52,2026,2028],{"className":2027},[136],[52,2029,2032],{"className":2030,"style":2031},[140],"height:0.5092em;",[52,2033],{},[52,2035,2037,2040],{"style":2036},"top:-3.23em;",[52,2038],{"className":2039,"style":585},[148],[52,2041],{"className":2042,"style":2044},[2043],"frac-line","border-bottom-width:0.04em;",[52,2046,2048,2051],{"style":2047},"top:-3.394em;",[52,2049],{"className":2050,"style":585},[148],[52,2052,2054],{"className":2053},[153,154,155,156],[52,2055,2057],{"className":2056},[119,156],[52,2058,2060,2063],{"className":2059},[119,156],[52,2061,1342],{"className":2062},[119,123,156],[52,2064,2066],{"className":2065},[127],[52,2067,2069],{"className":2068},[131],[52,2070,2072],{"className":2071},[136],[52,2073,2076],{"className":2074,"style":2075},[140],"height:0.7385em;",[52,2077,2079,2082],{"style":2078},"top:-2.931em;margin-right:0.0714em;",[52,2080],{"className":2081,"style":1934},[148],[52,2083,2085],{"className":2084},[153,1938,828,156],[52,2086,2088],{"className":2087},[119,156],[52,2089,2091,2094],{"className":2090},[119,156],[52,2092,1321],{"className":2093,"style":1372},[119,123,156],[52,2095,2097],{"className":2096},[127],[52,2098,2100,2118],{"className":2099},[131,132],[52,2101,2103,2115],{"className":2102},[136],[52,2104,2106],{"className":2105,"style":2011},[140],[52,2107,2108,2112],{"style":2014},[52,2109],{"className":2110,"style":2111},[148],"height:2.6944em;",[52,2113,1753],{"className":2114,"style":1846},[119,123,156],[52,2116,164],{"className":2117},[163],[52,2119,2121],{"className":2120},[136],[52,2122,2125],{"className":2123,"style":2124},[140],"height:0.3496em;",[52,2126],{},[52,2128,164],{"className":2129},[163],[52,2131,2133],{"className":2132},[136],[52,2134,2137],{"className":2135,"style":2136},[140],"height:0.6775em;",[52,2138],{},[52,2140],{"className":2141},[617,1880],[52,2143,85],{"className":2144},[177],"\nкоторая отображает вектор логитов в распределение вероятностей по классам. В регрессии выходной слой обычно линейный — без активации.",[1255,2147,1257,2148,1257,2152],{},[1259,2149],{"src":2150,"alt":2151},"\u002Fimg\u002Faidt-iot-mii\u002Ftopic-08\u002Factivation_functions.svg","Графики функций активации: сигмоида, тангенс гиперболический, ReLU",[1264,2153,2154],{},"Функции активации: сигмоида, тангенс гиперболический, ReLU",[15,2156,2157,2158,25,2161,2164,2165,2449,2450,2532],{},"Вычисление предсказания по входу — ",[22,2159,2160],{},"прямое распространение",[27,2162,2163],{},"forward pass",") — сводится к последовательному применению ",[52,2166,2168,2242],{"className":2167},[55],[52,2169,2171],{"className":2170},[59],[61,2172,2173],{"xmlns":63},[65,2174,2175,2239],{},[68,2176,2177,2189,2191,2193,2195,2207,2223,2225,2237],{},[661,2178,2179,2181],{},[74,2180,665],{},[68,2182,2183,2185,2187],{},[82,2184,465],{"stretchy":464},[74,2186,672],{},[82,2188,482],{"stretchy":464},[82,2190,677],{},[74,2192,680],{},[82,2194,465],{"stretchy":464},[661,2196,2197,2199],{},[74,2198,693],{},[68,2200,2201,2203,2205],{},[82,2202,465],{"stretchy":464},[74,2204,672],{},[82,2206,482],{"stretchy":464},[661,2208,2209,2211],{},[74,2210,665],{},[68,2212,2213,2215,2217,2219,2221],{},[82,2214,465],{"stretchy":464},[74,2216,672],{},[82,2218,471],{},[78,2220,80],{},[82,2222,482],{"stretchy":464},[82,2224,458],{},[661,2226,2227,2229],{},[74,2228,724],{},[68,2230,2231,2233,2235],{},[82,2232,465],{"stretchy":464},[74,2234,672],{},[82,2236,482],{"stretchy":464},[82,2238,482],{"stretchy":464},[99,2240,2241],{"encoding":101},"h^{(l)} = \\sigma(W^{(l)} h^{(l-1)} + b^{(l)})",[52,2243,2245,2298,2402],{"className":2244,"ariaHidden":84},[106],[52,2246,2248,2251,2289,2292,2295],{"className":2247},[110],[52,2249],{"className":2250,"style":749},[114],[52,2252,2254,2257],{"className":2253},[119],[52,2255,665],{"className":2256},[119,123],[52,2258,2260],{"className":2259},[127],[52,2261,2263],{"className":2262},[131],[52,2264,2266],{"className":2265},[136],[52,2267,2269],{"className":2268,"style":749},[140],[52,2270,2271,2274],{"style":770},[52,2272],{"className":2273,"style":149},[148],[52,2275,2277],{"className":2276},[153,154,155,156],[52,2278,2280,2283,2286],{"className":2279},[119,156],[52,2281,465],{"className":2282},[547,156],[52,2284,672],{"className":2285,"style":786},[119,123,156],[52,2287,482],{"className":2288},[617,156],[52,2290],{"className":2291,"style":504},[181],[52,2293,677],{"className":2294},[508],[52,2296],{"className":2297,"style":504},[181],[52,2299,2301,2305,2308,2311,2349,2393,2396,2399],{"className":2300},[110],[52,2302],{"className":2303,"style":2304},[114],"height:1.138em;vertical-align:-0.25em;",[52,2306,680],{"className":2307,"style":543},[119,123],[52,2309,465],{"className":2310},[547],[52,2312,2314,2317],{"className":2313},[119],[52,2315,693],{"className":2316,"style":835},[119,123],[52,2318,2320],{"className":2319},[127],[52,2321,2323],{"className":2322},[131],[52,2324,2326],{"className":2325},[136],[52,2327,2329],{"className":2328,"style":749},[140],[52,2330,2331,2334],{"style":770},[52,2332],{"className":2333,"style":149},[148],[52,2335,2337],{"className":2336},[153,154,155,156],[52,2338,2340,2343,2346],{"className":2339},[119,156],[52,2341,465],{"className":2342},[547,156],[52,2344,672],{"className":2345,"style":786},[119,123,156],[52,2347,482],{"className":2348},[617,156],[52,2350,2352,2355],{"className":2351},[119],[52,2353,665],{"className":2354},[119,123],[52,2356,2358],{"className":2357},[127],[52,2359,2361],{"className":2360},[131],[52,2362,2364],{"className":2363},[136],[52,2365,2367],{"className":2366,"style":749},[140],[52,2368,2369,2372],{"style":770},[52,2370],{"className":2371,"style":149},[148],[52,2373,2375],{"className":2374},[153,154,155,156],[52,2376,2378,2381,2384,2387,2390],{"className":2377},[119,156],[52,2379,465],{"className":2380},[547,156],[52,2382,672],{"className":2383,"style":786},[119,123,156],[52,2385,471],{"className":2386},[529,156],[52,2388,80],{"className":2389},[119,156],[52,2391,482],{"className":2392},[617,156],[52,2394],{"className":2395,"style":525},[181],[52,2397,458],{"className":2398},[529],[52,2400],{"className":2401,"style":525},[181],[52,2403,2405,2408,2446],{"className":2404},[110],[52,2406],{"className":2407,"style":2304},[114],[52,2409,2411,2414],{"className":2410},[119],[52,2412,724],{"className":2413},[119,123],[52,2415,2417],{"className":2416},[127],[52,2418,2420],{"className":2419},[131],[52,2421,2423],{"className":2422},[136],[52,2424,2426],{"className":2425,"style":749},[140],[52,2427,2428,2431],{"style":770},[52,2429],{"className":2430,"style":149},[148],[52,2432,2434],{"className":2433},[153,154,155,156],[52,2435,2437,2440,2443],{"className":2436},[119,156],[52,2438,465],{"className":2439},[547,156],[52,2441,672],{"className":2442,"style":786},[119,123,156],[52,2444,482],{"className":2445},[617,156],[52,2447,482],{"className":2448},[617]," для ",[52,2451,2453,2480],{"className":2452},[55],[52,2454,2456],{"className":2455},[59],[61,2457,2458],{"xmlns":63},[65,2459,2460,2477],{},[68,2461,2462,2464,2466,2468,2470,2472,2474],{},[74,2463,672],{},[82,2465,677],{},[78,2467,80],{},[82,2469,85],{"separator":84},[82,2471,88],{},[82,2473,85],{"separator":84},[74,2475,2476],{},"L",[99,2478,2479],{"encoding":101},"l = 1, \\dots, L",[52,2481,2483,2501],{"className":2482,"ariaHidden":84},[106],[52,2484,2486,2489,2492,2495,2498],{"className":2485},[110],[52,2487],{"className":2488,"style":409},[114],[52,2490,672],{"className":2491,"style":786},[119,123],[52,2493],{"className":2494,"style":504},[181],[52,2496,677],{"className":2497},[508],[52,2499],{"className":2500,"style":504},[181],[52,2502,2504,2508,2511,2514,2517,2520,2523,2526,2529],{"className":2503},[110],[52,2505],{"className":2506,"style":2507},[114],"height:0.8778em;vertical-align:-0.1944em;",[52,2509,80],{"className":2510},[119],[52,2512,85],{"className":2513},[177],[52,2515],{"className":2516,"style":182},[181],[52,2518,88],{"className":2519},[186],[52,2521],{"className":2522,"style":182},[181],[52,2524,85],{"className":2525},[177],[52,2527],{"className":2528,"style":182},[181],[52,2530,2476],{"className":2531},[119,123],". Для одного объекта это последовательность матрично-векторных умножений; для батча — последовательность матрично-матричных, и именно на этой операции современные графические процессоры показывают свою силу.",[40,2534,2536],{"id":2535},"обучение-нейронных-сетей","Обучение нейронных сетей",[15,2538,2539,2540,25,2543,2546,2547,971,3054,3131,3132,3253,3254,3257,3258,3642],{},"Обучение сети формулируется как задача минимизации функции потерь по параметрам. В классификации стандартный выбор — ",[22,2541,2542],{},"кросс-энтропия",[27,2544,2545],{},"cross-entropy","):\n",[52,2548,2550,2648],{"className":2549},[55],[52,2551,2553],{"className":2552},[59],[61,2554,2555],{"xmlns":63},[65,2556,2557,2645],{},[68,2558,2559,2561,2563,2565,2567,2569,2571,2577,2593,2608,2618,2621,2623,2637,2639,2641,2643],{},[74,2560,2476],{},[82,2562,465],{"stretchy":464},[74,2564,396],{},[82,2566,482],{"stretchy":464},[82,2568,677],{},[82,2570,471],{},[1757,2572,2573,2575],{},[78,2574,80],{},[74,2576,97],{},[2578,2579,2580,2582,2591],"msubsup",{},[82,2581,1775],{},[68,2583,2584,2587,2589],{},[74,2585,2586],{},"i",[82,2588,677],{},[78,2590,80],{},[74,2592,97],{},[2578,2594,2595,2597,2605],{},[82,2596,1775],{},[68,2598,2599,2601,2603],{},[74,2600,1753],{},[82,2602,677],{},[78,2604,80],{},[74,2606,2607],{},"K",[71,2609,2610,2612],{},[74,2611,468],{},[68,2613,2614,2616],{},[74,2615,2586],{},[74,2617,1753],{},[74,2619,2620],{},"log",[82,2622,1476],{},[71,2624,2625,2631],{},[473,2626,2627,2629],{"accent":84},[74,2628,15],{},[82,2630,479],{},[68,2632,2633,2635],{},[74,2634,2586],{},[74,2636,1753],{},[82,2638,465],{"stretchy":464},[74,2640,396],{},[82,2642,482],{"stretchy":464},[82,2644,85],{"separator":84},[99,2646,2647],{"encoding":101},"L(\\theta) = -\\frac{1}{n} \\sum_{i=1}^{n} \\sum_{k=1}^{K} y_{ik} \\log \\hat{p}_{ik}(\\theta),",[52,2649,2651,2678],{"className":2650,"ariaHidden":84},[106],[52,2652,2654,2657,2660,2663,2666,2669,2672,2675],{"className":2653},[110],[52,2655],{"className":2656,"style":539},[114],[52,2658,2476],{"className":2659},[119,123],[52,2661,465],{"className":2662},[547],[52,2664,396],{"className":2665,"style":413},[119,123],[52,2667,482],{"className":2668},[617],[52,2670],{"className":2671,"style":504},[181],[52,2673,677],{"className":2674},[508],[52,2676],{"className":2677,"style":504},[181],[52,2679,2681,2685,2688,2759,2762,2829,2832,2897,2900,2945,2948,2956,2959,3042,3045,3048,3051],{"className":2680},[110],[52,2682],{"className":2683,"style":2684},[114],"height:1.3262em;vertical-align:-0.345em;",[52,2686,471],{"className":2687},[119],[52,2689,2691,2694,2756],{"className":2690},[119],[52,2692],{"className":2693},[547,1880],[52,2695,2697],{"className":2696},[1757],[52,2698,2700,2747],{"className":2699},[131,132],[52,2701,2703,2744],{"className":2702},[136],[52,2704,2707,2722,2730],{"className":2705,"style":2706},[140],"height:0.8451em;",[52,2708,2710,2713],{"style":2709},"top:-2.655em;",[52,2711],{"className":2712,"style":585},[148],[52,2714,2716],{"className":2715},[153,154,155,156],[52,2717,2719],{"className":2718},[119,156],[52,2720,97],{"className":2721},[119,123,156],[52,2723,2724,2727],{"style":2036},[52,2725],{"className":2726,"style":585},[148],[52,2728],{"className":2729,"style":2044},[2043],[52,2731,2732,2735],{"style":2047},[52,2733],{"className":2734,"style":585},[148],[52,2736,2738],{"className":2737},[153,154,155,156],[52,2739,2741],{"className":2740},[119,156],[52,2742,80],{"className":2743},[119,156],[52,2745,164],{"className":2746},[163],[52,2748,2750],{"className":2749},[136],[52,2751,2754],{"className":2752,"style":2753},[140],"height:0.345em;",[52,2755],{},[52,2757],{"className":2758},[617,1880],[52,2760],{"className":2761,"style":182},[181],[52,2763,2765,2768],{"className":2764},[1498],[52,2766,1775],{"className":2767,"style":1914},[1498,1912,1913],[52,2769,2771],{"className":2770},[127],[52,2772,2774,2820],{"className":2773},[131,132],[52,2775,2777,2817],{"className":2776},[136],[52,2778,2781,2802],{"className":2779,"style":2780},[140],"height:0.8043em;",[52,2782,2784,2787],{"style":2783},"top:-2.4003em;margin-left:0em;margin-right:0.05em;",[52,2785],{"className":2786,"style":149},[148],[52,2788,2790],{"className":2789},[153,154,155,156],[52,2791,2793,2796,2799],{"className":2792},[119,156],[52,2794,2586],{"className":2795},[119,123,156],[52,2797,677],{"className":2798},[508,156],[52,2800,80],{"className":2801},[119,156],[52,2803,2805,2808],{"style":2804},"top:-3.2029em;margin-right:0.05em;",[52,2806],{"className":2807,"style":149},[148],[52,2809,2811],{"className":2810},[153,154,155,156],[52,2812,2814],{"className":2813},[119,156],[52,2815,97],{"className":2816},[119,123,156],[52,2818,164],{"className":2819},[163],[52,2821,2823],{"className":2822},[136],[52,2824,2827],{"className":2825,"style":2826},[140],"height:0.2997em;",[52,2828],{},[52,2830],{"className":2831,"style":182},[181],[52,2833,2835,2838],{"className":2834},[1498],[52,2836,1775],{"className":2837,"style":1914},[1498,1912,1913],[52,2839,2841],{"className":2840},[127],[52,2842,2844,2889],{"className":2843},[131,132],[52,2845,2847,2886],{"className":2846},[136],[52,2848,2851,2871],{"className":2849,"style":2850},[140],"height:0.9812em;",[52,2852,2853,2856],{"style":2783},[52,2854],{"className":2855,"style":149},[148],[52,2857,2859],{"className":2858},[153,154,155,156],[52,2860,2862,2865,2868],{"className":2861},[119,156],[52,2863,1753],{"className":2864,"style":1846},[119,123,156],[52,2866,677],{"className":2867},[508,156],[52,2869,80],{"className":2870},[119,156],[52,2872,2873,2876],{"style":2804},[52,2874],{"className":2875,"style":149},[148],[52,2877,2879],{"className":2878},[153,154,155,156],[52,2880,2882],{"className":2881},[119,156],[52,2883,2607],{"className":2884,"style":2885},[119,123,156],"margin-right:0.0715em;",[52,2887,164],{"className":2888},[163],[52,2890,2892],{"className":2891},[136],[52,2893,2895],{"className":2894,"style":2826},[140],[52,2896],{},[52,2898],{"className":2899,"style":182},[181],[52,2901,2903,2906],{"className":2902},[119],[52,2904,468],{"className":2905,"style":543},[119,123],[52,2907,2909],{"className":2908},[127],[52,2910,2912,2937],{"className":2911},[131,132],[52,2913,2915,2934],{"className":2914},[136],[52,2916,2918],{"className":2917,"style":1834},[140],[52,2919,2921,2924],{"style":2920},"top:-2.55em;margin-left:-0.0359em;margin-right:0.05em;",[52,2922],{"className":2923,"style":149},[148],[52,2925,2927],{"className":2926},[153,154,155,156],[52,2928,2930],{"className":2929},[119,156],[52,2931,2933],{"className":2932,"style":1846},[119,123,156],"ik",[52,2935,164],{"className":2936},[163],[52,2938,2940],{"className":2939},[136],[52,2941,2943],{"className":2942,"style":171},[140],[52,2944],{},[52,2946],{"className":2947,"style":182},[181],[52,2949,2951,2952],{"className":2950},[1498],"lo",[52,2953,2955],{"style":2954},"margin-right:0.0139em;","g",[52,2957],{"className":2958,"style":182},[181],[52,2960,2962,3005],{"className":2961},[119],[52,2963,2965],{"className":2964},[119,569],[52,2966,2968,2997],{"className":2967},[131,132],[52,2969,2971,2994],{"className":2970},[136],[52,2972,2974,2982],{"className":2973,"style":409},[140],[52,2975,2976,2979],{"style":581},[52,2977],{"className":2978,"style":585},[148],[52,2980,15],{"className":2981},[119,123],[52,2983,2984,2987],{"style":581},[52,2985],{"className":2986,"style":585},[148],[52,2988,2991],{"className":2989,"style":2990},[597],"left:-0.1667em;",[52,2992,479],{"className":2993},[119],[52,2995,164],{"className":2996},[163],[52,2998,3000],{"className":2999},[136],[52,3001,3003],{"className":3002,"style":611},[140],[52,3004],{},[52,3006,3008],{"className":3007},[127],[52,3009,3011,3034],{"className":3010},[131,132],[52,3012,3014,3031],{"className":3013},[136],[52,3015,3017],{"className":3016,"style":1834},[140],[52,3018,3019,3022],{"style":144},[52,3020],{"className":3021,"style":149},[148],[52,3023,3025],{"className":3024},[153,154,155,156],[52,3026,3028],{"className":3027},[119,156],[52,3029,2933],{"className":3030,"style":1846},[119,123,156],[52,3032,164],{"className":3033},[163],[52,3035,3037],{"className":3036},[136],[52,3038,3040],{"className":3039,"style":171},[140],[52,3041],{},[52,3043,465],{"className":3044},[547],[52,3046,396],{"className":3047,"style":413},[119,123],[52,3049,482],{"className":3050},[617],[52,3052,85],{"className":3053},[177],[52,3055,3057,3079],{"className":3056},[55],[52,3058,3060],{"className":3059},[59],[61,3061,3062],{"xmlns":63},[65,3063,3064,3076],{},[68,3065,3066],{},[71,3067,3068,3070],{},[74,3069,468],{},[68,3071,3072,3074],{},[74,3073,2586],{},[74,3075,1753],{},[99,3077,3078],{"encoding":101},"y_{ik}",[52,3080,3082],{"className":3081,"ariaHidden":84},[106],[52,3083,3085,3088],{"className":3084},[110],[52,3086],{"className":3087,"style":115},[114],[52,3089,3091,3094],{"className":3090},[119],[52,3092,468],{"className":3093,"style":543},[119,123],[52,3095,3097],{"className":3096},[127],[52,3098,3100,3123],{"className":3099},[131,132],[52,3101,3103,3120],{"className":3102},[136],[52,3104,3106],{"className":3105,"style":1834},[140],[52,3107,3108,3111],{"style":2920},[52,3109],{"className":3110,"style":149},[148],[52,3112,3114],{"className":3113},[153,154,155,156],[52,3115,3117],{"className":3116},[119,156],[52,3118,2933],{"className":3119,"style":1846},[119,123,156],[52,3121,164],{"className":3122},[163],[52,3124,3126],{"className":3125},[136],[52,3127,3129],{"className":3128,"style":171},[140],[52,3130],{}," — индикатор истинного класса, ",[52,3133,3135,3161],{"className":3134},[55],[52,3136,3138],{"className":3137},[59],[61,3139,3140],{"xmlns":63},[65,3141,3142,3158],{},[68,3143,3144],{},[71,3145,3146,3152],{},[473,3147,3148,3150],{"accent":84},[74,3149,15],{},[82,3151,479],{},[68,3153,3154,3156],{},[74,3155,2586],{},[74,3157,1753],{},[99,3159,3160],{"encoding":101},"\\hat{p}_{ik}",[52,3162,3164],{"className":3163,"ariaHidden":84},[106],[52,3165,3167,3171],{"className":3166},[110],[52,3168],{"className":3169,"style":3170},[114],"height:0.8889em;vertical-align:-0.1944em;",[52,3172,3174,3216],{"className":3173},[119],[52,3175,3177],{"className":3176},[119,569],[52,3178,3180,3208],{"className":3179},[131,132],[52,3181,3183,3205],{"className":3182},[136],[52,3184,3186,3194],{"className":3185,"style":409},[140],[52,3187,3188,3191],{"style":581},[52,3189],{"className":3190,"style":585},[148],[52,3192,15],{"className":3193},[119,123],[52,3195,3196,3199],{"style":581},[52,3197],{"className":3198,"style":585},[148],[52,3200,3202],{"className":3201,"style":2990},[597],[52,3203,479],{"className":3204},[119],[52,3206,164],{"className":3207},[163],[52,3209,3211],{"className":3210},[136],[52,3212,3214],{"className":3213,"style":611},[140],[52,3215],{},[52,3217,3219],{"className":3218},[127],[52,3220,3222,3245],{"className":3221},[131,132],[52,3223,3225,3242],{"className":3224},[136],[52,3226,3228],{"className":3227,"style":1834},[140],[52,3229,3230,3233],{"style":144},[52,3231],{"className":3232,"style":149},[148],[52,3234,3236],{"className":3235},[153,154,155,156],[52,3237,3239],{"className":3238},[119,156],[52,3240,2933],{"className":3241,"style":1846},[119,123,156],[52,3243,164],{"className":3244},[163],[52,3246,3248],{"className":3247},[136],[52,3249,3251],{"className":3250,"style":171},[140],[52,3252],{}," — предсказанная вероятность. Эта потеря выводится из принципа максимума правдоподобия для категориального распределения и устроена так, что чем увереннее ошибочное предсказание, тем сильнее штраф. В регрессии аналог — ",[22,3255,3256],{},"средняя квадратичная ошибка"," (MSE): ",[52,3259,3261,3321],{"className":3260},[55],[52,3262,3264],{"className":3263},[59],[61,3265,3266],{"xmlns":63},[65,3267,3268,3318],{},[68,3269,3270,3272,3274,3276,3278,3280,3286,3292,3294,3300,3302,3312],{},[74,3271,2476],{},[82,3273,465],{"stretchy":464},[74,3275,396],{},[82,3277,482],{"stretchy":464},[82,3279,677],{},[1757,3281,3282,3284],{},[78,3283,80],{},[74,3285,97],{},[71,3287,3288,3290],{},[82,3289,1775],{},[74,3291,2586],{},[82,3293,465],{"stretchy":464},[71,3295,3296,3298],{},[74,3297,468],{},[74,3299,2586],{},[82,3301,471],{},[71,3303,3304,3310],{},[473,3305,3306,3308],{"accent":84},[74,3307,468],{},[82,3309,479],{},[74,3311,2586],{},[661,3313,3314,3316],{},[82,3315,482],{"stretchy":464},[78,3317,633],{},[99,3319,3320],{"encoding":101},"L(\\theta) = \\frac{1}{n} \\sum_{i} (y_i - \\hat{y}_i)^2",[52,3322,3324,3351,3526],{"className":3323,"ariaHidden":84},[106],[52,3325,3327,3330,3333,3336,3339,3342,3345,3348],{"className":3326},[110],[52,3328],{"className":3329,"style":539},[114],[52,3331,2476],{"className":3332},[119,123],[52,3334,465],{"className":3335},[547],[52,3337,396],{"className":3338,"style":413},[119,123],[52,3340,482],{"className":3341},[617],[52,3343],{"className":3344,"style":504},[181],[52,3346,677],{"className":3347},[508],[52,3349],{"className":3350,"style":504},[181],[52,3352,3354,3358,3426,3429,3473,3476,3517,3520,3523],{"className":3353},[110],[52,3355],{"className":3356,"style":3357},[114],"height:1.1901em;vertical-align:-0.345em;",[52,3359,3361,3364,3423],{"className":3360},[119],[52,3362],{"className":3363},[547,1880],[52,3365,3367],{"className":3366},[1757],[52,3368,3370,3415],{"className":3369},[131,132],[52,3371,3373,3412],{"className":3372},[136],[52,3374,3376,3390,3398],{"className":3375,"style":2706},[140],[52,3377,3378,3381],{"style":2709},[52,3379],{"className":3380,"style":585},[148],[52,3382,3384],{"className":3383},[153,154,155,156],[52,3385,3387],{"className":3386},[119,156],[52,3388,97],{"className":3389},[119,123,156],[52,3391,3392,3395],{"style":2036},[52,3393],{"className":3394,"style":585},[148],[52,3396],{"className":3397,"style":2044},[2043],[52,3399,3400,3403],{"style":2047},[52,3401],{"className":3402,"style":585},[148],[52,3404,3406],{"className":3405},[153,154,155,156],[52,3407,3409],{"className":3408},[119,156],[52,3410,80],{"className":3411},[119,156],[52,3413,164],{"className":3414},[163],[52,3416,3418],{"className":3417},[136],[52,3419,3421],{"className":3420,"style":2753},[140],[52,3422],{},[52,3424],{"className":3425},[617,1880],[52,3427],{"className":3428,"style":182},[181],[52,3430,3432,3435],{"className":3431},[1498],[52,3433,1775],{"className":3434,"style":1914},[1498,1912,1913],[52,3436,3438],{"className":3437},[127],[52,3439,3441,3465],{"className":3440},[131,132],[52,3442,3444,3462],{"className":3443},[136],[52,3445,3448],{"className":3446,"style":3447},[140],"height:0.162em;",[52,3449,3450,3453],{"style":2783},[52,3451],{"className":3452,"style":149},[148],[52,3454,3456],{"className":3455},[153,154,155,156],[52,3457,3459],{"className":3458},[119,156],[52,3460,2586],{"className":3461},[119,123,156],[52,3463,164],{"className":3464},[163],[52,3466,3468],{"className":3467},[136],[52,3469,3471],{"className":3470,"style":2826},[140],[52,3472],{},[52,3474,465],{"className":3475},[547],[52,3477,3479,3482],{"className":3478},[119],[52,3480,468],{"className":3481,"style":543},[119,123],[52,3483,3485],{"className":3484},[127],[52,3486,3488,3509],{"className":3487},[131,132],[52,3489,3491,3506],{"className":3490},[136],[52,3492,3495],{"className":3493,"style":3494},[140],"height:0.3117em;",[52,3496,3497,3500],{"style":2920},[52,3498],{"className":3499,"style":149},[148],[52,3501,3503],{"className":3502},[153,154,155,156],[52,3504,2586],{"className":3505},[119,123,156],[52,3507,164],{"className":3508},[163],[52,3510,3512],{"className":3511},[136],[52,3513,3515],{"className":3514,"style":171},[140],[52,3516],{},[52,3518],{"className":3519,"style":525},[181],[52,3521,471],{"className":3522},[529],[52,3524],{"className":3525,"style":525},[181],[52,3527,3529,3533,3612],{"className":3528},[110],[52,3530],{"className":3531,"style":3532},[114],"height:1.0641em;vertical-align:-0.25em;",[52,3534,3536,3578],{"className":3535},[119],[52,3537,3539],{"className":3538},[119,569],[52,3540,3542,3570],{"className":3541},[131,132],[52,3543,3545,3567],{"className":3544},[136],[52,3546,3548,3556],{"className":3547,"style":409},[140],[52,3549,3550,3553],{"style":581},[52,3551],{"className":3552,"style":585},[148],[52,3554,468],{"className":3555,"style":543},[119,123],[52,3557,3558,3561],{"style":581},[52,3559],{"className":3560,"style":585},[148],[52,3562,3564],{"className":3563,"style":598},[597],[52,3565,479],{"className":3566},[119],[52,3568,164],{"className":3569},[163],[52,3571,3573],{"className":3572},[136],[52,3574,3576],{"className":3575,"style":611},[140],[52,3577],{},[52,3579,3581],{"className":3580},[127],[52,3582,3584,3604],{"className":3583},[131,132],[52,3585,3587,3601],{"className":3586},[136],[52,3588,3590],{"className":3589,"style":3494},[140],[52,3591,3592,3595],{"style":2920},[52,3593],{"className":3594,"style":149},[148],[52,3596,3598],{"className":3597},[153,154,155,156],[52,3599,2586],{"className":3600},[119,123,156],[52,3602,164],{"className":3603},[163],[52,3605,3607],{"className":3606},[136],[52,3608,3610],{"className":3609,"style":171},[140],[52,3611],{},[52,3613,3615,3618],{"className":3614},[617],[52,3616,482],{"className":3617},[617],[52,3619,3621],{"className":3620},[127],[52,3622,3624],{"className":3623},[131],[52,3625,3627],{"className":3626},[136],[52,3628,3631],{"className":3629,"style":3630},[140],"height:0.8141em;",[52,3632,3633,3636],{"style":770},[52,3634],{"className":3635,"style":149},[148],[52,3637,3639],{"className":3638},[153,154,155,156],[52,3640,633],{"className":3641},[119,156],". Конкретная функция потерь — не деталь реализации, а отражение модели шума: квадратичная соответствует гауссовскому шуму, кросс-энтропия — категориальному, и подмена их «удобным» вариантом меняет, какую именно модель мы оптимизируем.",[15,3644,3645,3646,3726,3727,25,3730,3733,3734,3743],{},"Параметров в MLP — миллионы, перебирать их по сетке бессмысленно; ключ — градиентная оптимизация. Производная ",[52,3647,3649,3670],{"className":3648},[55],[52,3650,3652],{"className":3651},[59],[61,3653,3654],{"xmlns":63},[65,3655,3656,3667],{},[68,3657,3658,3665],{},[71,3659,3660,3663],{},[74,3661,3662],{"mathvariant":1330},"∇",[74,3664,396],{},[74,3666,2476],{},[99,3668,3669],{"encoding":101},"\\nabla_{\\theta} L",[52,3671,3673],{"className":3672,"ariaHidden":84},[106],[52,3674,3676,3680,3723],{"className":3675},[110],[52,3677],{"className":3678,"style":3679},[114],"height:0.8333em;vertical-align:-0.15em;",[52,3681,3683,3686],{"className":3682},[119],[52,3684,3662],{"className":3685},[119],[52,3687,3689],{"className":3688},[127],[52,3690,3692,3715],{"className":3691},[131,132],[52,3693,3695,3712],{"className":3694},[136],[52,3696,3698],{"className":3697,"style":1834},[140],[52,3699,3700,3703],{"style":144},[52,3701],{"className":3702,"style":149},[148],[52,3704,3706],{"className":3705},[153,154,155,156],[52,3707,3709],{"className":3708},[119,156],[52,3710,396],{"className":3711,"style":413},[119,123,156],[52,3713,164],{"className":3714},[163],[52,3716,3718],{"className":3717},[136],[52,3719,3721],{"className":3720,"style":171},[140],[52,3722],{},[52,3724,2476],{"className":3725},[119,123]," показывает, в каком направлении функция потерь растёт быстрее всего; шаг в противоположном направлении уменьшает ошибку. Алгоритм ",[22,3728,3729],{},"обратного распространения ошибки",[27,3731,3732],{},"backpropagation","), переоткрытый и систематизированный Румельхартом, Хинтоном и Уильямсом в 1986 году ",[426,3735,3737],{"className":3736},[429],[431,3738,3740],{"href":3739},"#ref-3",[52,3741,3742],{},"3",", даёт способ эффективно вычислить этот градиент через цепное правило.",[15,3745,3746,3747,3821,3822,3918,3919,3993],{},"Идея в следующем. Вычислим прямой проход и сохраним промежуточные активации ",[52,3748,3750,3774],{"className":3749},[55],[52,3751,3753],{"className":3752},[59],[61,3754,3755],{"xmlns":63},[65,3756,3757,3771],{},[68,3758,3759],{},[661,3760,3761,3763],{},[74,3762,665],{},[68,3764,3765,3767,3769],{},[82,3766,465],{"stretchy":464},[74,3768,672],{},[82,3770,482],{"stretchy":464},[99,3772,3773],{"encoding":101},"h^{(l)}",[52,3775,3777],{"className":3776,"ariaHidden":84},[106],[52,3778,3780,3783],{"className":3779},[110],[52,3781],{"className":3782,"style":749},[114],[52,3784,3786,3789],{"className":3785},[119],[52,3787,665],{"className":3788},[119,123],[52,3790,3792],{"className":3791},[127],[52,3793,3795],{"className":3794},[131],[52,3796,3798],{"className":3797},[136],[52,3799,3801],{"className":3800,"style":749},[140],[52,3802,3803,3806],{"style":770},[52,3804],{"className":3805,"style":149},[148],[52,3807,3809],{"className":3808},[153,154,155,156],[52,3810,3812,3815,3818],{"className":3811},[119,156],[52,3813,465],{"className":3814},[547,156],[52,3816,672],{"className":3817,"style":786},[119,123,156],[52,3819,482],{"className":3820},[617,156],". Тогда ",[52,3823,3825,3858],{"className":3824},[55],[52,3826,3828],{"className":3827},[59],[61,3829,3830],{"xmlns":63},[65,3831,3832,3855],{},[68,3833,3834,3837,3839,3841,3843],{},[74,3835,3836],{"mathvariant":1330},"∂",[74,3838,2476],{},[74,3840,1331],{"mathvariant":1330},[74,3842,3836],{"mathvariant":1330},[661,3844,3845,3847],{},[74,3846,693],{},[68,3848,3849,3851,3853],{},[82,3850,465],{"stretchy":464},[74,3852,2476],{},[82,3854,482],{"stretchy":464},[99,3856,3857],{"encoding":101},"\\partial L \u002F \\partial W^{(L)}",[52,3859,3861],{"className":3860,"ariaHidden":84},[106],[52,3862,3864,3867,3871,3874,3877,3880],{"className":3863},[110],[52,3865],{"className":3866,"style":2304},[114],[52,3868,3836],{"className":3869,"style":3870},[119],"margin-right:0.0556em;",[52,3872,2476],{"className":3873},[119,123],[52,3875,1331],{"className":3876},[119],[52,3878,3836],{"className":3879,"style":3870},[119],[52,3881,3883,3886],{"className":3882},[119],[52,3884,693],{"className":3885,"style":835},[119,123],[52,3887,3889],{"className":3888},[127],[52,3890,3892],{"className":3891},[131],[52,3893,3895],{"className":3894},[136],[52,3896,3898],{"className":3897,"style":749},[140],[52,3899,3900,3903],{"style":770},[52,3901],{"className":3902,"style":149},[148],[52,3904,3906],{"className":3905},[153,154,155,156],[52,3907,3909,3912,3915],{"className":3908},[119,156],[52,3910,465],{"className":3911},[547,156],[52,3913,2476],{"className":3914},[119,123,156],[52,3916,482],{"className":3917},[617,156]," — производная по последнему слою — выражается через ошибку на выходе и активацию предпоследнего слоя. Производная по предпоследнему слою получается умножением выходного градиента на ",[52,3920,3922,3946],{"className":3921},[55],[52,3923,3925],{"className":3924},[59],[61,3926,3927],{"xmlns":63},[65,3928,3929,3943],{},[68,3930,3931],{},[661,3932,3933,3935],{},[74,3934,693],{},[68,3936,3937,3939,3941],{},[82,3938,465],{"stretchy":464},[74,3940,2476],{},[82,3942,482],{"stretchy":464},[99,3944,3945],{"encoding":101},"W^{(L)}",[52,3947,3949],{"className":3948,"ariaHidden":84},[106],[52,3950,3952,3955],{"className":3951},[110],[52,3953],{"className":3954,"style":749},[114],[52,3956,3958,3961],{"className":3957},[119],[52,3959,693],{"className":3960,"style":835},[119,123],[52,3962,3964],{"className":3963},[127],[52,3965,3967],{"className":3966},[131],[52,3968,3970],{"className":3969},[136],[52,3971,3973],{"className":3972,"style":749},[140],[52,3974,3975,3978],{"style":770},[52,3976],{"className":3977,"style":149},[148],[52,3979,3981],{"className":3980},[153,154,155,156],[52,3982,3984,3987,3990],{"className":3983},[119,156],[52,3985,465],{"className":3986},[547,156],[52,3988,2476],{"className":3989},[119,123,156],[52,3991,482],{"className":3992},[617,156]," и производную активации; и так дальше — рекурсивно от последнего слоя к первому. Сложность одного шага градиента — порядка сложности прямого прохода, что и сделало обучение многослойных сетей вычислительно возможным.",[1255,3995,1257,3996,1257,4000],{},[1259,3997],{"src":3998,"alt":3999},"\u002Fimg\u002Faidt-iot-mii\u002Ftopic-08\u002Fbackprop_chain.svg","Прямой и обратный проход через сеть с применением цепного правила",[1264,4001,4002],{},"Прямой проход вычисляет активации и потерю; обратный — распространяет градиент потерь по цепному правилу от выхода ко входу",[15,4004,4005,4006,25,4009,4012,4013,4141,4142,4171,4172,25,4175,4178,4179,25,4182,4185,4186,25,4189,4192],{},"Имея градиент, простейший оптимизатор — ",[22,4007,4008],{},"градиентный спуск",[27,4010,4011],{},"gradient descent",") — обновляет параметры по правилу ",[52,4014,4016,4046],{"className":4015},[55],[52,4017,4019],{"className":4018},[59],[61,4020,4021],{"xmlns":63},[65,4022,4023,4043],{},[68,4024,4025,4027,4029,4031,4033,4035,4041],{},[74,4026,396],{},[82,4028,453],{},[74,4030,396],{},[82,4032,471],{},[74,4034,461],{},[71,4036,4037,4039],{},[74,4038,3662],{"mathvariant":1330},[74,4040,396],{},[74,4042,2476],{},[99,4044,4045],{"encoding":101},"\\theta \\leftarrow \\theta - \\eta \\nabla_{\\theta} L",[52,4047,4049,4067,4086],{"className":4048,"ariaHidden":84},[106],[52,4050,4052,4055,4058,4061,4064],{"className":4051},[110],[52,4053],{"className":4054,"style":409},[114],[52,4056,396],{"className":4057,"style":413},[119,123],[52,4059],{"className":4060,"style":504},[181],[52,4062,453],{"className":4063},[508],[52,4065],{"className":4066,"style":504},[181],[52,4068,4070,4074,4077,4080,4083],{"className":4069},[110],[52,4071],{"className":4072,"style":4073},[114],"height:0.7778em;vertical-align:-0.0833em;",[52,4075,396],{"className":4076,"style":413},[119,123],[52,4078],{"className":4079,"style":525},[181],[52,4081,471],{"className":4082},[529],[52,4084],{"className":4085,"style":525},[181],[52,4087,4089,4092,4095,4138],{"className":4088},[110],[52,4090],{"className":4091,"style":2507},[114],[52,4093,461],{"className":4094,"style":543},[119,123],[52,4096,4098,4101],{"className":4097},[119],[52,4099,3662],{"className":4100},[119],[52,4102,4104],{"className":4103},[127],[52,4105,4107,4130],{"className":4106},[131,132],[52,4108,4110,4127],{"className":4109},[136],[52,4111,4113],{"className":4112,"style":1834},[140],[52,4114,4115,4118],{"style":144},[52,4116],{"className":4117,"style":149},[148],[52,4119,4121],{"className":4120},[153,154,155,156],[52,4122,4124],{"className":4123},[119,156],[52,4125,396],{"className":4126,"style":413},[119,123,156],[52,4128,164],{"className":4129},[163],[52,4131,4133],{"className":4132},[136],[52,4134,4136],{"className":4135,"style":171},[140],[52,4137],{},[52,4139,2476],{"className":4140},[119,123],", где ",[52,4143,4145,4159],{"className":4144},[55],[52,4146,4148],{"className":4147},[59],[61,4149,4150],{"xmlns":63},[65,4151,4152,4156],{},[68,4153,4154],{},[74,4155,461],{},[99,4157,4158],{"encoding":101},"\\eta",[52,4160,4162],{"className":4161,"ariaHidden":84},[106],[52,4163,4165,4168],{"className":4164},[110],[52,4166],{"className":4167,"style":115},[114],[52,4169,461],{"className":4170,"style":543},[119,123]," — скорость обучения. На реальных датасетах вычислять полный градиент по всем объектам сразу слишком дорого, поэтому используется ",[22,4173,4174],{},"стохастический градиентный спуск",[27,4176,4177],{},"stochastic gradient descent, SGD","): на каждом шаге градиент оценивается по случайной подвыборке — ",[22,4180,4181],{},"мини-батчу",[27,4183,4184],{},"mini-batch",") фиксированного размера (обычно от 32 до 512 объектов). Один полный проход по всем обучающим данным — это ",[22,4187,4188],{},"эпоха",[27,4190,4191],{},"epoch","); типичное обучение длится десятки или сотни эпох.",[15,4194,4195,4196,4224,4225,4228,4229,4257,4258,1302,4261,4270],{},"Скорость обучения — один из самых чувствительных гиперпараметров. Слишком большая ",[52,4197,4199,4212],{"className":4198},[55],[52,4200,4202],{"className":4201},[59],[61,4203,4204],{"xmlns":63},[65,4205,4206,4210],{},[68,4207,4208],{},[74,4209,461],{},[99,4211,4158],{"encoding":101},[52,4213,4215],{"className":4214,"ariaHidden":84},[106],[52,4216,4218,4221],{"className":4217},[110],[52,4219],{"className":4220,"style":115},[114],[52,4222,461],{"className":4223,"style":543},[119,123]," заставляет оптимизатор «прыгать» через минимум, обучение расходится. Слишком маленькая — даёт стабильную, но мучительно медленную сходимость. Стандартный приём — ",[22,4226,4227],{},"расписание скорости обучения",": начать с относительно большой ",[52,4230,4232,4245],{"className":4231},[55],[52,4233,4235],{"className":4234},[59],[61,4236,4237],{"xmlns":63},[65,4238,4239,4243],{},[68,4240,4241],{},[74,4242,461],{},[99,4244,4158],{"encoding":101},[52,4246,4248],{"className":4247,"ariaHidden":84},[106],[52,4249,4251,4254],{"className":4250},[110],[52,4252],{"className":4253,"style":115},[114],[52,4255,461],{"className":4256,"style":543},[119,123]," и уменьшать её по мере приближения к минимуму. В практической работе чаще всего применяется ",[22,4259,4260],{},"Adam",[426,4262,4264],{"className":4263},[429],[431,4265,4267],{"href":4266},"#ref-4",[52,4268,4269],{},"4"," — адаптивный оптимизатор, который автоматически масштабирует шаг по каждой координате параметра на основании скользящих средних градиента и его квадрата. Adam менее чувствителен к выбору исходной скорости обучения и хорошо себя ведёт на разнородных задачах, поэтому именно он стал «опцией по умолчанию» для большинства новых архитектур; SGD с моментом сохраняет преимущество там, где важна тонкая настройка обобщения, — в частности, в свёрточных сетях для зрения.",[35,4272,4274],{"id":4273},"глубокое-обучение","Глубокое обучение",[40,4276,4278],{"id":4277},"свёрточные-нейронные-сети","Свёрточные нейронные сети",[15,4280,4281,4282,4336],{},"MLP плохо приспособлен к изображениям. Картинка ",[52,4283,4285,4305],{"className":4284},[55],[52,4286,4288],{"className":4287},[59],[61,4289,4290],{"xmlns":63},[65,4291,4292,4302],{},[68,4293,4294,4297,4300],{},[78,4295,4296],{},"224",[82,4298,4299],{},"×",[78,4301,4296],{},[99,4303,4304],{"encoding":101},"224 \\times 224",[52,4306,4308,4327],{"className":4307,"ariaHidden":84},[106],[52,4309,4311,4315,4318,4321,4324],{"className":4310},[110],[52,4312],{"className":4313,"style":4314},[114],"height:0.7278em;vertical-align:-0.0833em;",[52,4316,4296],{"className":4317},[119],[52,4319],{"className":4320,"style":525},[181],[52,4322,4299],{"className":4323},[529],[52,4325],{"className":4326,"style":525},[181],[52,4328,4330,4333],{"className":4329},[110],[52,4331],{"className":4332,"style":1664},[114],[52,4334,4296],{"className":4335},[119]," пикселей — это вектор из примерно 150 тысяч признаков; даже скромный скрытый слой из 1000 нейронов потребует более 150 миллионов весов на одной матрице. Хуже того, такая сеть не «знает», что соседние пиксели связаны больше, чем удалённые: для неё все 150 тысяч входов равноправны, и сдвиг изображения на один пиксель формально означает совершенно другой вектор.",[15,4338,4339,25,4342,4345,4346,25,4349,4352,4353,4404,4405,4457,4458,4461],{},[22,4340,4341],{},"Свёрточная нейронная сеть",[27,4343,4344],{},"convolutional neural network, CNN",") опирается на два структурных соображения. Во-первых, локальные паттерны — края, углы, текстуры — обнаруживаются в маленьких окрестностях пикселя; нет нужды связывать каждый нейрон со всем изображением. Во-вторых, искомый паттерн (скажем, вертикальная граница) ведёт себя одинаково в любом месте картинки — параметры детектора этого паттерна можно разделять между всеми позициями. Эти соображения формализуются в ",[22,4347,4348],{},"операции свёртки",[27,4350,4351],{},"convolution","): к изображению применяется небольшое (обычно ",[52,4354,4356,4374],{"className":4355},[55],[52,4357,4359],{"className":4358},[59],[61,4360,4361],{"xmlns":63},[65,4362,4363,4371],{},[68,4364,4365,4367,4369],{},[78,4366,3742],{},[82,4368,4299],{},[78,4370,3742],{},[99,4372,4373],{"encoding":101},"3 \\times 3",[52,4375,4377,4395],{"className":4376,"ariaHidden":84},[106],[52,4378,4380,4383,4386,4389,4392],{"className":4379},[110],[52,4381],{"className":4382,"style":4314},[114],[52,4384,3742],{"className":4385},[119],[52,4387],{"className":4388,"style":525},[181],[52,4390,4299],{"className":4391},[529],[52,4393],{"className":4394,"style":525},[181],[52,4396,4398,4401],{"className":4397},[110],[52,4399],{"className":4400,"style":1664},[114],[52,4402,3742],{"className":4403},[119]," или ",[52,4406,4408,4427],{"className":4407},[55],[52,4409,4411],{"className":4410},[59],[61,4412,4413],{"xmlns":63},[65,4414,4415,4424],{},[68,4416,4417,4420,4422],{},[78,4418,4419],{},"5",[82,4421,4299],{},[78,4423,4419],{},[99,4425,4426],{"encoding":101},"5 \\times 5",[52,4428,4430,4448],{"className":4429,"ariaHidden":84},[106],[52,4431,4433,4436,4439,4442,4445],{"className":4432},[110],[52,4434],{"className":4435,"style":4314},[114],[52,4437,4419],{"className":4438},[119],[52,4440],{"className":4441,"style":525},[181],[52,4443,4299],{"className":4444},[529],[52,4446],{"className":4447,"style":525},[181],[52,4449,4451,4454],{"className":4450},[110],[52,4452],{"className":4453,"style":1664},[114],[52,4455,4419],{"className":4456},[119],") обучаемое ядро, скользящее по всем позициям и выдающее в каждой точке отклик; результат — карта признаков (англ. ",[27,4459,4460],{},"feature map",").",[15,4463,4464,4465,25,4468,4471,4472,4523],{},"Один свёрточный слой типично содержит десятки таких ядер, каждое из которых обучается реагировать на свой паттерн. После свёртки применяется поэлементная активация (обычно ReLU) и ",[22,4466,4467],{},"пулинг",[27,4469,4470],{},"pooling",") — операция понижения разрешения, чаще всего max-pooling: окно ",[52,4473,4475,4493],{"className":4474},[55],[52,4476,4478],{"className":4477},[59],[61,4479,4480],{"xmlns":63},[65,4481,4482,4490],{},[68,4483,4484,4486,4488],{},[78,4485,633],{},[82,4487,4299],{},[78,4489,633],{},[99,4491,4492],{"encoding":101},"2 \\times 2",[52,4494,4496,4514],{"className":4495,"ariaHidden":84},[106],[52,4497,4499,4502,4505,4508,4511],{"className":4498},[110],[52,4500],{"className":4501,"style":4314},[114],[52,4503,633],{"className":4504},[119],[52,4506],{"className":4507,"style":525},[181],[52,4509,4299],{"className":4510},[529],[52,4512],{"className":4513,"style":525},[181],[52,4515,4517,4520],{"className":4516},[110],[52,4518],{"className":4519,"style":1664},[114],[52,4521,633],{"className":4522},[119]," заменяется максимальным значением внутри него. Пулинг даёт частичную инвариантность к сдвигу и сокращает вычислительные затраты в следующих слоях. По мере углубления сети размер карт признаков уменьшается, а их число — растёт: сеть переходит от низкоуровневых паттернов (края, цвета) к высокоуровневым (части объектов, текстуры) и, наконец, к семантике класса. Последние слои обычно полносвязные, и заключительный слой даёт распределение по классам через softmax.",[1255,4525,1257,4526,1257,4530],{},[1259,4527],{"src":4528,"alt":4529},"\u002Fimg\u002Faidt-iot-mii\u002Ftopic-08\u002Fcnn_layers.svg","Архитектура свёрточной сети: чередование свёрток и пулинга, уменьшение пространственного размера",[1264,4531,4532],{},"Архитектура свёрточной сети: чередование свёрток и пулинга, уменьшение пространственного размера карт признаков с углублением",[15,4534,4535,4536,4539,4540,4548,4549,1302,4552,4561,4562,4571],{},"Первая практически успешная CNN — ",[22,4537,4538],{},"LeNet-5"," Янна Лекуна 1998 года ",[426,4541,4543],{"className":4542},[429],[431,4544,4546],{"href":4545},"#ref-5",[52,4547,4419],{}," — распознавала рукописные цифры на чеках американских банков; она содержала пять обучаемых слоёв и около 60 тысяч параметров. Дальнейшее развитие архитектуры — VGG, GoogLeNet, ResNet — связано в основном с увеличением глубины: от десятка слоёв в LeNet до сотен в ResNet-152. Обучение очень глубоких сетей долго упиралось в проблему деградации градиента; решение, предложенное в ",[22,4550,4551],{},"ResNet",[426,4553,4555],{"className":4554},[429],[431,4556,4558],{"href":4557},"#ref-6",[52,4559,4560],{},"6",", — добавить «обходные» соединения, прибавляющие вход слоя к его выходу. Такая остаточная структура устраняет затухание градиента и позволила обучать сети глубиной более ста слоёв. Победа AlexNet ",[426,4563,4565],{"className":4564},[429],[431,4566,4568],{"href":4567},"#ref-7",[52,4569,4570],{},"7"," на ImageNet в 2012 году считается датой рождения современного глубокого обучения; именно после неё CNN стали индустриальным стандартом распознавания изображений и легли в основу систем компьютерного зрения от автономного вождения до медицинской диагностики.",[40,4573,4575],{"id":4574},"рекуррентные-нейронные-сети","Рекуррентные нейронные сети",[15,4577,4578,4579,25,4582,4585,4586,4659,4660,5008,5009,25,5012,4461],{},"Для последовательностей — текстов, звуковых сигналов, временных рядов — нужен принципиально иной механизм: модель должна не только смотреть на текущий вход, но и помнить, что было раньше. ",[22,4580,4581],{},"Рекуррентная нейронная сеть",[27,4583,4584],{},"recurrent neural network, RNN",") поддерживает скрытое состояние ",[52,4587,4589,4608],{"className":4588},[55],[52,4590,4592],{"className":4591},[59],[61,4593,4594],{"xmlns":63},[65,4595,4596,4605],{},[68,4597,4598],{},[71,4599,4600,4602],{},[74,4601,665],{},[74,4603,4604],{},"t",[99,4606,4607],{"encoding":101},"h_t",[52,4609,4611],{"className":4610,"ariaHidden":84},[106],[52,4612,4614,4618],{"className":4613},[110],[52,4615],{"className":4616,"style":4617},[114],"height:0.8444em;vertical-align:-0.15em;",[52,4619,4621,4624],{"className":4620},[119],[52,4622,665],{"className":4623},[119,123],[52,4625,4627],{"className":4626},[127],[52,4628,4630,4651],{"className":4629},[131,132],[52,4631,4633,4648],{"className":4632},[136],[52,4634,4637],{"className":4635,"style":4636},[140],"height:0.2806em;",[52,4638,4639,4642],{"style":144},[52,4640],{"className":4641,"style":149},[148],[52,4643,4645],{"className":4644},[153,154,155,156],[52,4646,4604],{"className":4647},[119,123,156],[52,4649,164],{"className":4650},[163],[52,4652,4654],{"className":4653},[136],[52,4655,4657],{"className":4656,"style":171},[140],[52,4658],{},", которое обновляется на каждом шаге:\n",[52,4661,4663,4728],{"className":4662},[55],[52,4664,4666],{"className":4665},[59],[61,4667,4668],{"xmlns":63},[65,4669,4670,4725],{},[68,4671,4672,4678,4680,4682,4684,4690,4702,4704,4710,4716,4718,4720,4722],{},[71,4673,4674,4676],{},[74,4675,665],{},[74,4677,4604],{},[82,4679,677],{},[74,4681,680],{},[82,4683,465],{"stretchy":464},[71,4685,4686,4688],{},[74,4687,693],{},[74,4689,665],{},[71,4691,4692,4694],{},[74,4693,665],{},[68,4695,4696,4698,4700],{},[74,4697,4604],{},[82,4699,471],{},[78,4701,80],{},[82,4703,458],{},[71,4705,4706,4708],{},[74,4707,693],{},[74,4709,76],{},[71,4711,4712,4714],{},[74,4713,76],{},[74,4715,4604],{},[82,4717,458],{},[74,4719,724],{},[82,4721,482],{"stretchy":464},[74,4723,4724],{"mathvariant":1330},".",[99,4726,4727],{"encoding":101},"h_t = \\sigma(W_h h_{t-1} + W_x x_t + b).",[52,4729,4731,4786,4898,4993],{"className":4730,"ariaHidden":84},[106],[52,4732,4734,4737,4777,4780,4783],{"className":4733},[110],[52,4735],{"className":4736,"style":4617},[114],[52,4738,4740,4743],{"className":4739},[119],[52,4741,665],{"className":4742},[119,123],[52,4744,4746],{"className":4745},[127],[52,4747,4749,4769],{"className":4748},[131,132],[52,4750,4752,4766],{"className":4751},[136],[52,4753,4755],{"className":4754,"style":4636},[140],[52,4756,4757,4760],{"style":144},[52,4758],{"className":4759,"style":149},[148],[52,4761,4763],{"className":4762},[153,154,155,156],[52,4764,4604],{"className":4765},[119,123,156],[52,4767,164],{"className":4768},[163],[52,4770,4772],{"className":4771},[136],[52,4773,4775],{"className":4774,"style":171},[140],[52,4776],{},[52,4778],{"className":4779,"style":504},[181],[52,4781,677],{"className":4782},[508],[52,4784],{"className":4785,"style":504},[181],[52,4787,4789,4792,4795,4798,4839,4889,4892,4895],{"className":4788},[110],[52,4790],{"className":4791,"style":539},[114],[52,4793,680],{"className":4794,"style":543},[119,123],[52,4796,465],{"className":4797},[547],[52,4799,4801,4804],{"className":4800},[119],[52,4802,693],{"className":4803,"style":835},[119,123],[52,4805,4807],{"className":4806},[127],[52,4808,4810,4831],{"className":4809},[131,132],[52,4811,4813,4828],{"className":4812},[136],[52,4814,4816],{"className":4815,"style":1834},[140],[52,4817,4819,4822],{"style":4818},"top:-2.55em;margin-left:-0.1389em;margin-right:0.05em;",[52,4820],{"className":4821,"style":149},[148],[52,4823,4825],{"className":4824},[153,154,155,156],[52,4826,665],{"className":4827},[119,123,156],[52,4829,164],{"className":4830},[163],[52,4832,4834],{"className":4833},[136],[52,4835,4837],{"className":4836,"style":171},[140],[52,4838],{},[52,4840,4842,4845],{"className":4841},[119],[52,4843,665],{"className":4844},[119,123],[52,4846,4848],{"className":4847},[127],[52,4849,4851,4880],{"className":4850},[131,132],[52,4852,4854,4877],{"className":4853},[136],[52,4855,4857],{"className":4856,"style":141},[140],[52,4858,4859,4862],{"style":144},[52,4860],{"className":4861,"style":149},[148],[52,4863,4865],{"className":4864},[153,154,155,156],[52,4866,4868,4871,4874],{"className":4867},[119,156],[52,4869,4604],{"className":4870},[119,123,156],[52,4872,471],{"className":4873},[529,156],[52,4875,80],{"className":4876},[119,156],[52,4878,164],{"className":4879},[163],[52,4881,4883],{"className":4882},[136],[52,4884,4887],{"className":4885,"style":4886},[140],"height:0.2083em;",[52,4888],{},[52,4890],{"className":4891,"style":525},[181],[52,4893,458],{"className":4894},[529],[52,4896],{"className":4897,"style":525},[181],[52,4899,4901,4904,4944,4984,4987,4990],{"className":4900},[110],[52,4902],{"className":4903,"style":3679},[114],[52,4905,4907,4910],{"className":4906},[119],[52,4908,693],{"className":4909,"style":835},[119,123],[52,4911,4913],{"className":4912},[127],[52,4914,4916,4936],{"className":4915},[131,132],[52,4917,4919,4933],{"className":4918},[136],[52,4920,4922],{"className":4921,"style":214},[140],[52,4923,4924,4927],{"style":4818},[52,4925],{"className":4926,"style":149},[148],[52,4928,4930],{"className":4929},[153,154,155,156],[52,4931,76],{"className":4932},[119,123,156],[52,4934,164],{"className":4935},[163],[52,4937,4939],{"className":4938},[136],[52,4940,4942],{"className":4941,"style":171},[140],[52,4943],{},[52,4945,4947,4950],{"className":4946},[119],[52,4948,76],{"className":4949},[119,123],[52,4951,4953],{"className":4952},[127],[52,4954,4956,4976],{"className":4955},[131,132],[52,4957,4959,4973],{"className":4958},[136],[52,4960,4962],{"className":4961,"style":4636},[140],[52,4963,4964,4967],{"style":144},[52,4965],{"className":4966,"style":149},[148],[52,4968,4970],{"className":4969},[153,154,155,156],[52,4971,4604],{"className":4972},[119,123,156],[52,4974,164],{"className":4975},[163],[52,4977,4979],{"className":4978},[136],[52,4980,4982],{"className":4981,"style":171},[140],[52,4983],{},[52,4985],{"className":4986,"style":525},[181],[52,4988,458],{"className":4989},[529],[52,4991],{"className":4992,"style":525},[181],[52,4994,4996,4999,5002,5005],{"className":4995},[110],[52,4997],{"className":4998,"style":539},[114],[52,5000,724],{"className":5001},[119,123],[52,5003,482],{"className":5004},[617],[52,5006,4724],{"className":5007},[119],"\nЭто уравнение можно «развернуть» по времени и увидеть структуру очень глубокой сети, в которой одни и те же веса повторяются на каждом шаге. Соответственно, к ней применим обычный backpropagation, только распространение градиента идёт не по слоям статической архитектуры, а по временным шагам — отсюда название ",[22,5010,5011],{},"обратное распространение по времени",[27,5013,5014],{},"backpropagation through time, BPTT",[15,5016,5017,5018,5021],{},"Эта же структура порождает фундаментальную проблему: при длинных последовательностях градиент, проходящий через десятки временных шагов, либо экспоненциально затухает (модель не учится зависеть от далёкого прошлого), либо экспоненциально растёт (обучение становится численно нестабильным). Это ",[22,5019,5020],{},"проблема исчезающих и взрывающихся градиентов",", идентифицированная в 1991 году Зеппом Хохрайтером.",[15,5023,5024,5025,25,5028,5031,5032,5041,5042,5114,5115,25,5118,5121,5122,5191,5192,25,5195,5198,5199,5208],{},"Принципиальное решение — архитектура ",[22,5026,5027],{},"LSTM",[27,5029,5030],{},"Long Short-Term Memory","), предложенная Хохрайтером и Шмидхубером в 1997 году ",[426,5033,5035],{"className":5034},[429],[431,5036,5038],{"href":5037},"#ref-8",[52,5039,5040],{},"8",". LSTM добавляет к скрытому состоянию отдельный «канал памяти» ",[52,5043,5045,5064],{"className":5044},[55],[52,5046,5048],{"className":5047},[59],[61,5049,5050],{"xmlns":63},[65,5051,5052,5061],{},[68,5053,5054],{},[71,5055,5056,5059],{},[74,5057,5058],{},"c",[74,5060,4604],{},[99,5062,5063],{"encoding":101},"c_t",[52,5065,5067],{"className":5066,"ariaHidden":84},[106],[52,5068,5070,5074],{"className":5069},[110],[52,5071],{"className":5072,"style":5073},[114],"height:0.5806em;vertical-align:-0.15em;",[52,5075,5077,5080],{"className":5076},[119],[52,5078,5058],{"className":5079},[119,123],[52,5081,5083],{"className":5082},[127],[52,5084,5086,5106],{"className":5085},[131,132],[52,5087,5089,5103],{"className":5088},[136],[52,5090,5092],{"className":5091,"style":4636},[140],[52,5093,5094,5097],{"style":144},[52,5095],{"className":5096,"style":149},[148],[52,5098,5100],{"className":5099},[153,154,155,156],[52,5101,4604],{"className":5102},[119,123,156],[52,5104,164],{"className":5105},[163],[52,5107,5109],{"className":5108},[136],[52,5110,5112],{"className":5111,"style":171},[140],[52,5113],{}," и три обучаемых ",[22,5116,5117],{},"затвора",[27,5119,5120],{},"gates","): забывания, входной и выходной. Затвор забывания решает, какую часть прошлой памяти стереть; входной — какую новую информацию записать; выходной — что выдать наружу. Структура с аддитивным обновлением памяти и сигмоидными затворами устроена так, что градиент по каналу ",[52,5123,5125,5142],{"className":5124},[55],[52,5126,5128],{"className":5127},[59],[61,5129,5130],{"xmlns":63},[65,5131,5132,5140],{},[68,5133,5134],{},[71,5135,5136,5138],{},[74,5137,5058],{},[74,5139,4604],{},[99,5141,5063],{"encoding":101},[52,5143,5145],{"className":5144,"ariaHidden":84},[106],[52,5146,5148,5151],{"className":5147},[110],[52,5149],{"className":5150,"style":5073},[114],[52,5152,5154,5157],{"className":5153},[119],[52,5155,5058],{"className":5156},[119,123],[52,5158,5160],{"className":5159},[127],[52,5161,5163,5183],{"className":5162},[131,132],[52,5164,5166,5180],{"className":5165},[136],[52,5167,5169],{"className":5168,"style":4636},[140],[52,5170,5171,5174],{"style":144},[52,5172],{"className":5173,"style":149},[148],[52,5175,5177],{"className":5176},[153,154,155,156],[52,5178,4604],{"className":5179},[119,123,156],[52,5181,164],{"className":5182},[163],[52,5184,5186],{"className":5185},[136],[52,5187,5189],{"className":5188,"style":171},[140],[52,5190],{}," может распространяться через многие временные шаги почти без затухания. Более компактный вариант с двумя затворами вместо трёх — ",[22,5193,5194],{},"GRU",[27,5196,5197],{},"Gated Recurrent Unit",") — предложен Чо и соавторами в 2014 году ",[426,5200,5202],{"className":5201},[429],[431,5203,5205],{"href":5204},"#ref-9",[52,5206,5207],{},"9","; в большинстве практических задач он показывает сопоставимое с LSTM качество при меньшем числе параметров.",[1255,5210,1257,5211,1257,5215],{},[1259,5212],{"src":5213,"alt":5214},"\u002Fimg\u002Faidt-iot-mii\u002Ftopic-08\u002Frnn_lstm_unrolled.svg","Развёрнутая по времени RNN и схема LSTM-ячейки с затворами",[1264,5216,5217],{},"Слева — рекуррентная сеть, развёрнутая по времени; справа — внутренняя структура LSTM-ячейки с затворами забывания, входа и выхода",[15,5219,5220,5221,25,5224,5227],{},"RNN и LSTM применялись в машинном переводе, синтезе и распознавании речи, анализе временных рядов в финансах и промышленности. В обработке естественного языка они доминировали примерно до 2017 года, когда были вытеснены архитектурой ",[22,5222,5223],{},"трансформер",[27,5225,5226],{},"transformer","), упомянутой в теме 1. Трансформеры избавились от последовательной зависимости вычислений по времени, заменив рекурренцию механизмом внимания, и оказались гораздо лучше распараллеливаемы на современных GPU. На длинных последовательностях с временной структурой LSTM и GRU всё ещё остаются разумным выбором, особенно когда объём данных умеренный, а задержки критичны; но во flagship-моделях обработки языка их время прошло.",[35,5229,5231],{"id":5230},"практические-аспекты","Практические аспекты",[40,5233,5235],{"id":5234},"борьба-с-переобучением-в-нейронных-сетях","Борьба с переобучением в нейронных сетях",[15,5237,5238,5239,5242],{},"Глубокие сети с миллионами параметров — это семейства с почти неограниченной выразительной силой. Без специальных мер они быстро запоминают обучающие данные, включая шум и случайные особенности; проблема ",[22,5240,5241],{},"переобучения",", обсуждавшаяся в теме 7 в контексте классических моделей, в глубоком обучении проявляется острее и принимает специфические формы.",[15,5244,5245,1302,5248,5257],{},[22,5246,5247],{},"Dropout",[426,5249,5251],{"className":5250},[429],[431,5252,5254],{"href":5253},"#ref-10",[52,5255,5256],{},"10"," — простой и неожиданно эффективный приём, который в 2014 году стал стандартом. На каждом шаге обучения часть нейронов скрытых слоёв (обычно 20–50%) случайно «выключается» — их выход обнуляется. Сеть вынуждена обучать представления, в которых ни один отдельный нейрон не критичен; формально dropout эквивалентен обучению ансамбля экспоненциально большого числа подсетей, разделяющих параметры. На стадии предсказания dropout отключается, и используются все нейроны. Этот метод снижает переобучение, не увеличивая вычислительных затрат на обучение и не требуя ручной настройки сложности модели.",[15,5259,5260,1302,5263,5272],{},[22,5261,5262],{},"Batch Normalization",[426,5264,5266],{"className":5265},[429],[431,5267,5269],{"href":5268},"#ref-11",[52,5270,5271],{},"11"," решает другую задачу — стабилизацию обучения. После каждого слоя авторы предлагают нормировать активации по статистикам мини-батча: вычесть среднее, разделить на стандартное отклонение, а затем применить обучаемые сдвиг и масштаб. Это сглаживает поверхность функции потерь, позволяет использовать большие скорости обучения и сильно сокращает время сходимости. Побочный эффект — лёгкая регуляризация: статистики батча содержат случайную компоненту, и каждый раз активации возмущаются по-разному. В современных архитектурах batch normalization (и его варианты — layer norm, group norm) практически обязательны.",[15,5274,5275,5278,5279,5308],{},[22,5276,5277],{},"Ранняя остановка"," — простейший приём из всех трёх. В процессе обучения регулярно (например, после каждой эпохи) измеряется метрика на валидационной выборке. Если она не улучшалась последние ",[52,5280,5282,5295],{"className":5281},[55],[52,5283,5285],{"className":5284},[59],[61,5286,5287],{"xmlns":63},[65,5288,5289,5293],{},[68,5290,5291],{},[74,5292,2607],{},[99,5294,2607],{"encoding":101},[52,5296,5298],{"className":5297,"ariaHidden":84},[106],[52,5299,5301,5305],{"className":5300},[110],[52,5302],{"className":5303,"style":5304},[114],"height:0.6833em;",[52,5306,2607],{"className":5307,"style":2885},[119,123]," эпох, обучение прекращается и сохраняются веса, дававшие лучшее значение. По сути, ранняя остановка превращает число эпох обучения в гиперпараметр, подбираемый по валидации, — что напрямую отражает компромисс смещения и разброса, обсуждавшийся в теме 3: больше эпох сокращают смещение, но увеличивают разброс. Сочетание dropout, batch norm и ранней остановки покрывает большинство практических случаев; в специфических задачах добавляются weight decay (L2-регуляризация весов), аугментация данных и более сложные стратегии расписаний скорости обучения.",[40,5310,5312],{"id":5311},"фреймворки-глубокого-обучения","Фреймворки глубокого обучения",[15,5314,5315],{},"Реализовать прямой проход, backpropagation, оптимизатор и нужные слои с нуля — упражнение полезное, но в реальной работе это делается с помощью специализированных фреймворков. Их история — это история удачных архитектурных решений: ранний Theano задал идею автоматического дифференцирования вычислительного графа; TensorFlow от Google популяризовал статические графы и индустриальное развёртывание; PyTorch предложил динамические графы и удобный отладочный опыт, чем выиграл основную долю исследовательских проектов. Современная картина — PyTorch доминирует в исследованиях, TensorFlow удерживает позиции в продакшен-инфраструктуре, JAX занимает нишу высокопроизводительных научных вычислений.",[15,5317,5318,5319,5322,5323,5326,5327,5330,5331,5334,5335,5339],{},"В учебных целях нас будет интересовать ",[22,5320,5321],{},"Keras"," — высокоуровневый API, исходно созданный как обёртка над несколькими бэкендами, а с 2019 года официально интегрированный в TensorFlow в качестве основного интерфейса. Keras сокращает дистанцию между описанием архитектуры и работающей моделью: типичный «Hello, MLP» занимает десяток строк кода. Базовые абстракции три: ",[22,5324,5325],{},"модель"," (последовательность или граф слоёв), ",[22,5328,5329],{},"слой"," (Dense, Conv2D, LSTM, Dropout, BatchNormalization и так далее), и связка ",[22,5332,5333],{},"компиляция\u002Fобучение"," — на компиляции задаются оптимизатор, функция потерь и метрики, на обучении вызывается ",[5336,5337,5338],"code",{},"model.fit(...)"," с обучающими данными и числом эпох.",[15,5341,5342],{},"Достоинство такого API — низкий порог входа и единообразие интерфейса для разных типов сетей: переход от MLP к CNN или RNN сводится к замене типов слоёв. Ограничение — некоторые специфические архитектуры с нестандартными петлями обратной связи или динамическим графом удобнее писать на низкоуровневом PyTorch. В лабораторной работе мы воспользуемся Keras для обучения сети на классическом датасете MNIST: будем менять количество слоёв, функции активации, регуляризацию и оптимизаторы, чтобы пронаблюдать, как описанные в этой теме элементы влияют на кривые обучения и итоговое качество.",[15,5344,5345,5346,5355,5356,5365],{},"Систематическое изложение глубокого обучения как дисциплины собрано в монографии Гудфеллоу, Бенжио и Курвилль ",[426,5347,5349],{"className":5348},[429],[431,5350,5352],{"href":5351},"#ref-12",[52,5353,5354],{},"12"," — это основной учебник по теме, дополняющий классический Бишоп ",[426,5357,5359],{"className":5358},[429],[431,5360,5362],{"href":5361},"#ref-13",[52,5363,5364],{},"13"," на стороне нейронных сетей. Курс ориентируется на эти источники как на расширенное чтение.",[35,5367,5369],{"id":5368},"литература","Литература",[5371,5372,5375,5380,5384,5388,5392,5396,5400,5404,5408,5412,5416,5420,5424],"ol",{"className":5373},[5374],"references",[5376,5377,5379],"li",{"id":5378},"ref-1","Rosenblatt F. The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain. — Psychological Review, 1958, С. 386–408, DOI: 10.1037\u002Fh0042519.",[5376,5381,5383],{"id":5382},"ref-2","Minsky M., Papert S. Perceptrons: An Introduction to Computational Geometry. — MIT Press, 1969.",[5376,5385,5387],{"id":5386},"ref-3","Rumelhart D. E., Hinton G. E., Williams R. J. Learning Representations by Back-Propagating Errors. — Nature, 1986, С. 533–536, DOI: 10.1038\u002F323533a0.",[5376,5389,5391],{"id":5390},"ref-4","Kingma D. P., Ba J. Adam: A Method for Stochastic Optimization. — Proceedings of the 3rd International Conference on Learning Representations (ICLR), 2015, https:\u002F\u002Farxiv.org\u002Fabs\u002F1412.6980.",[5376,5393,5395],{"id":5394},"ref-5","LeCun Y., Bottou L., Bengio Y., Haffner P. Gradient-Based Learning Applied to Document Recognition. — Proceedings of the IEEE, 1998, С. 2278–2324, DOI: 10.1109\u002F5.726791.",[5376,5397,5399],{"id":5398},"ref-6","He K., Zhang X., Ren S., Sun J. Deep Residual Learning for Image Recognition. — Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, С. 770–778, DOI: 10.1109\u002FCVPR.2016.90.",[5376,5401,5403],{"id":5402},"ref-7","Krizhevsky A., Sutskever I., Hinton G. E. ImageNet Classification with Deep Convolutional Neural Networks. — Advances in Neural Information Processing Systems (NeurIPS), 2012, С. 1097–1105, https:\u002F\u002Fpapers.nips.cc\u002Fpaper\u002F4824-imagenet-classification-with-deep-convolutional-neural-networks.",[5376,5405,5407],{"id":5406},"ref-8","Hochreiter S., Schmidhuber J. Long Short-Term Memory. — Neural Computation, 1997, С. 1735–1780, DOI: 10.1162\u002Fneco.1997.9.8.1735.",[5376,5409,5411],{"id":5410},"ref-9","Cho K., van Merriënboer B., Gulcehre C., Bahdanau D., Bougares F., Schwenk H., Bengio Y. Learning Phrase Representations Using RNN Encoder–Decoder for Statistical Machine Translation. — Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014, С. 1724–1734, DOI: 10.3115\u002Fv1\u002FD14-1179.",[5376,5413,5415],{"id":5414},"ref-10","Srivastava N., Hinton G., Krizhevsky A., Sutskever I., Salakhutdinov R. Dropout: A Simple Way to Prevent Neural Networks from Overfitting. — Journal of Machine Learning Research, 2014, С. 1929–1958, https:\u002F\u002Fjmlr.org\u002Fpapers\u002Fv15\u002Fsrivastava14a.html.",[5376,5417,5419],{"id":5418},"ref-11","Ioffe S., Szegedy C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift. — Proceedings of the 32nd International Conference on Machine Learning (ICML), 2015, С. 448–456, https:\u002F\u002Fproceedings.mlr.press\u002Fv37\u002Fioffe15.html.",[5376,5421,5423],{"id":5422},"ref-12","Goodfellow I., Bengio Y., Courville A. Deep Learning. — MIT Press, 2016, https:\u002F\u002Fwww.deeplearningbook.org\u002F.",[5376,5425,5427],{"id":5426},"ref-13","Bishop C. M. Pattern Recognition and Machine Learning. — Springer, 2006.",{"title":5429,"searchDepth":5430,"depth":5430,"links":5431},"",2,[5432,5438,5442,5446],{"id":37,"depth":5430,"text":38,"children":5433},[5434,5436,5437],{"id":42,"depth":5435,"text":43},3,{"id":637,"depth":5435,"text":638},{"id":2535,"depth":5435,"text":2536},{"id":4273,"depth":5430,"text":4274,"children":5439},[5440,5441],{"id":4277,"depth":5435,"text":4278},{"id":4574,"depth":5435,"text":4575},{"id":5230,"depth":5430,"text":5231,"children":5443},[5444,5445],{"id":5234,"depth":5435,"text":5235},{"id":5311,"depth":5435,"text":5312},{"id":5368,"depth":5430,"text":5369},"aidt-iot-mii",null,"md",false,{},true,"\u002Fcourses\u002Faidt-iot-mii\u002Ftopic-08-content","content",{"title":6,"description":17},"courses\u002Faidt-iot-mii\u002Ftopic-08-content",8,"topic-08","6-e5upHTmPUc1L6FYdgmA7V8pmFahF4IEHSfUQttw-I",{"id":5461,"title":5462,"body":5463,"course_slug":5447,"description":5429,"env_label":5448,"env_url":5448,"extension":5449,"group":5489,"is_course_project":5450,"is_index":5452,"level":5490,"meta":5491,"navigation":5452,"path":5515,"section":5448,"seo":5516,"stem":5517,"topic_number":5448,"topic_slug":5448,"__hash__":5518},"courses\u002Fcourses\u002Faidt-iot-mii\u002Findex.md","Методы искусственного интеллекта",{"type":8,"value":5464,"toc":5486},[5465,5469],[35,5466,5468],{"id":5467},"документы","Документы",[5470,5471,5472,5479],"ul",{},[5376,5473,5474,5475,4724],{},"Требования к содержанию и оформлению — ",[431,5476,5478],{"href":5477},".\u002Fshared\u002FSTYLEGUIDE","shared\u002FSTYLEGUIDE.md",[5376,5480,5481,5482,4724],{},"Содержание курса — ",[431,5483,5485],{"href":5484},".\u002Ftopics","topics.md",{"title":5429,"searchDepth":5430,"depth":5430,"links":5487},[5488],{"id":5467,"depth":5430,"text":5468},"iot","бакалавриат",{"topics_count":5492,"has_lr":5452,"has_pz":5452,"has_course_project":5450,"final_assessment":5429,"tech_focus":5493,"kind":5494,"authors":5495,"publication":5506,"annotation":5514},9,"scikit-learn, Keras\u002FTensorFlow, Hugging Face","Учебное пособие",[5496,5501],{"last_name":5497,"first_name":5498,"patronymic":5499,"role":5500,"affiliation":5429},"Корчагин","Сергей","Геннадьевич","автор",{"last_name":5502,"first_name":5503,"patronymic":5504,"role":5500,"affiliation":5505},"Рындин","Никита","Александрович","ВГТУ",{"city":5507,"year":5508,"founder":5509,"publisher":5510,"udk":5429,"bbk":5429,"shelf_mark":5429,"isbn":5429,"approval_body":5513},"Воронеж",2026,"Министерство науки и высшего образования Российской Федерации",{"short":5505,"full":5511,"address":5512},"Федеральное государственное бюджетное образовательное учреждение высшего образования «Воронежский государственный технический университет»\n","394026, Воронеж, Московский проспект, 14","Издается по решению редакционно-издательского совета\nВоронежского государственного технического университета\n","Учебное пособие охватывает основные методы искусственного интеллекта:\nклассические алгоритмы поиска и логического вывода, постановку задач\nмашинного обучения, классические алгоритмы классификации и регрессии,\nобучение без учителя, методологию оценки и выбора моделей, нейронные\nсети и обработку естественного языка с применением современных\nпредобученных моделей.\n\nПредназначено для студентов бакалавриата, изучающих дисциплины\n«Методы искусственного интеллекта» и смежные курсы по машинному\nобучению. Предполагается базовое владение языком Python и навыки\nпредварительной обработки данных.","\u002Fcourses\u002Faidt-iot-mii",{"title":5462,"description":5429},"courses\u002Faidt-iot-mii\u002Findex","piE67Aq1EFie5slrRu4oHnVNvzYsc6XAWuF13eVVSic",1779455410591]