Home > Àüü±â»ç

[ÁÖ¸»ÆÇ] ¸ö°ª ³ô¿©ÁÖ´Â µ¥ÀÌÅÍ °úÇÐ? ±âº»±â °®Ãß±â

ÀÔ·Â : 2017-10-14 13:40
ÆäÀ̽ººÏ º¸³»±â Æ®À§ÅÍ º¸³»±â ³×À̹ö ¹êµå º¸³»±â Ä«Ä«¿À ½ºÅ丮 º¸³»±â ³×À̹ö ºí·Î±× º¸³»±â
µ¥ÀÌÅÍ °úÇÐÀÇ °¡Àå ¾î·Á¿î Á¡Àº ±â°è¿¡°Ô ¸Ã±ä ÀÚµ¿È­ ó¸®
µ¥ÀÌÅÍ ±¸Á¶ Á¤¸³°ú ¿Ã¹Ù¸¥ ¾Ë°í¸®Áò ¼±ÅÃÀ¸·Î ºÐ¼® È¿À² ³ôÀÏ ¼ö ÀÖ¾î


[º¸¾È´º½º ¹®°¡¿ë ±âÀÚ] Åë»ó ºÐ¼®¿¡ µ¿¿øµÇ´Â µ¥ÀÌÅÍ°¡ ¸¹À¸¸é ¸¹À»¼ö·Ï °á°ú°¡ Á¤È®ÇØÁø´Ù°í ÇÑ´Ù. ¾ÆÀÌ ÇÑ ¸í Å°¿ì¸é¼­ ¡®¸ðµç ¾ÆÀ̵éÀº ¿ï±âºÎÅÍ ÇÑ´Ù¡¯¶ó°í °á·ÐÀ» ³»¸± ¼ö ¾ø°í, º¸¾È °ü·Ã Çà»ç¿¡¼­ ¹®°¡¿ë ±âÀÚ¸¦ º¸°í ¡®º¸¾È´º½º´Â ±âÀÚ¸¦ ¿Ü¸ð·Î »Ì´Â±¸³ª¡¯¶ó°í »ý°¢Çϸé Ȥ¿© º»»ç ¹æ¹®ÇÒ ÀÏÀÌ »ý°åÀ» ¶§ ´Ù¸¥ ±âÀÚµéÀ» º¸°í Ãæ°ÝÀ» ¹ÞÀ» ¼öµµ ÀÖ´Ù. °á·ÐÀ» Á¶½ÉÈ÷ ³»¸°´Ù´Â °Ç ´õ ¸¹Àº »ùÇÃÀ» µé¿©´Ùº»´Ù´Â ¶æ°úµµ ¾î´À Á¤µµ ÀÏÄ¡ÇÑ´Ù.

±×·¡¼­ ±â¾÷µéÀº Àú¸¶´Ù ´õ ¸¹Àº µ¥ÀÌÅ͸¦ È®º¸ÇÏ·Á°í ¾Ö¾²°í, ¸¶Ä§ ±â¼úÀÇ ¹ßÀüÀº µ¥ÀÌÅÍ »ý¼º(°ú Àº¹ÐÇÑ ¼öÁý)¿¡ ¾Ë¸Â°Ô º¯ÇØ°¡°í ÀÖ¾î, ÀÌÁ¦´Â ±× ¸¹Àº µ¥ÀÌÅ͸¦ ¾î¶»°Ô ó¸®ÇÏ´À³Ä°¡ ¸ðµÎÀÇ °í¹ÎÀÎ ½Ã´ë°¡ µÇ¾ú´Ù. ¼ö³â ÀüºÎÅÍ ºò µ¥ÀÌÅͶó´Â ¸ðÈ£ÇÏ°í ºñ°úÇÐÀûÀÎ ¸»ÀÌ ÃÖ÷´Ü ±â¼úÀÎ °Íó·³ À¯ÇàÇÏ°í, ¿äÁò µ¥ÀÌÅÍ °úÇÐ ºÐ¾ß°¡ ¶°¿À¸£´Â °Ô µ¹¹ßÀûÀÎ Çö»óÀº ¾Æ´Ï´Ù. µ¥ÀÌÅÍ °úÇÐÀÚÀÇ ¸ö°ªÀÌ Ä¡¼Ú´Â °Íµµ ÀÌ·± ¿¬À¯´Ù. ±×·¡¼­ µ¥ÀÌÅÍ °úÇÐÀ» Ž±¸Çغ¸°í ½ÍÀº À̵éÀÌ ¹Ýµå½Ã ¾Ë¾ÆµÎ¸é ÁÁÀ» ±âº»ÀûÀÎ ³»¿ëµéÀ» Á¤¸®Çغ¸¾Ò´Ù.

[À̹ÌÁö = iclickart]


µ¥ÀÌÅÍÀÇ Á¾·ù 7°¡Áö
ºò µ¥ÀÌÅͳª µ¥ÀÌÅÍ °úÇÐÀÌ ¹üÁ¢Çϱ⠾î·Á¿î ºÐ¾ßÀÎ °Íó·³ º¸ÀÌ´Â °¡Àå Å« ÀÌÀ¯´Â µ¥ÀÌÅÍÀÇ ¾çÀÌ ¿ö³« ¹æ´ëÇØ ÀÚµ¿È­ ±â¼úÀ» µ¿¿øÇÏ´Â °Ô Çʼö°¡ µÇ¾ú±â ¶§¹®ÀÌ°í, ´ë·®ÀÇ µ¥ÀÌÅ͸¦ °áÇÔ ¾øÀÌ Ã³¸®ÇÒ ÀÚµ¿È­ ±â¼úÀ» ±¸ÇöÇس»´Â °ÍÀÌ ¾î·Á¿î ±â¼úÀ̱⠶§¹®ÀÌ´Ù. ±×·¡¼­ ÇÑ ¶¡ ÇÑ ¶¡ ¼ÕÀ¸·Î ÇÏÁö ¾Ê´Â ÀÌ»ó, ºÐ¼®ÇØ¾ß ÇÒ µ¥ÀÌÅÍÀÇ Á¾·ù¸¦ ³ª´©´Â °Ç µ¥ÀÌÅÍ °úÇп¡¼­ °¡Àå Áß¿äÇÑ ÀÏ Áß Çϳª´Ù.

ÇöÀç±îÁö µ¥ÀÌÅÍ °úÇп¡¼­ ¸»ÇÏ´Â µ¥ÀÌÅÍÀÇ Á¾·ù´Â Å©°Ô 7°¡Áö·Î 1) ±¸Á¶Àû µ¥ÀÌÅÍ(structured data), 2) ºñÁ¤Çü µ¥ÀÌÅÍ(unstructured data), 3) ÀÚ¿¬¾î, 4) ±â°è »ý¼º µ¥ÀÌÅÍ(machine-generated), 5) ±×·¡ÇÁ ±â¹Ý µ¥ÀÌÅÍ(graph-based), 6) ¿Àµð¿À, ºñµð¿À, À̹ÌÁö, 7) ½ºÆ®¸®¹Ö µ¥ÀÌÅÍ´Ù. ÇϳªÇϳª °£·«È÷ »ìÆ캸ÀÚ.

1) ±¸Á¶Àû µ¥ÀÌÅÍ : °£´ÜÈ÷ ¸»ÇØ ºÐ¼®À» ÆíÇÏ°Ô Çϱâ À§ÇØ ÇÑ ¹ø ´õ °¡°øÇÑ µ¥ÀÌÅ͸¦ ¸»ÇÑ´Ù. °íÁ¤µÈ Ç׸ñÀ¸·Î ±¸¼ºµÈ ¾ç½Ä¿¡ µû¶ó µ¥ÀÌÅÍÀÇ ³»¿ëÀÌ ºÐ·ù ¹× Á¤¸®µÇ¾î ÀÖ´Ù. ¿¢¼¿ Ç¥·Î Á¤¸®ÇÑ °¢Á¾ ¹®¼­µéÀ» ¶°¿Ã·Áº¸¸é µÈ´Ù. ÇÏÁö¸¸ ÀϹÝÀûÀ¸·Î ÀÌ·± µ¥ÀÌÅÍ°¡ ¾ß»ý¿¡¼­ µ¹¾Æ´Ù´ÏÁö´Â ¾Ê´Â´Ù. ±×·¨´Ù¸é µ¥ÀÌÅÍ °úÇÐ ºÐ¾ß°¡ ÇÑ°á ½¬¿öÁ³À» °ÍÀÌ´Ù.

2) ºñÁ¤Çü µ¥ÀÌÅÍ : º¸Åë Á¦ÀÏ Ã³À½ ÃßÃâÇÑ µ¥ÀÌÅÍ »ùÇÃÀº ºñÁ¤Çü µ¥ÀÌÅÍ´Ù. ±¸Á¶Àû µ¥ÀÌÅÍ·Î º¯È¯½Ãų ¼öµµ ÀÖÁö¸¸, ¸Å¹ø ±×°Ô °¡´ÉÇÑ °Ç ¾Æ´Ï´Ù. Ưº°ÇÑ ¸Æ¶ô¿¡ µû¶ó Çؼ®ÀÌ ´Þ¸® µÉ ¼ö ÀÖ´Â µ¥ÀÌÅͳª ³»¿ë ÀÚü¿¡ ÀÏ°üµÈ ÆÐÅÏÀÌ ¾øÀ» ¶§´Â ±¸Á¶È­½ÃÅ°´Â °Ô »ó´çÈ÷ ±î´Ù·Î¿öÁø´Ù. °¡Àå ÁÁÀº ¿¹´Â À̸ÞÀÏÀÌ´Ù. ¹°·Ð Á¦¸ñ, ÁÖ¼Ò, º»¹® µîÀÇ ¾ç½ÄÀº Á¤ÇØÁ® ÀÖÁö¸¸, À̸ÞÀÏÀ» ÀÛ¼ºÇÏ´Â »ç¶÷¸¶´Ù »ç¿ëÇϴ ǥÇöÀ̳ª ´µ¾Ó½º°¡ ´Þ¶ó À̸ÞÀÏ ³»¿ëÀ» Á¤È®ÇÏ°Ô ¡®¿¢¼¿Ç¥¡¯·Î Á¤¸®ÇÑ´Ù´Â °Ç ºÒ°¡´É¿¡ °¡±î¿î ÀÏÀÌ µÈ´Ù.

3) ÀÚ¿¬¾î : ÀÚ¿¬¾î ¿ª½Ã ºñÁ¤Çü µ¥ÀÌÅÍ¿¡ ¼ÓÇÑ´Ù°í º¼ ¼ö Àִµ¥, ºñÁ¤Çü µ¥ÀÌÅÍ Áß¿¡¼­µµ Ư¼öÇÑ ¿¹´Ù. ÀÚ¿¬¾î¸¦ ºÐ¼®ÇÏ·Á¸é µ¥ÀÌÅÍ °úÇп¡ ´ëÇÑ Àü¹®ÀûÀÎ Áö½Äµµ ÇÊ¿äÇÏÁö¸¸ ¹«¾ùº¸´Ù ¾ð¾î¿¡ ´ëÇÑ Áö½Äµµ dzºÎÈ÷ °®Ãß°í ÀÖ¾î¾ß Çϱ⠶§¹®ÀÌ´Ù. ÇÑ ¾ð¾î¸¦ °¡Áö°í µ¥ÀÌÅÍ °úÇÐÀûÀÎ ¼º°ú¸¦ ÀÌ·ï³Â´Ù°í ÇÏ´õ¶óµµ, ´Ù¸¥ ¾ð¾î¿¡ ±×´ë·Î Àû¿ëµÉ ¼ö ¾ø´Ù´Â °Íµµ ÀÚ¿¬¾î ó¸® ºÐ¾ßÀÇ Ä¿´Ù¶õ Àå¾Ö¹°ÀÌ´Ù. »ç½Ç Àΰ£ÀÎ ¿ì¸®µµ ¿Ü±¹¾î °øºÎÇÏ´Â °Ô ¾ó¸¶³ª ¾î·Á¿îÁö¸¦ ¶°¿Ã·Áº¸¸é, ÀÌ°É ÀÚµ¿È­ ±â¼ú·Î ºÐ¼®Çس½´Ù´Â °ÍÀÇ ³­À̵µ¸¦ °¡´ÆÇغ¼ ¼ö ÀÖ´Ù.

4) ±â°è°¡ »ý¼ºÇÑ µ¥ÀÌÅÍ : ÄÄÇ»ÅÍ, ±â±â ÇÁ·Î¼¼½º, ¾ÖÇø®ÄÉÀÌ¼Ç µîÀÌ ÀÚµ¿À¸·Î »ý¼ºÇÑ µ¥ÀÌÅ͸¦ ¸»ÇÑ´Ù. ¼­¹ö ·Î±×, ÅëÈ­ ¸ñ·Ï, À̺¥Æ® ·Î±× µîÀÌ ÁÁÀº ¿¹´Ù. Àΰ£ÀÇ °³ÀÔÀÌ ÀÏÀý ¾øÀÌ ¸¸µé¾îÁø´Ù´Â °ÍÀÌ ÁÖ¿äÇÑ Æ¯Â¡ÀÌ´Ù. ÇöÀç Á¡Á¡ ´õ Áß¿äµµ¿Í ºñÁßÀÌ ³ô¾ÆÁö°í ÀÖ°í, ÀÌ·¯ÇÑ Çö»óÀº ´çºÐ°£ Áö¼ÓµÉ Àü¸ÁÀÌ´Ù. ±â°è°¡ »ý¼ºÇÑ µ¥ÀÌÅÍ´Â µ¥ÀÌÅÍ °úÇÐÀ» ¾î¶»°Ô ¾î·Æ°Ô ¸¸µé±î? »ý¼ºµÇ´Â ¼Óµµ¿Í ¾çÀÌ µµÀúÈ÷ °¨´ç ¾È µÇ´Â ¼öÁØÀ̱⠶§¹®ÀÌ´Ù.

5) ±×·¡ÇÁ ±â¹Ý µ¥ÀÌÅÍ : ±×·¡ÇÁ ±â¹Ý µ¥ÀÌÅÍ´Â ³×Æ®¿öÅ© µ¥ÀÌÅͶó°íµµ ºÒ¸®´Âµ¥, ½±°Ô ¸»ÇØ °´Ã¼µé °£ÀÇ °ü°è¼º°ú ±ÙÁ¢¼º¿¡ ´ëÇÑ µ¥ÀÌÅÍ´Ù. ¼Ò¼È ¹Ìµð¾î¿Í °°Àº ¼­ºñ½º¿¡¼­ ¸¹ÀÌ º¼ ¼ö ÀÖ´Ù. ÆäÀ̽ººÏÀ̳ª Æ®À§ÅÍÀÇ Ä£±¸ ¹× Æȷοö ¸ñ·ÏÀ» ÅëÇØ ¿ì¸° ƯÁ¤ Àι°°ú Àι° »çÀÌÀÇ °Å¸®¿Í Ä£¹Ðµµ¸¦ °¡´ÆÇغ¼ ¼ö ÀÖ°í, ºñ½ÁÇÏ°Ô´Â ±â¾÷°ú ¼ÒºñÀÚ °£ÀÇ °Å¸®µµ È®ÀÎÇغ¼ ¼ö ÀÖ´Ù. ÀÌ·± ¼ö¸¹Àº ³×Æ®¿öÅ©°¡ ¼­·Î ¼­·Î °ãÄ¡°í Áߺ¹µÉ ¶§, Èï¹Ì·Î¿î ÅëÂû°ú º¸Áö ¸øÇß´ø »ç¾ÈÀ» ÆľÇÇÒ ¼ö ÀÖ°Ô µÈ´Ù. ÀÌ·± ÅëÂûÀº ÄÄÇ»ÅÍ°¡ ¾ÆÁ÷ ½±°Ô ã¾Æ³¾ ¼ö ¾ø´Ù.

6) ¿Àµð¿À, ºñµð¿À, À̹ÌÁö : ÀÌ·± À¯ÇüÀÇ µ¥ÀÌÅ͸¦ ´Ù·ç°í ºÐ¼®ÇÏ´Â °Ô Àΰ£¿¡°Ô´Â Å« ¾î·Á¿òÀÌ ¾Æ´Ï´Ù. ±×·±µ¥ ÄÄÇ»ÅÍ¿¡°Õ Àý´ë·Î ½¬¿î ÀÏÀÌ ¾Æ´Ï¶ó´Â °á·ÐÀÌ ³»·ÁÁ³´Ù. °£´ÜÇÏ°í À¯¸íÇÑ ¿¹°¡ °³¿Í °í¾çÀÌ »çÁøÀ» ÄÄÇ»ÅÍ¿¡°Ô ±¸ºÐ½ÃÅ°´Â °ÍÀÌ´Ù. Àΰ£Àº ¾ÆÀ̵鵵 ±Ý¹æ Çس¾ ¼ö ÀÖ´Â °ÍÀÌÁö¸¸, ÄÄÇ»ÅÍ¿¡°Ô´Â ÃÖ÷´Ü ¾Ë°í¸®Áò±îÁö µ¿¿øµÇ¾î¾ß ÇÑ´Ù. °Ô´Ù°¡ ÀÌ·± Æ÷¸ËÀÇ µ¥ÀÌÅÍ´Â ¿ë·®µµ Ä¿¼­ ½ºÅ丮Áö¿Í Àü¼Û ¹®Á¦±îÁöµµ ºÎ¼öÀûÀ¸·Î ¹ß»ý½ÃŲ´Ù.

7) ½ºÆ®¸®¹Ö µ¥ÀÌÅÍ : À§ÀÇ ¿©¼¸ °¡Áö ÇüÅ ¸ðµÎ ½ºÆ®¸®¹Ö µÉ ¼ö ÀÖ´Ù. µû¶ó¼­ ¡®½ºÆ®¸®¹Ö µ¥ÀÌÅÍ¡¯´Â µ¥ÀÌÅÍÀÇ ÇÑ Á¾·ù¶ó±âº¸´Ù µ¥ÀÌÅÍ Ã³¸® ¹æ½Ä¿¡ °¡±õ´Ù. µ¥ÀÌÅÍ ½ºÆ®¸®¹ÖÀÇ °¡Àå Å« Ư¡Àº µ¥ÀÌÅÍ°¡ ¹èÄ¡ ÇüÅ·Πµ¥ÀÌÅÍ ÀúÀå¼Ò·Î ·ÎµùµÇ´Â °ÍÀÌ ¾Æ´Ï¶ó, À̺¥Æ®°¡ ¹ß»ýÇÒ ¶§ ½Ã½ºÅÛÀ¸·Î Èê·¯µé¾î°£´Ù´Â °ÍÀÌ´Ù. ÀÌ´Â µ¥ÀÌÅÍ ºÐ¼® ÇÁ·Î¼¼½º ÀÚü¸¦ ¹Ù²ã³õ´Â Ư¡ÀÌ´Ù.

¸» ³ª¿Â ±è¿¡, µ¥ÀÌÅÍ ºÐ¼® ÇÁ·Î¼¼½º
µ¥ÀÌÅÍ °úÇп¡¼­ ¸»ÇÏ´Â ¡®µ¥ÀÌÅÍ ºÐ¼®¡¯¿¡´Â Å©°Ô ¿©¼¸ °¡Áö ÀýÂ÷°¡ Á¸ÀçÇϸç, ÀÌ´Â 1) ¸ñÇ¥ Á¤Çϱâ, 2) µ¥ÀÌÅÍ °Ë»ö(data retrieval), 3) µ¥ÀÌÅÍ Áغñ(data preparation), 4) µ¥ÀÌÅÍ Å½»ö(data exploration), 5) µ¥ÀÌÅÍ ¸ðµ¨¸µ(data modeling), 6) ¹ßÇ¥, Á¦½Ã ¹× ÀÚµ¿È­´Ù. ¿ª½Ã Çϳª Çϳª »ìÆ캸ÀÚ.

1) ¸ñÇ¥ Á¤Çϱâ : µ¥ÀÌÅÍ °úÇÐÀº ±× ÀÚü·Î µ¶¸³µÈ ºÐ¾ß¶ó±âº¸´Ù ±â°üÀ̳ª ±â¾÷¿¡ Á¾¼ÓµÅ Ä¿´Ù¶õ ¸ñÇ¥¿Í È帧 ¾Æ·¡ ±â´ÉÀ» ¹ßÈÖÇÏ´Â °ÍÀÌ º¸ÅëÀÌ´Ù. Áï ¡®µ¥ÀÌÅÍ °úÇÐ ±â¼úÀ» ¹ßÈÖÇØ ¿¬±¸ Á¶»ç¸¦ ½Ç½ÃÇ϶󡯴 ÀÓ¹«°¡ ÁÖ¾îÁö¸é ¾î¶² ¿¬±¸¸¦ ÁøÇàÇÒ °ÍÀÎÁö, ±× ¿¬±¸¸¦ ÅëÇØ ±â¾÷/±â°üÀº ¾î¶² µµ¿òÀ» ¹ÞÀ» ¼ö ÀÖ´ÂÁö, ¾î¶² ÀÚ¿ø/ÅõÀÚ¸¦ ÇÊ¿ä·Î ÇÏ´ÂÁö, ¸¶°¨ÀÏÀº ¹«¾ùÀÎÁö¸¦ ¸ÕÀú »ý°¢ÇØ¾ß ÇÑ´Ù. Ư¼öÇÑ °æ¿ì¸¦ Á¦¿ÜÇÏ°í´Â, ¼ø¼ö ¡®¿¬±¸¸¦ À§ÇÑ ¿¬±¸¡¯´Â µ¥ÀÌÅÍ °úÇÐÀÌ ÁöÇâÇØ¾ß ÇÒ ¹Ù°¡ ¾ÆÁ÷ ¾Æ´Ï´Ù. ¸Å¿ì »ó¾÷ÀûÀÎ ºÐ¾ß¶ó´Â °É ÀØÁö ¸»¾Æ¾ß ÇÑ´Ù.

2) µ¥ÀÌÅÍ °Ë»ö : µÎ ¹ø°·Î´Â µ¥ÀÌÅ͸¦ ã¾Æ¼­ ¸ð¾Æ¾ß ÇÑ´Ù. À§ 1)¹ø ´Ü°è¿¡¼­ ¡®ÇÊ¿äÇÑ ÀÚ¿øÀÌ ¹«¾ùÀÎÁö¡¯ ÆľÇÇÏ°í Á¤ÇØ¾ß ÇÑ´Ù°í Çߴµ¥, ÀÌ ¹üÀ§ ³»¿¡¼­ ÃæºÐÇÑ ÀڷḦ ±¸ÇÏ¸é µÈ´Ù. ¹°·Ð ±¸ÇÏ´Â °úÁ¤ Áß¿¡ µ¥ÀÌÅÍÀÇ ¾çÀÌ ÃæºÐÄ¡ ¸øÇϰųª ÁúÀÌ ÇöÀúÈ÷ ¶³¾îÁ® ÀÇ¹Ì ÀÖ´Â ºÐ¼®ÀÌ ¾î·Æ°Ú´Ù°í ÆÇ´ÜµÈ´Ù¸é ´Ù½Ã 1)¹øÀ¸·Î µ¹¾Æ°¡ µ¥ÀÌÅ͸¦ ±¸ÇÒ ¼ö ÀÖ´Â ´Ù¸¥ °÷À» ³íÀÇÇÏ°í °áÁ¤ÇØ¾ß ÇÑ´Ù.

3) µ¥ÀÌÅÍ Áغñ : ¾î¼¸é µ¥ÀÌÅÍ ºÐ¼® °úÁ¤¿¡ À־ °¡Àå ¾î·Á¿î ºÎºÐÀ̱⵵ ÇÏ´Ù. ¿Ö³ÄÇÏ¸é µ¥ÀÌÅÍ Áغñ °úÁ¤¿¡ ¿À·ù°¡ ÀϾ °¡´É¼ºÀÌ ´ÙºÐÇϱ⠶§¹®ÀÌ´Ù. ¸¶Ä¡ »ì¾óÀ½ À§¸¦ Áö³ªµí ÀÌ °úÁ¤À» Åë°úÇØ¾ß ÇÑ´Ù. ¡®µ¥ÀÌÅÍ Áغñ¡¯´Â Å©°Ô ¼¼ °¡Áö ´Ü°è·Î ±¸¼ºµÇ¾î Àִµ¥, a) ¿À·ù³ª À߸øµÈ °ªµéÀ» »èÁ¦Çس»´Â µ¥ÀÌÅÍ Á¤È­(data cleansing), b) °ü°è¼º ³ôÀº Á¤º¸µéÀ» ÇÕÄ¡°í Â¥±é±âÇØ ´õ dzºÎÇÑ ³»¿ëÀ» À̲ø¾î³»´Â µ¥ÀÌÅÍ ÅëÇÕ(data integration), c) µ¥ÀÌÅÍ ¸ðµ¨¸µ¿¡ ÀûÇÕÇÑ Æ÷¸ËÀ¸·Î º¯È¯½ÃÅ°´Â µ¥ÀÌÅÍ º¯È¯(data transformation)ÀÌ´Ù.

4) µ¥ÀÌÅÍ Å½»ö : ÁغñµÈ µ¥ÀÌÅ͸¦ ÇÑ Ãþ ´õ ±í°Ô »ìÇÇ°í ºÐ¼®ÇÏ´Â °É ¸»ÇÑ´Ù. °¡Áö°í ÀÖ´Â µ¥ÀÌÅÍ¿¡ ¶Ç ´Ù¸¥ º¯¼ö¸¦ ´ëÀÔÇغ¸°í ¾î¶² °á°ú°¡ ³ª¿À´ÂÁö °üÂûÇѴٵ簡, µ¥ÀÌÅÍÀÇ ¹è¿­°ú ºÐÆ÷ ÆÐÅÏÀ» º¯Çü½ÃÅ°´Â µîÀÇ ±â¹ýµéÀÌ È°¿ëµÈ´Ù. Ž±¸Àû ÀÚ·áºÐ¼®(Exploratory Data Analysis)À̶ó°íµµ ºÒ¸°´Ù. ÁÙ¿©¼­ EDA.

5) µ¥ÀÌÅÍ ¸ðµ¨¸µ : À§ ³× °¡Áö °úÁ¤À» °ÅÄ¡¸é¼­ ¾Ë¾Æ³½ °Íµé°ú ½×ÀÎ Áö½ÄÀ» È°¿ëÇØ Á¦ÀÏ Ã³À½ µ¥ÀÌÅÍ ºÐ¼®À» ½ÃÀÛÇÏ°Ô ÇÑ Á¶Á÷ÀÇ ÇÊ¿ä »çÇ× ¹× Áú¹®µé¿¡ ´äÀ» ³»³õ´Â °úÁ¤ÀÌ´Ù. ´Ù½Ã 1)¹øÀ¸·Î µ¹¾Æ°¡ óÀ½ ¿¬±¸ ¸ñÀû¿¡ ¸Â°Ô °á°ú¸¦ Á¤µ·ÇÏ´Â °úÁ¤À̶ó°íµµ º¼ ¼ö ÀÖ´Ù. ´äÀ» Á¶ÀÛÇÏ´Â °Ô ¾Æ´Ï¶ó, Åë°èÇÐ, ¸Ó½Å·¯´×, ¿ÀÆÛ·¹ÀÌ¼Ç ¸®¼­Ä¡(operations research) µîÀÇ ±â¹ýÀ» È°¿ëÇØ, ¿¬±¸¸¦ ÀÇ·ÚÇÑ ÀÚ°¡ ³³µæÇÒ¸¸ÇÑ °á·ÐÀ» ³»´Â °ÍÀÌ´Ù.

6) ¹ßÇ¥, Á¦½Ã ¹× ÀÚµ¿È­ : ´äÀ» ³»·ÈÀ¸¸é ±×°É ÀÌÁ¦ Á¶Á÷ Àüü¿¡ ¾Ë·ÁÁà¾ß ÇÒ Â÷·Ê´Ù. »ç¾È¿¡ µû¶ó Àü ÀÓ¿øÀ» ¼ÒÁýÇØ ¹ßÇ¥ÇØ¾ß ÇÒ ¼öµµ ÀÖÁö¸¸, ¾ÕÀ¸·Î µ¥ÀÌÅÍ ºÐ¼® »ç·Ê°¡ ºó¹øÇØÁö¸é¼­ ÀÌ·± °á°úµéÀÌ Á» ´õ ºü¸£°í °¡º±°í Æí¸®ÇÏ°Ô °øÀ¯µÇ´Â ¹æÇâÀ¸·Î °¥ °ÍÀ¸·Î º¸ÀδÙ. 5)¹ø °úÁ¤¿¡¼­ ¸ðµ¨¸µÇÑ °á°ú¸¦ Àü Á÷¿ø ȤÀº ƯÁ¤ÀÎ ´©±º°¡°¡ º¼ ¼ö ÀÖµµ·Ï º¯È¯½ÃÄÑ ¹èÆ÷ÇÏ´Â °úÁ¤À» ÀÚµ¿È­ÇÏ´Â °ÍÀÌ ÃÖ±ÙÀÇ Æ®·»µå´Ù.

µ¥ÀÌÅÍ´Â Å«µ¥ ÄÄÇ»ÅÍ´Â µü ÇÑ ´ëÀÏ ¶§
µ¥ÀÌÅÍ °úÇп¡ Á¦´ë·Î µÈ ÅõÀÚ¸¦ ÇÏ´Â °÷ÀÌ ¾Æ´Ï¶ó¸é ÄÄÇ»ÅÍ ¿ë·®º¸´Ù ´õ ¸¹Àº µ¥ÀÌÅ͸¦ ó¸®ÇØ¾ß ÇÏ´Â ³­°ü¿¡ ºÎµúÈú ¶§°¡ ÀÖÀ»Áöµµ ¸ð¸¥´Ù. ÄÄÇ»ÅÍ´Â RAMÀÇ ÇÑ°è, Çϵåµå¶óÀ̺êÀÇ ÇÑ°è°¡ ¸íÈ®ÇÑ ±â°è´Ù. ¿©±â¿¡ µ¥ÀÌÅ͸¦ ºÎÀ¸¸é ºÎÀ»¼ö·Ï OS°¡ ¸Þ¸ð¸® ºí·ÏÀ» µð½ºÅ© °ø°£À¸·Î ´ëüÇϴµ¥, ÀÌ´Â ¸Å¿ì ºñÈ¿À²ÀûÀÎ ¹æ½ÄÀÌ´Ù.

°Ô´Ù°¡ ´ë¿ë·® µ¥ÀÌÅ͸¦ ´Ù·ê ¼ö ÀÖ´Â ¾Ë°í¸®ÁòÀº ¾ó¸¶ µÇÁö ¾Ê°í, ÀÌµé ´ëºÎºÐÀº µ¥ÀÌÅͼ Àüü¸¦ ¸Þ¸ð¸®¿¡ ÇÑ ¹ø¿¡ ·Îµù½ÃŲ´Ù. ½ÉÁö¾î µ¥ÀÌÅͼÂÀ» ¿©·¯ ¹ø º¹Á¦ÇØ ÀüºÎ º¸°üÇÏ´Â ¾Ë°í¸®Áòµµ ÀÖ´Ù. ÄÄÇ»ÅÍ¿¡¼­ Áõ±â°¡ ³ªµµ ÀÌ»óÇÏÁö ¾ÊÀº ÀÏÀÌ ³»ºÎ¿¡¼­ ¹ú¾îÁö°í ÀÖ´Â °ÍÀÌ´Ù. ÀÌ·± ÀÚ¿øÀûÀÎ ÇÑ°è ¿ª½Ã µ¥ÀÌÅÍ °úÇÐÀÇ ³­À̵µ¸¦ ¿Ã·Á³õ´Â ºÎºÐÀÌ´Ù. ÄÄÇ»ÅÍ°¡ ÃæºÐÄ¡ ¾ÊÀ» ¶§ ´ë¿ë·® µ¥ÀÌÅ͸¦ ºÐ¼®ÇÏ´Â ÀϹÝÀûÀÎ ¹æ¹ý·Ð¿¡ ´ëÇØ ¾Ë¾Æº¸ÀÚ.

1) ¿Ã¹Ù¸¥ ¾Ë°í¸®Áò ¼±ÅÃÇϱâ : µ¥ÀÌÅÍ´Â ¸¹À¸¸é ¸¹À»¼ö·Ï ÁÁÁö¸¸ ¾Ë°í¸®ÁòÀº ±×·¸Áö ¾Ê´Ù. ¾Ë°í¸®ÁòÀ» Á¦´ë·Î °í¸£¸é, Çϵå¿þ¾î¸¦ Ãß°¡ÇÏ´Â °Íº¸´Ù È¿À²¼ºÀ» ³ôÀÌ´Â °Íº¸´Ù È¿À²ÀÌ ³ô¾ÆÁú ¼öµµ ÀÖ´Ù. ÀÚ¿ø È¿À²À» ³ô¿©ÁÖ´Â ¾Ë°í¸®Áò¿¡´Â Å©°Ô ¼¼ °¡Áö°¡ Àִµ¥, ¿Â¶óÀÎ ¾Ë°í¸®Áò(online algorithm), ºí·Ï ¾Ë°í¸®Áò(block algorithm), ¸Ê¸®µà½º ¾Ë°í¸®Áò(MapReduce algorithm)ÀÌ ¹Ù·Î ±×°ÍÀÌ´Ù.

¿Â¶óÀÎ ¾Ë°í¸®ÁòÀº ¹º°¡°¡ ÀÔ·ÂÀÌ µÉ ¶§¸¶´Ù ¼öÇàµÇ°í, ¼öÇàÀÌ ³¡³­ ÈÄ¿¡´Â ÀÔ·ÂµÈ °ªÀÌ ÈֹߵǴ ÇüÅÂÀÇ ¾Ë°í¸®ÁòÀÌ´Ù. Áï ±×¶§±×¶§ÀÇ ÀÏÀ» ó¸®ÇØÁÖ´Â, µÚ³¡ÀÌ ¾ø¾îµµ ³Ê¹« ¾ø´Â ¾Ë°í¸®ÁòÀ¸·Î ¸Þ¸ð¸® ¸®¼Ò½º°¡ ÀûÀº »óȲ¿¡ ¾Ë¸Â´Ù. ºí·Ï ¾Ë°í¸®ÁòÀº ¾öû³­ ±æÀÌÀÇ ¼ö½ÄÀ» ºí·Ï ´ÜÀ§·Î Àß°Ô ÂÉ°³¼­ °³º°ÀûÀ¸·Î ¼öÇàÇÏ´Â ¾Ë°í¸®ÁòÀÌ´Ù.

¸Ê¸®µà½º ¾Ë°í¸®ÁòÀº ºí·Ï ¾Ë°í¸®Áò°ú ºñ½ÁÇѵ¥, Àü¹®°¡µéÀº ÀÌÇظ¦ µ½±â À§ÇØ ´ëÅë·É ¼±°Å °³Ç¥ »óȲ¿¡ ºñÀ¯Çϱ⵵ ÇÑ´Ù. ¼±°Å ÈÄ °³Ç¥ÇÒ ¶§ ÇÑ »ç¶÷ÀÌ ¸ðµç Ç¥¸¦ Àü±¹¿¡¼­ºÎÅÍ ¼ö°ÅÇØ ÇϳªÇϳª ¹ãÀ» ¼¼¿ö°¡¸ç Áý°èÇÏ´Â °ÍÀÌ ¾Æ´Ï¶ó °¢ ÅõÇ¥¼Ò³ª ÁöÁ¤µÈ Àå¼Ò¿¡¼­ »ç¶÷µéÀÌ ¸ÃÀº ºÐ·®¸¸ ºü¸£°Ô ó¸®Çؼ­ ±× °á°ú¸¦ Áß¾Ó¿¡ Å뺸Çϸé, Áß¾Ó¿¡¼­´Â º¸°íµÈ ¼ýÀÚ¸¸ ÇÕÄ¡´Â °Í°ú ºñ½ÁÇÏ´Ù°í ÇÑ´Ù.

2) ¿Ã¹Ù¸¥ µ¥ÀÌÅÍ ±¸Á¶ ¼±ÅÃÇϱâ : ¾Ë°í¸®Áò¸¸Å­ Áß¿äÇÑ °Ô µ¥ÀÌÅÍ ÀúÀå ¹æ½Ä, Áï µ¥ÀÌÅÍ ±¸Á¶´Ù. ÆÄÀÏ ÀúÀå ±¸Á¶¿¡ µû¶ó CRUD(create, read, update, delete)ÀÇ ±â´É¼ºÀÌ °áÁ¤µÇ±âµµ ÇÑ´Ù. ¾Ë°í¸®Áò¸¸Å­ µ¥ÀÌÅÍ ±¸Á¶¿¡µµ ¿©·¯ °¡Áö Á¾·ù°¡ ÀÖ¾î, °¡Àå ÀûÇÕÇÑ °ÍÀ» ¼±ÅÃÇÏ´Â °ÍÀÌ ÀÚ¿ø »ç¿ëÀÇ È¿À²À» ³ô¿©ÁØ´Ù. ¸î °¡Áö ´ëÇ¥ÀûÀÎ °ÍÀ» »ìÆ캸¸é ´ÙÀ½°ú °°´Ù.

¸ÕÀú ½ºÆĽº µ¥ÀÌÅÍ(sparse data)¶ó´Â °Ô ÀÖ´Ù. ¼Ò·®ÀÇ µ¥ÀÌÅ͸¦ ¶æÇÑ´Ù. Á¤º¸°¡ °ÅÀÇ µé¾îÀÖÁö ¾ÊÀº µ¥ÀÌÅͶó°í Çϸé, ¹°À½Ç¥°¡ ¶°¿À¸£±â ½Ê»óÀε¥, ÅؽºÆ® µ¥ÀÌÅ͸¦ ¹ÙÀ̳ʸ® µ¥ÀÌÅÍ·Î º¯È¯ÇÒ ¶§ ÀÌ·¯ÇÑ µ¥ÀÌÅÍ°¡ ÀÚÁÖ »ý¼ºµÈ´Ù. ¿¹¸¦ µé¾î ºÐ¼® ¸ñÀû°ú Å©°Ô »ó°ü¾ø´Â Æ®À§ÅÍ ÅؽºÆ® 10¸¸°³¸¦ »ó»óÇغ¸ÀÚ. ÀÌ ÅؽºÆ®¸¦ ÀüºÎ ÀúÀåÇÏ´Â °Ç ºñÈ¿À²ÀûÀÌ´Ù. »ó°ü¼ºÀÌ ³ôÀº ´Ü¾î°¡ ÀÖÀ¸¸é 1, ¾øÀ¸¸é 0À¸·Î º¯È¯½ÃÄÑ ÀúÀåÇÏ¸é ¿ë·®À» Å©°Ô ÁÙÀÏ ¼ö ÀÖ´Ù.

Æ®¸® ±¸Á¶(tree structure)µµ ÈçÈ÷ »ç¿ëµÈ´Ù. ÀÌ´Â µ¥ÀÌÅÍµé °£ÀÇ °ü°è±îÁöµµ ÇÑ ¹ø¿¡ ³ªÅ¸³¾ ¼ö ÀÖ´Ù´Â Á¡¿¡¼­ È¿À²ÀûÀÎ ±¸Á¶·Î Æò°¡µÈ´Ù. ¶ÇÇÑ µ¥ÀÌÅͺ£À̽º¸¦ ±¸ÃàÇÒ ¶§µµ Æ®¸® ±¸Á¶°¡ ¾Ö¿ëµÈ´Ù. Çؽà Å×À̺í(hash table)Àº µ¥ÀÌÅÍ ³»ÀÇ ¸ðµç °ª¿¡ ´ëÇÑ Å°(key)¸¦ °è»êÇÏ°í, ±× Å°¸¦ ¹öŶ(bucket) ¾È¿¡ ³Ö¾îµÎ´Â ¹æ½ÄÀÇ µ¥ÀÌÅÍ ±¸Á¶´Ù. ¿øÇÏ´Â Á¤º¸¸¦ ºü¸£°Ô °Ë»öÇÒ ¼ö ÀÖ´Ù´Â ÀåÁ¡ÀÌ ÀÖ´Ù.

3) ¿Ã¹Ù¸¥ Åø ¼±ÅÃÇϱâ : ¾Ë°í¸®Áò°ú µ¥ÀÌÅÍ ±¸Á¶¸¦ °áÁ¤Çß´Ù¸é ¡®ÁøÂ¥ ÀÏ¡¯À» ½ÃÀÛÇÒ Ã¤ºñ°¡ µÇ¾ú´Ù´Â ¶æÀÌ´Ù. ÀÌ ¡®ÁøÂ¥ ÀÏ¡¯À» ÇÏ·Á¸é µµ±¸°¡ ÇÊ¿äÇѵ¥, ÄÄÇ»ÅͶó´Â ÀÚ¿ø¿¡ ÇÑ°è°¡ ÀÖ´Â »óȲÀ̹ǷΠµµ±¸µµ ÇԺηΠÁ¤ÇÒ ¼ö ¾ø´Ù. µ¥ÀÌÅÍ ºÐ¼®°ú °úÇп¡ »ç¿ëµÇ´Â µµ±¸°¡ ÇѵΠ°¡Áö´Â ¾Æ´ÏÁö¸¸ Çö ½ÃÁ¡¿¡¼­ °¡Àå ³Î¸® »ç¿ëµÇ´Â °Ç ÆÄÀ̼±ÀÌ´Ù. ÆÄÀ̼±¿¡´Â ´ë¿ë·® µ¥ÀÌÅ͸¦ ó¸®Çϵµ·Ï µµ¿ÍÁÖ´Â ´Ù¾çÇÑ ¶óÀ̺귯¸®µéÀÌ Á¸ÀçÇÑ´Ù.

ÄÄÇ»ÅÍ¿¡°Ô ÀÖ¾î 1+1°ú 1.0+1.0Àº ÀüÇô ´Ù¸¥ °è»êÀÌ´Ù. Çϳª´Â integer¶ó´Â µ¥ÀÌÅÍ À¯ÇüÀÇ °è»êÀÌ°í ´Ù¸¥ Çϳª´Â float¶ó´Â À¯ÇüÀÇ °è»ê½ÄÀ̱⠶§¹®ÀÌ´Ù. integer¿Í float °è»êÀº CPU ³» ´Ù¸¥ ºÎºÐ¿¡¼­ 󸮵ȴÙ. ±×·¡¼­ ÇÁ·Î±×·¡¸ÓµéÀº µ¥ÀÌÅÍ Á¾·ù¸¦ ¹Ì¸® ±ÔÁ¤ÇصдÙ. ±×·¯³ª ÆÄÀ̼±Àº µ¥ÀÌÅÍ Á¾·ù ±ÔÁ¤À» ÇÊ¿ä·Î ÇÏÁö ¾Ê¾Æ Æí¸®¼ºÀº ³ô¿©ÁÖÁö¸¸, ¼Óµµ³ª È¿À²¼ºÀº ¶³¾îÁø´Ù. ÀÌ ¹®Á¦¸¦ ÇØ°áÇØÁÖ´Â °Ô a) Ä«À̼±(Cython)ÀÌ´Ù.

±×¹Û¿¡ NumPyÀÇ ¼ö½Ä Æò°¡ÀÚÀÎ b) Numexprµµ NumPyº¸´Ù ÈξÀ ºü¸£´Ù°í ¾Ë·ÁÁ® ÀÖ°í, NumPy¸¦ »ç¿ëÇÏ´Ù°¡ out of memory ¿À·ù°¡ ¹ß»ýÇϸé c) Bcolz¸¦ »ç¿ëÇϸé ÇØ°áÀÌ °¡´ÉÇÏ´Ù. d) Numba´Â ½ÇÇà Á÷Àü¿¡ ÄÄÆÄÀÏÀ» ÇÔÀ¸·Î½á ¿ª½Ã ó¸® ¼Óµµ¸¦ ´ëÆø ³ôÀδÙ. ÆÄÀ̼± Äڵ带 SQL·Î º¯È¯½ÃÅ°´Â d) Blaze´Â °ü°èÇü µ¥ÀÌÅͺ£À̽ºº¸´Ù µ¥ÀÌÅÍ Ã³¸® ¹üÀ§°¡ ³Ð´Ù°í ¾Ë·ÁÁ® ÀÖÀ¸³ª ¾ÆÁ÷ °³¹ß Áß¿¡ ÀÖ´Ù. e) Theano´Â GPU·Î Á÷Á¢ Á¢±ÙÇÒ ¼ö ÀÖµµ·Ï ÇØÁÖ¸ç, f) Dask´Â °è»ê°ú ½ÇÇàÀ¸·ÎÀÇ ÀýÂ÷¸¦ È¿À² ³ô°Ô ¸¸µé¾îÁØ´Ù.

ÀÌ ÆÄÀ̼± ¶óÀ̺귯¸®¿¡ ´ëÇÑ º¸´Ù ÀÚ¼¼ÇÑ ¼³¸í°ú ¼Ò½ÄÀº ¿©·¯ À¥»çÀÌÆ®¸¦ ÅëÇØ °è¼ÓÇؼ­ Á¢ÇÒ ¼ö ÀÖ´Ù.
- Ä«À̼± : http://cython.org/
- Numexpr : https://github.com/pydata/numexpr
- Bcolz : http://bcolz.blosc.org
- Numba : http://numba.pydata.org
- Blaze : http://blaze.readthedocs.org/en/lastest/index.html(¾ÆÁ÷ ÁغñÁß)
- Theano : http://deeplearning.net/software/theano
- Dask : http://dask.pydata.org/en/latest
[±¹Á¦ºÎ ¹®°¡¿ë ±âÀÚ(globoan@boannews.com)]

<ÀúÀÛ±ÇÀÚ: º¸¾È´º½º(www.boannews.com) ¹«´ÜÀüÀç-Àç¹èÆ÷±ÝÁö>

  •  
  • 9
  • ÆäÀ̽ººÏ º¸³»±â Æ®À§ÅÍ º¸³»±â ³×À̹ö ¹êµå º¸³»±â Ä«Ä«¿À ½ºÅ丮 º¸³»±â ³×À̹ö ºí·Î±× º¸³»±â

  • ¡°
  •  SNS¿¡¼­µµ º¸¾È´º½º¸¦ ¹Þ¾Æº¸¼¼¿ä!! 
  • ¡±
¾Æ½ºÆ®·Ð½ÃÅ¥¸®Æ¼ ÆÄ¿öºñÁî 2023³â2¿ù23ÀÏ ½ÃÀÛ ³Ý¾Øµå ÆÄ¿öºñÁî ÁøÇà 2020³â1¿ù8ÀÏ ½ÃÀÛ~2021³â 1¿ù8ÀϱîÁö À§Áîµð¿£¿¡½º 2018
¼³¹®Á¶»ç
³»³â ȸ»ç¿¡ ²À µµÀÔÇÏ°í ½ÍÀº º¸¾È ¼Ö·ç¼Ç ¶Ç´Â Ç÷§ÆûÀº ¹«¾ùÀΰ¡¿ä?
XDR
EDR
AI º¸¾È
Á¦·ÎÆ®·¯½ºÆ®
°ø±Þ¸Á º¸¾È ü°è(SBOM)
Ŭ¶ó¿ìµå º¸¾È ¼Ö·ç¼Ç
±âŸ(´ñ±Û·Î)