Share on facebook
Share on linkedin
Share on twitter
Share on facebook
Share on linkedin
Share on twitter

회귀분석 기법의 5가지 일반 유형과 각각의 활용 방법

회귀분석은 데이터 분석에 사용되는 매우 강력한 머신러닝 도구이다. 어떻게 작동하는지, 주요 유형에는 어떤 것들이 있는지, 그리고 비즈니스에 어떤 도움을 주는지 알아보자.

 

머신러닝에서 회귀분석의 의미

회귀분석은 종속 변수(목표)와 하나 이상의 독립 변수(예측 변수라고도 함) 간의 미래 사건을 예측하는 방법이다. 예를 들면, 난폭운전과 운전자에 의한 교통사고 총 건수 사이의 상관관계를 예측하거나 비즈니스 상황에서는 특정 금액을 광고에 사용했을 때와 그것이 판매에 미치는 영향 사이의 관계를 예측하는 데 사용할 수 있다.

회귀분석은 머신러닝의 일반적인 모델 중 하나이다. 회귀분석 모델은 수치적 가치를 추정한다는 측면에서 관측치가 어느 범주에 속하는지를 식별하는 분류 모델과 다르다.

회귀분석은 예측, 시계열 모델링 및 변수 간 인과관계 발견 등에 주로 사용된다.

 

회귀분석이 중요한 이유

회귀분석은 실제 응용 프로그램에서 넓게 활용되고 있다. 연속 숫자를 포함하는 모든 머신러닝 문제 해결에 필수적이며, 여기에는 다음을 비롯한 많은 예가 포함된다:

  • · 금융 관련 예측(주택 가격 또는 주가)
  • · 판매 및 프로모션 예측
  • · 자동차 테스트
  • · 날씨 분석 및 예측
  • · 시계열 예측

회귀분석은 두 개 이상의 변수 사이에 유의미한 관계가 존재하는지 여부를 알려줄 뿐만 아니라 그 관계성에 대한 보다 구체적인 정보를 제공할 수 있다. 특히, 여러 변수가 종속 변수에 미치는 영향의 강도를 추정할 수 있다. 만약 한 변수(가령 가격)의 값을 변경하면 회귀분석을 통해 종속 변수(판매)에 어떤 영향을 미칠지 알 수 있다.

기업은 회귀분석을 사용하여 여러 척도로 측정된 변수의 효과를 검정할 수 있다. 활용할 수 있는 도구 상자에 회귀분석을 포함해두면, 예측 모델을 구축할 때 사용할 최상의 변수 집합을 평가하여 예측 정확도를 크게 높일 수 있다.

마지막으로 회귀분석은 데이터 모델링을 사용하여 머신러닝에서 회귀 문제를 해결하는 가장 좋은 방법이다. 차트에 데이터 포인트를 표시하고 이들을 관통하는 가장 적합한 선을 그어 각 데이터 포인트의 오류 가능성을 예측할 수 있다. 즉, 각 데이터 점이 선에서 멀리 떨어져 있을수록 예측 오차가 커진다(이 가장 적합한 선을 회귀선이라고 부르기도 한다).

 

회귀분석의 다양한 유형

1. 선형 회귀(Linear regression)

머신러닝에서 가장 일반적인 회귀분석 유형이라고 할 수 있는 선형 회귀는 예측 변수와 종속 변수로 구성되며, 이 둘은 선형 방식으로 서로 연관지어져 있다. 선형 회귀는 위에서 설명한 대로 가장 적합한 선, 즉 최적적합선을 사용한다.

변수들이 서로 선형적으로 연결되어 있는 경우 선형 회귀를 사용한다. 광고 지출 증가가 판매에 미치는 영향을 예측할 때 등이 예가 될 수 있다. 그러나 선형 회귀분석은 특이치에 영향을 받기 쉬우므로 빅데이터 집합을 분석하는 데 사용해서는 안 된다.

2. 로지스틱 회귀(Logistic regression)

종속 변수에 이산 값이 있는 경우, 다시 말해 0 또는 1, 참 또는 거짓, 흑 또는 백, 스팸 또는 스팸 아닌 것 등의 두 가지 값 중 하나만 취할 수 있는 경우 로지스틱 회귀를 사용하여 데이터를 분석할 수 있다.

로지스틱 회귀는 S자형 곡선을 사용하여 대상 변수와 독립 변수 사이의 관계를 표시한다. 그러나 로지스틱 회귀 분석 방식은 대상 변수에서 거의 동일한 값이 발생하는 대규모 데이터 세트에서 가장 효과가 있다는 사실에 유의해야 한다. 이 경우, 변수들의 순위를 지정할 때 문제를 일으킬 수 있기 때문에 서로 상관성이 높은 독립 변수들이 데이터 집합에 포함되어서는 안 된다. (이것은 multicollinearity, 즉 다중공선성이라고 알려진 현상으로, 회귀 분석에서 사용된 모델의 일부 예측 변수가 다른 예측 변수와 상관 정도가 높아, 데이터 분석 시 부정적인 영향을 미치는 현상을 의미한다.)

3. 리지 회귀(Ridge regression)

그러나, 불가피하게 독립 변수들 사이에 높은 상관 관계가 있는 경우라면 리지 회귀가 더 적합한 접근방식이다. 다중 회귀라고도 불리는 리지 회귀는 정규화 또는 규제화(regularization) 기법으로 알려져 있으며 모델의 복잡성을 줄이는 데 사용된다. 또한 ‘리지 회귀 페널티’로 알려진 약간의 편향, 즉 바이어스(bias)를 사용하여 모델이 과대적합(overfitting)에 덜 취약하게 만든다.

4. 라쏘 회귀(Lasso regression)

라쏘 회귀는 리지 회귀와 같이 모델의 복잡성을 줄여주는 또 다른 정규화 기법이다. 회귀 계수의 절대 사이즈를 금지함으로써 복잡성을 줄인다. 리지 회귀와는 다르게 아예 계수 값을 0에 가깝게 만든다.

그 장점은 기능 선택을 사용할 수 있다는 것이다. 데이터 집합에서 기능 세트를 선택하여 모델을 구축할 수 있다. 라쏘 회귀는 필요한 요소들만 사용하고 나머지를 0으로 설정함으로써 과대적합을 방지할 수 있다.

5. 다항 회귀(Polynomial regression)

다항 회귀는 선형 모델을 사용하여 비선형 데이터 집합을 모델링한다. 이것은 동그란 모양의 구멍에 네모난 모양의 못 또는 말뚝을 끼워 넣는 것과 같다. 다항 회귀는 독립 변수가 여러 개인 선형 회귀를 뜻하는 다중 선형 회귀와 비슷한 방식으로 작동하지만, 비선형 곡선을 사용한다. 즉, 데이터 포인트가 비선형 방식으로 존재할 때 사용한다.

모델은 이 데이터 포인트들을 지정된 수준의 다항식 특성으로 변환하고 선형 모델을 사용하여 모델화한다. 선형 회귀에서 볼 수 있는 직선이 아닌 곡선의 다항식 선을 사용하여 최적적합을 수행한다. 그러나 이 모델은 과대적합으로 나타나기 쉬우므로 이상한 결과치를 피하기 위해서는 끝 부분의 곡선을 분석하는 것이 좋다.

 

회귀 분석에는 위에서 소개한 것들보다 더 많은 종류가 있지만, 이 다섯 가지가 가장 일반적으로 사용되는 것들이다. 가장 적합한 모델을 선택하면 데이터가 가진 잠재력을 최대한 활용하여 더 큰 인사이트를 얻을 수 있다.

 

* 머신러닝을 사용하여 데이터를 실행 가능한 인사이트로 전환하는 방법에 대해 자세히 알아보고자 하시면 문의를 남겨주세요. 애피어의 전문가 팀이 컨설팅을 제공해드립니다.

 

 

애피어에 문의하세요!

문의를 남겨주시면 마케팅 전략을 개선할 수 있는 방법을 찾을 수 있도록 안내해드리겠습니다.

다른 최신 포스트도 둘러보세요!

전문가에게 묻다: Deviance.ai의 리치 윌슨이 말하는 AI의 진화와 채택

리치 윌슨(Rich Wilson)은 처음에는 제트기 엔진용 소프트웨어를 개발하는 일을 했습니다. 2005년부터는 소프트웨어 스타트업을 상업화하는 데 주력하면서, 여러 미국 IT 기업의 유럽 진출을 성공시켰습니다. 특히, 금융 서비스 기술 기업이자 거래에 인공지능(AI)을 활용하는 소규모 헤지펀드인 볼큐브(Volcube)와, 최근에는 AI를 언어 분석에 적용하여 기업이 잠재고객 그룹의 감정을 이해하게 해 주는 오디언스 진단 업체 디비언스(Deviance)를 설립했습니다. 리치는 런던을 중심으로 IT 스타트업은 물론 정치, 젠더, TV, 음악 등의 분야에서 언어학 적용과 관련한 저명한 연설가로 활동하고 있습니다. 마케팅을 포함한 여러 분야에서 AI 및 데이터 기업을 설립하고 지원하신 것으로 알고 있는데, 지금까지의 이력과 현재 하고 계신 일에 대해 간단한 소개를 부탁드립니다. 저는 소프트웨어 개발자 출신으로, 닷컴붐 동안 모토로라(Motorola), 홈베이스(Homebase), 오카도(Ocado) 등의 기업들의 첫 번째 온라인 스토어를 개발했습니다. 이를 통해 커머스 분야를 알게 됐죠. 사무실 밖에서 사람들과 대화하는 것이 아주 즐거웠으며 내가 IT를 사업으로, 사업을 IT로 전환하는 데 재능이 있다는 것을 깨달았습니다. 지난 7년 동안 언어 분석 분야에서 일하면서 주로 데이터를 다뤘습니다. 빠르게 변화하는 데이터를 바탕으로 실험을 계속하면서 헤지펀드를 설립하고 AI를 거래에 적용했습니다. 가장 최근에 설립한 디비언스는 검색으로는 찾을 수 없는 인사이트를 AI를 통해 제공하는 서비스입니다. 우리는 브랜드와 기업이 사람들이 실제 어떻게 느끼고 있는지 이해하도록 지원합니다. 대규모의 대상 그룹에 대해서도 이해를 도울 수 있습니다. 최근 40억 개의 단어를 분석했는데 그 정도로 많은 데이터를 다루는 업체는 제가 알기로는 저희밖에 없습니다.

닮은꼴 모델링: 구매력 높은 고가치 잠재고객을 찾는 가장 효과적인 방법

브랜드를 성장시키려면 고객 기반을 확장해야 한다. 하지만 기존 고객과의 관련성을 유지하면서 새로운 고객들에게 다가가기는 쉽지 않다. 해결할 수 있는 한 가지 방법은 닮은꼴 모델링을 사용하여 현재 고객과 비슷한 특성을 보이는 유사 잠재고객을 발견해내는 것이다. 그렇다면 닮은꼴 모델링이란 무엇이며, 어떤 효과가 있고, 어떻게 작동하는지 알아보자.   닮은꼴 모델링이란 무엇인가? 닮은꼴 모델링(Lookalike Modeling)은 머신러닝 기반 분석  기법으로 현재의 VIP 고객들과 유사한 행동 및 인구통계적 특성을 보이는 일련의 사용자 그룹을 찾아낸다. 전자상거래 브랜드의 경우를 예로 들어보자. VIP 고객들이 주로 평균 미화 150 달러 정도의 주문 금액으로 한 달에 두 번 정도 전자 또는 게임 기기를 구매한다고 가정하자. 닮은꼴 모델링을 사용하면 이와 비슷한 특성을 보이는 사람들을 추가로 발견해낼 수 있다. 비교의 기준이 되는 VIP 고객들을 시드(seed) 고객이라 하고, 이 VIP 고객들과 유사한 행태를 보이는 그룹의 사람들을 닮은꼴(lookalike) 고객이라고 한다.   닮은꼴 모델링의 다양한 효과 닮은꼴 모델링을 활용하면 다음과 같은 다양한 효과를 기대할 수 있다: · 더 많은 판매 기회 창출 닮은꼴 모델링을 사용하면 기존 고객층을 넘어 구매력 있는 고가치 잠재고객을 추가로 발견할 수 있다. 이는 현재의 VIP 고객들과 비슷하게 행동하는 잠재고객을 식별하는 머신러닝의 높은 정확성 덕분이다. · 마케팅 예산 절감 닮은꼴 모델링을 사용하면 고객 데이터베이스에 있는 모든 사용자가 아니라 고가치 유사 고객에게만 마케팅을 집중하는 효과가 있다. 이를 통해 신규 고객 획득 비용은 절감하고 투자수익률은

제3의 AI 물결에 올라타야 할 때

인공지능(AI) 기술의 발전이 아주 흥미로운 지점에 접어들면서 제3의 AI 물결이 밀려들고 있다. 기계가 여러 응용 분야에서 인간의 능력을 뛰어넘으며 다양한 사업 기회를 창출하고 있는 것이다. 기업이 이 기회를 놓치지 않고 최대한 활용하려면 사업 운영 방식을 재점검하고 모든 업무의 중심에 AI를 전진배치해야 한다. 이미 일어난 물결: AI가 바꾸는 사업 방식 제1의 AI 물결은 통계 기반 시스템으로 시작됐다. 가장 잘 알려진 초기 AI 사용 방법은 구글 같은 대형 인터넷 기업이 사용한 정보 검색 알고리즘일 것이다. 페이지랭크 검색 엔진을 생각해 보면 된다. 제2의 물결은 로지스틱 회귀, 서포트 벡터 머신 등 머신 러닝 기술에서 비롯됐다. 이런 기술은 뱅킹과 디지털 마케팅 도구 등 온갖 사업에서 사용된다. 제3의 물결은 이른바 지각 AI(perception AI)에서 그 사용이 명확하게 드러나는 딥 러닝이다. 이 기술은 시각, 청각, 촉각 등 인간의 지각 시스템과 관련이 있다. 음성 인식과 이미지 인식을 생각해 보라. 이런 기술 덕분에 스마트 스피커는 우리의 말을 알아듣고, 이메일 프로그램은 우리가 다음에 쓰려는 글을 예측하며, 휴대폰은 얼굴 인식으로 잠금을 해제한다. 디지털 마케팅 및 광고 도구에서는 고객 행동을 예측하는 데 사용되며, 그밖에도 다양한 사용 사례가 존재한다. 최근 5년 새 발생한 제3의 물결은 이들 분야에서 인간의 역량을 한참 뛰어넘었다. 이런 기술이 실제 제품에 얼마나 잘 적용되어 있는지는 경우에 따라 다르다. 예를 들어 스마트 스피커는 마이크에 대고 크게 말하는 등의 완벽한 조건 하에서는

    저희가 도와드리겠습니다

    문의를 남겨주시면 마케팅 전략을 개선하는 데 도움될 AI 솔루션을 자세히 안내드리겠습니다