두 변수 사이에 선형적인 상관관계가 있다고 강력히 의심이 될 때, 우리는 linear regression을 실시한다.
변수간의 상관관계는 아래와 같이 표현할 수 있다:

주의 할 점이, 이런 선형적인 상관관계가 있다는 전제하에 변수들을 선정해야 하는 것이다. 아무거나 막 가져다 붙이면 안 된다.
적절한 방식으로 수집 된 적절한 데이터를 통해 두 변수간 선형관계를 잘 설명하는 직선을 찾는다.

통계나 계량경제학이 항상 그렇듯, 집단에서 표본을 잘 추출하고, 이를 통해 우리가 모르는 실제의 상관관계를 최대한 추정하는 것이다.
우리는 결국 b값과 잔차(residual)를 통해 각각 β값과 오차를(error) 최대한 추정하고자 하는 것이다. 참고로, 전자는 추정치(estimator)이고, 후자는 모수(parameter)이다.
추가로, 우리는 Linear Regression을 통해 예측 또한 가능하다. 임의의 x값을 통해 y값을 추정하는 것이다. 이를 extrapolation이라고 한다.
Simple linear regression은 아래의 4단계로 절차로 설명이 가능하다. 이 4단계 프레임워크 안에 선형회귀와 관련된 웬만한 질문에 어렵지 않게 답을 할 수 있을 것이다.
CLRM은 가우스 마르코프 정리 5개와 1가지 사항이 더 추가된, 총 6가지 가정에 기반한다:
Linearity:
두 변수간에는 선형적인 상관관계가 있다는 가정이다. (여담으로, Double ML이나 causal forest는 non-parametric한 방법으로 정확성을 높이고, 그 댓가로 설명력을 희생한다)
Zero-conditional mean of error

즉, 오차항의 기댓값은 0이며, x값에 영향을 받지 않음을 의미한다. 밑에 다중선형회귀분석에서 다루겠지만, 오차항의 기댓값이 0이 아니라면 다른 조건을 추가해야 한다.
Homoskedaticity (등분산성)

X값과 무관하게 오차항의 분산이 일정함을 의미한다. Homoskedaticity가 무엇인지 알려면 그 반대 개념인 heteroskedaticity를 알아야 한다. 즉, 오차항의 분산이 일정하지 않고 x의 구간에 따라 다름을 의미한다. 아래의 그림과 같다:

보이는 것과 같이, 왼쪽 그림은 오차의 분산이 일정한 것에 비해 오른쪽 그림은 x값이 늘어날수록 분산이 늘어나는 경향을 보인다.
그럼 이것이 무슨 문제이냐, OLS는 여전히 unbiased하지만 더이상 BLUE가 아니다. OLS는 아웃라이어에게 패널티를 과히 부여하는 경향이 있기 때문이다. 이런 경우 logarithm을 사용해 transformation을 해주거나 weighted leasted square 등을 적용해주는 것이 좋다.
Independence

오차항끼리의 독립성을 의미한다. 이게 왜 중요하냐, 독립성이 보장되지 않으면 2번째 가정, 오차항의 기댓값이 0이라는 가정이 무너져버린다. 아래의 그림을 살펴보자:

이 경우는 오차항이 독립적이지 않은 경우이다. y = sin(x) + x의 그래프인데, 오차에 일정한 패턴이 보임을 알 수 있다. 이 경우 unbiasedness가 성립이 되지 않는다. 즉, 오차의 기댓값이 0이 아니라 x값에 따라 변화한다는 것이다. 이런 문제는 특히나 시계열 데이터에서 많이 관측된다.
이렇게 오차항들이 비독립적인 경우, 더이상 OLS는 BLUE (Best Linear Unbiased Estimator)가 아니다, 즉 더 나은, 편차를 더 줄여주는 linear unbiased estimator가 있음을 의미한다.
간단한 예시로, 성적(y)과 공부시간(x)에 대해 선형회귀분석을 한다고 해보자. 우리의 가정은 학생마다 에러가 독립적이라는 것이다. 하지만 만약 학생들끼리 같이 공부를 해 같은 문제를 틀리는 경향이 있으면 어떨까. 이런 경우 OLS는 효율적인 결과를 내놓기 어렵다. 그럴 땐, 추후 다루겠지만, GLS등을 사용해 보정을 해줄 필요가 있다.